什么是jsvmp
目前,主流的JavaScript代码保护措施主要包括精简、加密和混淆。这些方法的核心思想主要借鉴了传统的软件代码保护技术。然而,由于JavaScript是一种脚本语言,其在传输过程中以带有语法属性的文本源码形式存在,逆向分析比传统的编译后的二进制应用程序更加容易。再加上浏览器性能的提升和调试器功能的日益完善,这些保护方法难以提供有效的保护。
jsvmp(JavaScript Virtual Machine Protection)是一种用于保护JavaScript代码的技术,类似于我们平常看到的代码混淆。但不同的是,它通过将JavaScript代码转换为一种虚拟机指令集来实现代码混淆和保护,具体的执行逻辑由vmp虚拟机来执行,这样可以防止代码被轻易地反编译和理解,从而提高代码的安全性。
对于普通的javascript代码来说,执行逻辑是这样的:
JavaScript代码 -> 词法分析/语法分析 -> 生成AST语法树 -> 生成js指令-> js引擎执行代码
而对于经过vmp混淆后的代码,执行逻辑是这样的,中间多了这么一段:
…… -> 生成AST语法树 -> 将AST转换为vmp指令集 -> 加载进vmp虚拟机 -> js引擎执行代码
在vmp混淆的代码流程中,防护者实现了一个虚拟机来解释和执行这些指令集,并对对虚拟机和指令集进行混淆,这种工作类似于将高级语言编译为汇编的过程,因此,对混淆代直接人肉分析几乎是不可能的
(图片来自梓潼blog)
为什么不用wasm
有些人可能会问,为什么wasm呢?wasm不是能直接编译成字节码,并高效运行吗?
wasm有一个致命的弱点,即wasm和js运行时的环境是隔离的,本身无法直接访问js对象的属性,只能以模块的方式导入导出,这个就决定了它在收集环境参数上受限很大。2020年就有使用wasm的网站,几年过去后,也并未出现大的发展。其次,wasm在执行时必须借助js实现对属性的操作部分,这样频繁的在wasm和js之间交互肯定会带来性能的影响,降低执行效率。同时还需要附带大量代码负责维护两个模块的通信,这势必会带来新的空间开销。
此外,目前可以发现,国内各大厂商的vmp实现几乎天差地别,难以出现通用的反混淆方案,jsvmp的虚拟机设计可以灵活地适应不同的保护需求,相比ast混淆的方式,能够提供更高的安全性,现在对于js混淆来说,已经有了成熟的解混淆方案。尽管在性能上可能会有一定的开销,但在保护代码安全性方面,jsvmp无疑是一个强有力的工具。
jsvmp示例
你能看出这段代码在干什么吗?
function _0x4dff2d(_0x1935a8) {
return ('undefined' == typeof window ? global : window)['_$webrt_1668687510']('', [, , 'undefined' != typeof Object ? Object : void 0, 'undefined' != typeof Math ? Math : void 0, void 0 !== _0x406f15 ? _0x406f15 : void 0, _0x402a35, _0xeb6638, void 0 !== _0x1d2071 ? _0x1d2071 : void 0, 'undefined' != typeof setTimeout ? setTimeout : void 0, void 0 !== _0x42cf85 ? _0x42cf85 : void 0, void 0, void 0 !== _0x44d375 ? _0x44d375 : void 0, 'undefined' != typeof clearInterval ? clearInterval : void 0, 'undefined' != typeof setInterval ? setInterval : void 0, void 0 !== _0x30f369 ? _0x30f369 : void 0, void 0 !== _0x482d81 ? _0x482d81 : void 0, void 0 !== _0x9d9194 ? _0x9d9194 : void 0, void 0 !== _0x53074b ? _0x53074b : void 0, void 0 !== _0x4d654b ? _0x4d654b : void 0, void 0 !== _0x5a4435 ? _0x5a4435 : void 0, false, void 0 !== _0x296c90 ? _0x296c90 : void 0, void 0 !== _0xea47f9 ? _0xea47f9 : void 0, _0x4dff2d, _0x1935a8], this);
}
实际上,这段代码是抖音的加密参数流程,执行代码,我们便会得到一串加密参数
而其中这段又臭又长的字符串,便是抖音vmp的执行代码,这其中的每一个字符,都代表着一个抖音vmp的opcode(操作码)
,字节通过实现了一个虚拟机,来执行这段指令序列。原始代码被转换为虚拟机指令集,虚拟机在运行时解释和执行指令,使得静态分析工具难以有效地分析代码。并且jsvmp会对虚拟机和指令集进行混淆,使得代码难以阅读和理解。虚拟机通常会实现一个栈来存储操作数和中间结果,整个执行流程类似cpu对机器码的处理。
以python为例,我们将如下代码进行编译,就得到python字节码,可以看到每个数字都代表了不同的操作,将python编译为字节码,并交由解释器去执行,就是python执行的过程
import dis
def sample(a,b):
return a+b
print(dis.dis(sample))
3 0 RESUME 0
4 2 LOAD_FAST 0 (a)
4 LOAD_FAST 1 (b)
6 BINARY_OP 0 (+)
10 RETURN_VALUE
实现一个jsvmp虚拟机
我们可以通过实现一个jsvmp来更好的理解原理,例如,我们定义一个简单的js函数,这个函数只有将两个参数相加并返回的功能:
const originalFunction = function(a, b) {
return a + b;
};
根据这个例子,我们梳理一下这个函数的执行流程:
- 加载参数
- 将两个参数相加
- 返回结果
因此我们可以根据这代码的需要,预定义一些汇编指令,实现一个最小指令集
LOAD
指令,用于将参数入栈ADD
指令,用于将两个操作数相加RETURN
指令,用于从栈中弹出操作数,返回结果
根据我们的指令集,我们便可以将originalFunction
编译为汇编代码了。我们省略了一些步骤,这中间要经过我们最熟悉的词法分析语法分析器先转换为ast,然后再经过我们的编译器转换为汇编代码
const instructions = [
{ op: 'LOAD', arg: 'a' },
{ op: 'LOAD', arg: 'b' },
{ op: 'ADD' },
{ op: 'RETURN' }
];
如果实现想上面vmp的效果,我们可以进一步将汇编指令编译为字节码
为了将这个虚拟机指令集编译为字节码,我们需要为每个操作码(op)和参数(arg)分配一个唯一的字节表示,首先定义操作码的字节值
const OPCODES = {
LOAD: 0x01,
ADD: 0x02,
RETURN: 0x03,
};
然后将指令集编译为字节码
function compileToBytecode(instructions) {
const bytecode = [];
for (const instr of instructions) {
bytecode.push(OPCODES[instr.op]);
if (instr.arg !== undefined) {
bytecode.push(instr.arg.charCodeAt(0)); // 将参数转换为字节表示
}
}
return bytecode;
}
const bytecode = compileToBytecode(instructions);
最后我们可以得到以下结果
LOAD a
->[0x01, 0x61]
(0x61
是字符 'a' 的 ASCII 码)LOAD b
->[0x01, 0x62]
(0x62
是字符 'b' 的 ASCII 码)ADD
->[0x02]
RETURN
->[0x03]
最终的字节码数组为 [0x01, 0x61, 0x01, 0x62, 0x02, 0x03]
,即 [1, 97, 1, 98, 2, 3]
。
然后我们再实现一个虚拟机来执行指令,可以看到,到这一步我们的代码逻辑已经和javascript引擎几乎毫无联系了
function VM() {
this.stack = [];
this.execute = function(instructions, context) {
for (let i = 0; i < instructions.length; i++) {
const instr = instructions[i];
switch (instr.op) {
case 'LOAD':
this.stack.push(context[instr.arg]);
break;
case 'ADD':
const b = this.stack.pop();
const a = this.stack.pop();
this.stack.push(a + b);
break;
case 'RETURN':
return this.stack.pop();
}
}
};
}
// 使用虚拟机执行指令集
const vm = new VM();
const result = vm.execute(instructions, { a: 5, b: 3 });
console.log(result); // 输出 8
我们随意的更改vm.execute(instructions, { a: 5, b: 3 });
中的传入参数,发现无论如何,虚拟机都能够按照预期执行结果。然而对于分析人员来说,只能看到编译后的字节码,却无法看到源代码,这大大加强了逆向难度
逆向思路
对jsvmp进行逆向工程和反混淆是一项复杂且耗时的任务,根据前文分析,我们可知,最重要的两步为将AST转换为vmp指令集 -> 加载进vmp虚拟机,因此,我们可以重点进行vmp虚拟机分析,并将整个编译过程逆转
1. 分析虚拟机实现
首先,需要理解虚拟机的实现细节,包括指令集和执行逻辑。我们需要找到虚拟机的入口,和每个操作码(opcode)和指令的具体功能。虚拟机通常使用栈来管理函数调用、局部变量和操作数。栈是一种后进先出的数据结构,非常适合用于虚拟机的操作。还需要有一个解释器,用于逐条解释和执行字节码指令。
2. 提取并反编译指令集
从混淆后的代码中提取虚拟机指令集。这可能需要使用动态分析工具,如调试器或内存分析工具,来捕获运行时的指令流。
可以使用ast或手动分析来恢复原始指令集。
4. 重构原始代码
根据反混淆后的指令集,重构出原始JavaScript代码。这一步需要将指令集转换回对应的JavaScript语句和表达式。
我会在后续文章中详解jsvmp反编译的例子