jsvmp编译与反编译详解 (1)——实现一个简单的jsvmp

默认分类·爬虫与逆向 · 03-09 · 3453 人浏览

什么是jsvmp

目前,主流的JavaScript代码保护措施主要包括精简、加密和混淆。这些方法的核心思想主要借鉴了传统的软件代码保护技术。然而,由于JavaScript是一种脚本语言,其在传输过程中以带有语法属性的文本源码形式存在,逆向分析比传统的编译后的二进制应用程序更加容易。再加上浏览器性能的提升和调试器功能的日益完善,这些保护方法难以提供有效的保护。

jsvmp(JavaScript Virtual Machine Protection)是一种用于保护JavaScript代码的技术,类似于我们平常看到的代码混淆。但不同的是,它通过将JavaScript代码转换为一种虚拟机指令集来实现代码混淆和保护,具体的执行逻辑由vmp虚拟机来执行,这样可以防止代码被轻易地反编译和理解,从而提高代码的安全性。

对于普通的javascript代码来说,执行逻辑是这样的:

JavaScript代码 -> 词法分析/语法分析 -> 生成AST语法树 -> 生成js指令-> js引擎执行代码

而对于经过vmp混淆后的代码,执行逻辑是这样的,中间多了这么一段:

…… -> 生成AST语法树 -> 将AST转换为vmp指令集 -> 加载进vmp虚拟机 -> js引擎执行代码

在vmp混淆的代码流程中,防护者实现了一个虚拟机来解释和执行这些指令集,并对对虚拟机和指令集进行混淆,这种工作类似于将高级语言编译为汇编的过程,因此,对混淆代直接人肉分析几乎是不可能的

(图片来自梓潼blog)

image-20240906094708382

为什么不用wasm

有些人可能会问,为什么wasm呢?wasm不是能直接编译成字节码,并高效运行吗?

wasm有一个致命的弱点,即wasm和js运行时的环境是隔离的,本身无法直接访问js对象的属性,只能以模块的方式导入导出,这个就决定了它在收集环境参数上受限很大。2020年就有使用wasm的网站,几年过去后,也并未出现大的发展。其次,wasm在执行时必须借助js实现对属性的操作部分,这样频繁的在wasm和js之间交互肯定会带来性能的影响,降低执行效率。同时还需要附带大量代码负责维护两个模块的通信,这势必会带来新的空间开销。

此外,目前可以发现,国内各大厂商的vmp实现几乎天差地别,难以出现通用的反混淆方案,jsvmp的虚拟机设计可以灵活地适应不同的保护需求,相比ast混淆的方式,能够提供更高的安全性,现在对于js混淆来说,已经有了成熟的解混淆方案。尽管在性能上可能会有一定的开销,但在保护代码安全性方面,jsvmp无疑是一个强有力的工具。

jsvmp示例

你能看出这段代码在干什么吗?

function _0x4dff2d(_0x1935a8) {
    return ('undefined' == typeof window ? global : window)['_$webrt_1668687510']('', [, , 'undefined' != typeof Object ? Object : void 0, 'undefined' != typeof Math ? Math : void 0, void 0 !== _0x406f15 ? _0x406f15 : void 0, _0x402a35, _0xeb6638, void 0 !== _0x1d2071 ? _0x1d2071 : void 0, 'undefined' != typeof setTimeout ? setTimeout : void 0, void 0 !== _0x42cf85 ? _0x42cf85 : void 0, void 0, void 0 !== _0x44d375 ? _0x44d375 : void 0, 'undefined' != typeof clearInterval ? clearInterval : void 0, 'undefined' != typeof setInterval ? setInterval : void 0, void 0 !== _0x30f369 ? _0x30f369 : void 0, void 0 !== _0x482d81 ? _0x482d81 : void 0, void 0 !== _0x9d9194 ? _0x9d9194 : void 0, void 0 !== _0x53074b ? _0x53074b : void 0, void 0 !== _0x4d654b ? _0x4d654b : void 0, void 0 !== _0x5a4435 ? _0x5a4435 : void 0, false, void 0 !== _0x296c90 ? _0x296c90 : void 0, void 0 !== _0xea47f9 ? _0xea47f9 : void 0, _0x4dff2d, _0x1935a8], this);
  }

实际上,这段代码是抖音的加密参数流程,执行代码,我们便会得到一串加密参数

image-20240908184526879

而其中这段又臭又长的字符串,便是抖音vmp的执行代码,这其中的每一个字符,都代表着一个抖音vmp的opcode(操作码),字节通过实现了一个虚拟机,来执行这段指令序列。原始代码被转换为虚拟机指令集,虚拟机在运行时解释和执行指令,使得静态分析工具难以有效地分析代码。并且jsvmp会对虚拟机和指令集进行混淆,使得代码难以阅读和理解。虚拟机通常会实现一个栈来存储操作数和中间结果,整个执行流程类似cpu对机器码的处理。

以python为例,我们将如下代码进行编译,就得到python字节码,可以看到每个数字都代表了不同的操作,将python编译为字节码,并交由解释器去执行,就是python执行的过程

import dis

def sample(a,b):
    return a+b

print(dis.dis(sample))
  3           0 RESUME                   0

  4           2 LOAD_FAST                0 (a)
              4 LOAD_FAST                1 (b)
              6 BINARY_OP                0 (+)
             10 RETURN_VALUE

实现一个jsvmp虚拟机

我们可以通过实现一个jsvmp来更好的理解原理,例如,我们定义一个简单的js函数,这个函数只有将两个参数相加并返回的功能:

const originalFunction = function(a, b) {
  return a + b;
};

根据这个例子,我们梳理一下这个函数的执行流程:

  1. 加载参数
  2. 将两个参数相加
  3. 返回结果

因此我们可以根据这代码的需要,预定义一些汇编指令,实现一个最小指令集

  1. LOAD 指令,用于将参数入栈
  2. ADD 指令,用于将两个操作数相加
  3. RETURN 指令,用于从栈中弹出操作数,返回结果

根据我们的指令集,我们便可以将originalFunction编译为汇编代码了。我们省略了一些步骤,这中间要经过我们最熟悉的词法分析语法分析器先转换为ast,然后再经过我们的编译器转换为汇编代码

const instructions = [
  { op: 'LOAD', arg: 'a' },
  { op: 'LOAD', arg: 'b' },
  { op: 'ADD' },
  { op: 'RETURN' }
];

如果实现想上面vmp的效果,我们可以进一步将汇编指令编译为字节码

为了将这个虚拟机指令集编译为字节码,我们需要为每个操作码(op)和参数(arg)分配一个唯一的字节表示,首先定义操作码的字节值

const OPCODES = {
  LOAD: 0x01,
  ADD: 0x02,
  RETURN: 0x03,
};

然后将指令集编译为字节码

function compileToBytecode(instructions) {
  const bytecode = [];
  for (const instr of instructions) {
    bytecode.push(OPCODES[instr.op]);
    if (instr.arg !== undefined) {
      bytecode.push(instr.arg.charCodeAt(0)); // 将参数转换为字节表示
    }
  }
  return bytecode;
}
const bytecode = compileToBytecode(instructions);

最后我们可以得到以下结果

  • LOAD a -> [0x01, 0x61] (0x61 是字符 'a' 的 ASCII 码)
  • LOAD b -> [0x01, 0x62] (0x62 是字符 'b' 的 ASCII 码)
  • ADD -> [0x02]
  • RETURN -> [0x03]

最终的字节码数组为 [0x01, 0x61, 0x01, 0x62, 0x02, 0x03],即 [1, 97, 1, 98, 2, 3]

然后我们再实现一个虚拟机来执行指令,可以看到,到这一步我们的代码逻辑已经和javascript引擎几乎毫无联系了

function VM() {
  this.stack = [];
  this.execute = function(instructions, context) {
    for (let i = 0; i < instructions.length; i++) {
      const instr = instructions[i];
      switch (instr.op) {
        case 'LOAD':
          this.stack.push(context[instr.arg]);
          break;
        case 'ADD':
          const b = this.stack.pop();
          const a = this.stack.pop();
          this.stack.push(a + b);
          break;
        case 'RETURN':
          return this.stack.pop();
      }
    }
  };
}

// 使用虚拟机执行指令集
const vm = new VM();
const result = vm.execute(instructions, { a: 5, b: 3 });
console.log(result); // 输出 8

我们随意的更改vm.execute(instructions, { a: 5, b: 3 });中的传入参数,发现无论如何,虚拟机都能够按照预期执行结果。然而对于分析人员来说,只能看到编译后的字节码,却无法看到源代码,这大大加强了逆向难度

逆向思路

对jsvmp进行逆向工程和反混淆是一项复杂且耗时的任务,根据前文分析,我们可知,最重要的两步为将AST转换为vmp指令集 -> 加载进vmp虚拟机,因此,我们可以重点进行vmp虚拟机分析,并将整个编译过程逆转

1. 分析虚拟机实现

首先,需要理解虚拟机的实现细节,包括指令集和执行逻辑。我们需要找到虚拟机的入口,和每个操作码(opcode)和指令的具体功能。虚拟机通常使用栈来管理函数调用、局部变量和操作数。栈是一种后进先出的数据结构,非常适合用于虚拟机的操作。还需要有一个解释器,用于逐条解释和执行字节码指令。

2. 提取并反编译指令集

从混淆后的代码中提取虚拟机指令集。这可能需要使用动态分析工具,如调试器或内存分析工具,来捕获运行时的指令流。

可以使用ast或手动分析来恢复原始指令集。

4. 重构原始代码

根据反混淆后的指令集,重构出原始JavaScript代码。这一步需要将指令集转换回对应的JavaScript语句和表达式。

我会在后续文章中详解jsvmp反编译的例子

Theme Jasmine by Kent Liao