六神之一xm自从22年年底上线至今,一共有四次比较大的版本更新。每一次迭代基本都是对内部aes算法进行小规模的改造。只不过其编译时使用了混淆,在有价值的汇编指令之间填充了几十上百步的无关汇编指令,导致首次逆向分析时过程极为繁杂与耗时。不过在已有成功经验的基础之上,就能够快速地定位到代码特征并更新算法。
xm中的字节变换主要包括以下三个步骤:
- 从明文中提取固定长度的字节数据做key
- 对提取出的key做aes加密得到加密后的ekey
- 使用ekey对明文进行字节变换
首次分析这段代码时,因为混淆的存在,我也搞不清楚它在做什么,强忍着fuck的冲动把整个过程分析出来,参考代码如:
#define BIC(n, m) (n & (~m))
string plainInfo;
const unsigned long v = 1;
for(int i = 0; i < keyLen; i++){
unsigned char c = *(pKey + i);
unsigned long k = (unsigned long)c;
unsigned long s = *(pSource + i);
s = s & ((v << 0x32) ^ 0xFFFFFFFFFFFFFFFF); //7, 第0x7位
s = s | (((k & 0x80) >> 7) << 0x32);
s = s & ((v << 0x7) ^ 0xFFFFFFFFFFFFFFFF); //第0x6位
s = s | (BIC(BIC(k >> 0x6, 0xfffffffe) >> 0x0, 0xffffffff00000000) << 0x7);
s = s & ((v << 0x19) ^ 0xFFFFFFFFFFFFFFFF); //第0x5位
s = s | (BIC(BIC(k >> 0x5, 0xfffffffe) >> 0x0, 0xffffffff00000000) << 0x19);
s = s & ((v << 0x23) ^ 0xFFFFFFFFFFFFFFFF); //第0x4位
s = s | (BIC(BIC((k >> 4), 0xfffffffe) >> 0x0, 0xffffffff00000000) << 0x23);
s = s & ((v << 0x3c) ^ 0xFFFFFFFFFFFFFFFF); //第0x3位
s = s | (BIC(BIC((k >> 3), 0xfffffffe) >> 0x0, 0xffffffff00000000) << 0x3c);
s = s & ((v << 0x16) ^ 0xFFFFFFFFFFFFFFFF); //第0x2位
s = s | (BIC(BIC(k >> 0x2, 0xfffffffe) >> 0x0, 0xffffffff00000000) << 0x16);
s = s & ((v << 0x28) ^ 0xFFFFFFFFFFFFFFFF); //第0x1位
s = s | (BIC(BIC(k >> 0x1, 0xfffffffe) >> 0x0, 0xffffffff00000000) << 0x28);
s = s & ((v << 0xd) ^ 0xFFFFFFFFFFFFFFFF); //第0x0位
s = s | (BIC((k & 0x1) >> 0, 0xffffffff00000000) << 0xd);
push_long_to_string(plainInfo, s);
}
虽然这样输出结果没有问题,但解密算法怎么搞?只有去理解这块代码在做什么,还好现在是C代码了,理解起来不会再像分析汇编代码时那样麻烦了。
s&((v<<0x32)^ 0xFFFFFFFFFFFFFFFF)
这一类代码的作用就是按拉提取明文的特定位。
BIC(k>>0x6, 0xfffffffe)
按宏定位展开为(k>>0x6) & (~0xfffffffe)
,进一步可以精简为(k>>0x6)&0x1
,这里就能看明白它本质上也是提取特定位。同样的可以将BIC(K>>0x0, 0xffffffff00000000)
简化为(K>>0x0)&0x00000000ffffffff
,这玩意本质上就是一步无意义的多余操作。
经过上面的分析,我们就能够将代码简化为下面这样:
string plainInfo;
const unsigned long v = 1;
for(int i = 0; i < keyLen; i++){
unsigned char c = *(pKey + i);
unsigned long k = (unsigned long)c;
unsigned long s = *(pSource + i);
s = s & (v << 0x32); //7, 第0x7位
s = s | (((k >> 7) & 0x1) << 0x32);
s = s & (v << 0x7); //第0x6位
s = s | (((k >> 0x6) & 0x1) << 0x7);
s = s & (v << 0x19); //第0x5位
s = s | (((k >> 0x5) & 0x1) << 0x19);
s = s & (v << 0x23); //第0x4位
s = s | (((k >> 4) & 0x1) << 0x23);
s = s & (v << 0x3c); //第0x3位
s = s | (((k >> 3) & 0x1) << 0x3c);
s = s & (v << 0x16); //第0x2位
s = s | (((k >> 0x2) & 0x1) << 0x16);
s = s & (v << 0x28); //第0x1位
s = s | (((k >> 0x1) & 0x1) << 0x28);
s = s & (v << 0xd); //第0x0位
s = s | (((k & 0x1) & 0x1) << 0xd);
push_long_to_string(plainInfo, s);
}
如果我们理解的更进一步,可以将代码中特定提取的位0x32/0x7/0x19/0x23/0x3c/0x16/0x28/0xd,转化成特定值0x1004010802402080,代码进一步优化为:
string plainInfo;
const unsigned long v = 0x1004010802402080;
for(int i = 0; i < keyLen; i++){
unsigned char c = *(pKey + i);
unsigned long k = (unsigned long)c;
unsigned long s = *(pSource + i);
k = (((k >> 0x7) & 0x1) << 0x32) |
(((k >> 0x6) & 0x1) << 0x7) |
(((k >> 0x5) & 0x1) << 0x19) |
(((k >> 0x4) & 0x1) << 0x23) |
(((k >> 0x3) & 0x1) << 0x3c) |
(((k >> 0x2) & 0x1) << 0x16) |
(((k >> 0x1) & 0x1) << 0x28) |
(((k & 0x1) & 0x1) << 0xd);
s = s | (v & k);
push_long_to_string(plainInfo, s);
}
至于xm中的aes算法更为复杂,后面有机会再具体介绍分析思路吧。