iOS逆向工程 - fishhook原理

fishhook是Facebook提供的一个动态修改链接mach-O文件的工具。利用MachO文件加载原理，通过修改懒加载和非懒加载两个表的指针达到C函数HOOK的目的。

前提

在分析fishhook原理前，我们先来想两个问题：
1. Mach-O文件是被谁加载的？
我们知道，在程序启动的时候 Mach-O 文件会被 DYLD （动态加载器）加载进内存。加载完 Mach-O 后，DYLD接着会去加载 Mach-O 所依赖的动态库。
2. 何为ASLR技术？
地址空间布局随机化。它会让 Mach-O 文件加载的时候是随机地址。有了这个技术，Mach-O 文件每次加载进内存的时候地址都是不一样的。主要是为了防止逆向技术。
Mach-O 文件里只有我们自己写的函数，系统的动态库的函数是不在 Mach-O 文件里的。也就是说每次启动从 Mach-O 文件到系统动态库函数的偏移地址都是变化的。

问题

一、那么我们如何在 Mach-O 文件里找到系统的函数地址呢？或者说 Mach-O 文件是如何链接外部函数的呢？

我们程序的底层都是汇编，汇编代码都是写死的内存地址。我们该怎么找呢？而且系统的动态库在内存里面的地址是不固定的，每次启动程序的时候地址都是随机的。
苹果为了能在 Mach-O 文件中访问外部函数，采用了一个技术，叫做PIC（位置代码独立）技术。
当你的应用程序想要调用 Mach-O 文件外部的函数的时候，或者说如果 Mach-O 内部需要调用系统的库函数时，Mach-O 文件会：

先在 Mach-O 文件的 _DATA 段中建立一个指针（8字节的数据，放的全是0），这个指针变量指向外部函数。
DYLD 会动态的进行绑定！将 Mach-O 中的 _DATA 段中的指针，指向外部函数。

所以说，C的底层也有动态的表现。C在内部函数的时候是静态的，在编译后，函数的内存地址就确定了。但是，外部的函数是不能确定的，也就是说C的底层也有动态的。fishhook 之所以能 hook C函数，是利用了 Mach-O 文件的 PIC 技术特点。也就造就了静态语言C也有动态的部分，通过 DYLD 进行动态绑定的时候做了手脚。

我们经常说符号，其实 _DATA 段中建立的指针就是符号。fishhook的原理其实就是，将指向系统方法（外部函数）的符号重新进行绑定指向内部的函数。这样就把系统方法与自己定义的方法进行了交换。这也就是为什么C的内部函数修改不了，自定义的函数修改不了，只能修改 Mach-O 外部的函数。

接下来我们以 NSLog 为例，看 fishhook 是如何通过修改懒加载和非懒加载两个表的指针达到C函数HOOK的目的。（NSLog 是在懒加载表里）
注：对于非懒加载符号表，DYLD会立刻马上去链接动态库
对于懒加载符号表，DYLD会在执行代码的时候去动态的链接动态库

- (void)viewDidLoad {
    [super viewDidLoad];
    // Do any additional setup after loading the view, typically from a nib.
    //这里必须要先加载一次NSLog，如果不写NSLog，符号表里面根本就不会出现NSLog的地址
    NSLog(@"123"); 

    //定义rebinding结构体
    struct rebinding nslogBind;
    //函数的名称
    nslogBind.name = "NSLog";
    //新的函数地址
    nslogBind.replacement = myMethod;
    //保存原始函数地址变量的指针
    nslogBind.replaced = (void *)&old_nslog;
    
    //定义数组
    struct rebinding rebs[] = {nslogBind};
    
    /**
     arg1: 存放rebinding结构体的数组
     arg2: 数组的长度
     */
    rebind_symbols(rebs, 1);
}

//函数指针，用来保存原始的函数地址
static void (*old_nslog)(NSString *format, ...);

//新的NSLog
void myMethod(NSString *format, ...) {
    //再调用原来的
    old_nslog(@"勾上了！");
}

- (void)touchesBegan:(NSSet<UITouch *> *)touches withEvent:(UIEvent *)event {
    NSLog(@"点击屏幕");
}

首先，系统的 NSLog 是在 rebind_symbols(rebs, 1); 方法里替换的，我们可以在这个方法上打个断点。我们可以先看一下，这个函数执行之前，NSLog 在懒加载符号表中的地址是多少，然后在执行之后，它有没有变成我们自己的符号表的地址。

那么，我们如何找到 NSLog 的符号表呢？公式如下：
NSLog 懒加载符号表在内存中的地址 = Mach-O 的偏移地址 + NSLog 懒加载符号表在 Mach-O 的偏移地址
查看符号表在 Mach-O 的偏移地址

符号表在 Mach-O 的偏移地址.png

查看Mach-O 的偏移地址

符号表在 Mach-O 的偏移地址.png

查看符号表绑定的地址，这个地址其实就是指向外部函数的指针的地址，也就是动态缓存区里面 NSLog 的真实函数地址。这一步是找到了 NSLog 的符号表（Symbols）。

符号表绑定的地址.png

这个真实的函数地址是什么时候保存进去的呢？并不是 Mach-O 文件加载进内存的时候保存的。由于 NSLog 在懒加载符号表里面，所有它是在整个 Mach-O 文件启动之后，代码第一次运行 NSLog 时，由 DYLD 绑定该 NSLog 符号指向真实的 NSLog 的地址。
这个时候，我们需要通过反汇编看一下地址的值

NSLog.png

可以看到，这个时候 Mach-O 文件的 _DATA 段中建立的指针已经指向了外部函数。
紧接着单步执行，执行完 rebind_symbols(rebs, 1); 函数
这个时候我们再看一下符号表绑定的地址，我们发现地址已经发生了变化

image.png

再次通过反汇编看一下地址的值

image.png

我们发现 Mach-O 文件的 _DATA 段中建立的指针已经指向了我们自己定义的内部函数。

二、fishhook 是如何通过字符串来找到我们的函数的呢？

//定义rebinding结构体
struct rebinding nslogBind;
//函数的名称
nslogBind.name = "NSLog"; //如何通过字符串来找到函数的？
//新的函数地址
nslogBind.replacement = myMethod;
//保存原始函数地址变量的指针
nslogBind.replaced = (void *)&old_nslog;

我们可以想到的是，Mach-O 文件里面肯定有一个与字符串相关的东西。

image.png

首先，我们从懒加载符号表（Lazy Symbol Pointers）开始入手。懒加载符号表里面第一个符号是 NSLog 的指针。这个懒加载符号表有一个与之一一对应的符号表（Indirect Symbols）。

image.png

上图的 Data 值，是一个真正的符号表的下标。这个符号表是对应着字条串的。比如：NSLog 的 Data 值为0x7A，换成十进制就是122。也就是说 NSLog 这个符号在我们的字符符号表里面的 index 值为122。接着就需要到符号表（Symbols）里面找第122个。这个时候还没到字符串。