这是我个人用来学习编译原理,练习实现的工具
假设我们有一个数据文本文件如下:
0x00000001, 0x0000012a, 0x01042018, 0x000406d8,
0x7cacb989, 0x00000001, 0x00000001, 0x00014bd0,
0x00014c00, 0x00000000, 0x00000000, 0x00000000,
0x00000000, 0x000000a1, 0x00020001, 0x0000012a,
0x00000000, 0x00000000, 0x20180103, 0x00005271,
0x00000001, 0x000406d8, 0x00000000, 0x00000000,
0x00000000, 0x00000000, 0x00000000, 0x00000000,
0x00000000, 0x000052f4, 0x00000000, 0x00000000,
0x00000000, 0x00000000, 0x00000000, 0x00000000,
...
我们要将其转为二进制数据存储,利用hexdump 查看如下
0000000 0001 0000 012a 0000 2018 0104 06d8 0004
0000010 b989 7cac 0001 0000 0001 0000 4bd0 0001
0000020 4c00 0001 0000 0000 0000 0000 0000 0000
0000030 0000 0000 00a1 0000 0001 0002 012a 0000
0000040 0000 0000 0000 0000 0103 2018 5271 0000
0000050 0001 0000 06d8 0004 0000 0000 0000 0000
0000060 0000 0000 0000 0000 0000 0000 0000 0000
0000070 0000 0000 52f4 0000 0000 0000 0000 0000
用c语言实现此项功能很简单,一般需要如下几步
- 按行读取文件
- 利用strchr 或 strtok函数分割字符串
- 解析数据,转换(此时要考虑大小端),存储到文件。
如果从编译原理的角度考虑这个问题可以为:
- 编译一个文本文件为二进制数据文件
- 这比实现c语言到机器码要简单的多
- 不够实现起来依然要考虑分词,语法分析,状态转移,后端调优等动作。
目前的实现:
- 采用逐字解析,解析过程不回溯。
- 不生成语法树
3 一轮编译,后端调优以大小端转化的形式模拟。
调试期间遇到的问题:
- 混淆了 get_token get_next_token的语义
- get_token 直接返回了指针,导致后续判断逻辑混乱,应直接返回ascii码
- EOF判断逻辑混乱,EOF判断应在解析最上层判断
下一步:
- 重写strtol语义函数
- 后续会更新此仓库,完成对编译原理基本知识的学习
代码:
代码放在了github