昨天晚上把一个扫描的文件,经过文字识别,用vim转化成了PDF。这个过程用到了很多编程时养成的习惯,非常有趣,特此记录。
把文本文件扫描成PDF
在PDF中进行文字识别(Text Recognition)
把识别出的文字输出到一个markdown文件:demo.md
a) 输出下划线的时候,为了防止转义,可以当做代码来输入:____
文字____
用vim编辑markdown文件
a) 修改识别错的文字,快捷键是fa, cnw, ctb, n是一个数字,a和b代表一个字母
b) 连接不应该分行的句子🍊,快捷键是shift+j把markdown文件生成html文件:demo.html
pandoc --ascii -f markdown -t html -o demo.html demo.md
问题:html文件的默认表格格式不能让我满意。手工修改html文件中的表格设置:demo.html
a)设置表格总的宽度width:<table style="width:100%;">
b)设置每列的宽度width:<col width="15%" />
c)设置单元格的垂直对齐方式valign:
<td align="left" valign="top">Contents</td>
经验:应用Google Chrome的Developer Tools和学习CSS把html文件生成pdf文件:demo.pdf
wkhtmltopdf demo.html demo.pdf