dolphin 发表于 2019-11-5 18:45:30

天眼查字体还原

字体反爬也就是自定义字体反爬,通过调用自定义的woff文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容!在天眼查里复制公司营业范围时,发现复制出来的文本和实际显示文本不符。由此有了本篇文章。经过一些列的搜索和实践发现。文本中字体的unicode编码对应字体文件中的字形。只需要把字形转换为文本,就可以实现反爬了。这里实现对应,可以采取人工的方式,也可以采取OCR的方式。推荐采用OCR的方式。OCR方式简要步骤如下:1、ttf文件转xml,找出里面所有的字形对应的unicode码,把unicode码转换成文本2、在有字体文件的网页上引入文本,截图,通过OCR软件识别。这里推荐ABBY。3、把识别结果与字形的unicode码对应起来
综上就可以实现字体的还原了
页: [1]
查看完整版本: 天眼查字体还原