找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1349|回复: 0

天眼查字体还原

[复制链接]
发表于 2019-11-5 18:45:30 | 显示全部楼层 |阅读模式

字体反爬也就是自定义字体反爬,通过调用自定义的woff文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容!

在天眼查里复制公司营业范围时,发现复制出来的文本和实际显示文本不符。由此有了本篇文章。经过一些列的搜索和实践发现。文本中字体的unicode编码对应字体文件中的字形。只需要把字形转换为文本,就可以实现反爬了。

这里实现对应,可以采取人工的方式,也可以采取OCR的方式。推荐采用OCR的方式。

OCR方式简要步骤如下:

1、ttf文件转xml,找出里面所有的字形对应的unicode码,把unicode码转换成文本

2、在有字体文件的网页上引入文本,截图,通过OCR软件识别。这里推荐ABBY。

3、把识别结果与字形的unicode码对应起来


综上就可以实现字体的还原了

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表