pdf转txt出现问题
发布网友
发布时间:2022-04-25 03:04
我来回答
共1个回答
热心网友
时间:2023-10-22 13:59
首先先了解一下基本常识:
pdf中有14种标准字体,对于中文,reader也自带一些标准的中文字体,比如宋体黑体等。另外的千奇百怪的字体一般都是用内嵌字体的形式存在的。
1.既然reader允许使用菜单中的另存为文本,这个pdf文件就是允许内容提取的。并没有什么其他的权限*。
2.标准字体的文本提取应该是相对容易的。但如果碰到文本是用内嵌字体表达的很可能就要出现上述情况。而且有的内嵌字体虽然名字跟标准字体相同或相似,但内部的编码被人为的大乱了,所以也可能出现乱码。
3.如果作者在生成的时候把所有的字体信息全部删除,用各种矢量图形来画各种字,那么提取文本的工作就不能用“另存为文本”这个功能了。完全无效。
目前没有绝对好的办法。如果碰到这些的问题。我的办法是先用acrobat自带的OCR工具或者其他支持pdf的OCR工具去识别。这样就会得到大部分的文本内容。当然OCR工具不是万能的,错误率还是经常存在的,特别是一些不太规则的字体。
最后,pdf文档本身的原意并不希望用户去得到里面的信息,所以这种逆向的操作是比较困难的 。
参考资料:foxit pdf 专家