pdf转txt出现问题

发布网友发布时间：2022-04-25 03:04

共1个回答

热心网友时间：2023-10-22 13:59

首先先了解一下基本常识：
pdf中有14种标准字体，对于中文，reader也自带一些标准的中文字体，比如宋体黑体等。另外的千奇百怪的字体一般都是用内嵌字体的形式存在的。
1.既然reader允许使用菜单中的另存为文本，这个pdf文件就是允许内容提取的。并没有什么其他的权限*。
2.标准字体的文本提取应该是相对容易的。但如果碰到文本是用内嵌字体表达的很可能就要出现上述情况。而且有的内嵌字体虽然名字跟标准字体相同或相似，但内部的编码被人为的大乱了，所以也可能出现乱码。
3.如果作者在生成的时候把所有的字体信息全部删除，用各种矢量图形来画各种字，那么提取文本的工作就不能用“另存为文本”这个功能了。完全无效。

目前没有绝对好的办法。如果碰到这些的问题。我的办法是先用acrobat自带的OCR工具或者其他支持pdf的OCR工具去识别。这样就会得到大部分的文本内容。当然OCR工具不是万能的，错误率还是经常存在的，特别是一些不太规则的字体。

最后，pdf文档本身的原意并不希望用户去得到里面的信息，所以这种逆向的操作是比较困难的。

参考资料：foxit pdf 专家