问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

pdf转txt出现问题

发布网友 发布时间:2022-04-25 03:04

我来回答

1个回答

热心网友 时间:2023-10-22 13:59

首先先了解一下基本常识:
pdf中有14种标准字体,对于中文,reader也自带一些标准的中文字体,比如宋体黑体等。另外的千奇百怪的字体一般都是用内嵌字体的形式存在的。
1.既然reader允许使用菜单中的另存为文本,这个pdf文件就是允许内容提取的。并没有什么其他的权限*。
2.标准字体的文本提取应该是相对容易的。但如果碰到文本是用内嵌字体表达的很可能就要出现上述情况。而且有的内嵌字体虽然名字跟标准字体相同或相似,但内部的编码被人为的大乱了,所以也可能出现乱码。
3.如果作者在生成的时候把所有的字体信息全部删除,用各种矢量图形来画各种字,那么提取文本的工作就不能用“另存为文本”这个功能了。完全无效。

目前没有绝对好的办法。如果碰到这些的问题。我的办法是先用acrobat自带的OCR工具或者其他支持pdf的OCR工具去识别。这样就会得到大部分的文本内容。当然OCR工具不是万能的,错误率还是经常存在的,特别是一些不太规则的字体。

最后,pdf文档本身的原意并不希望用户去得到里面的信息,所以这种逆向的操作是比较困难的 。

参考资料:foxit pdf 专家

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
王菲哪首歌会让你感叹此曲 此声只应天上有? 请把‘’思念佩琴‘’写成诗 想给当兵男朋友思念藏情诗,他名字“国义”急 子亦几时客,安能长苦悲。 带“一朝”的五言诗句 “念君一朝意”的出处是哪里 爱吃蛋糕的人都是什么性格 喜欢吃蛋糕吗? 湖南高岭土多少钱一吨 断烧高岭土多少钱一吨 求欧洲明星队和曼联比赛时欧洲队的 球员名单 为什么有的pdf图书不能被转换为txt格式 太谷私人借钱联系方式 中国陆军特种兵的单兵作战武器有什么??? 曼联和欧洲明星队谁赢了?比分?出场名单? 10U卡里克性价比怎么样 如何解决pdf转换成txt乱码 六安私人放款联系方式 迈克尔·卡里克的社会评价 中国的军用手雷是什莫型号的?有图更好 为什么不能将PDF文件在线转换成txt文件了 日照高利贷联系方式 费迪南德,兰帕德,卡里克和乔科尔在西汉姆联时期的号码 有的PDF好象转换不了TXT 卡里克 进球视频 淄博私人借钱联系方式 PDF为什么在线转换不了TXT 中国73型小型钢珠手榴弹有哪些特点? fifaonline3曼联套卡里克什么赛季 宁乡去长沙,2个人的话拼车要多少钱?联系方式有吗 阿隆索,皮尔洛,哈维,卡里克选一个,哪个赛季 岳阳借钱公司 个人借钱打借条怎么打 欧冠小组赛曼联战胜黄潜提前小组出线,你怎么看? 现在中国的手雷的杀伤范围是多少? 如何将PDF转成TXT?(adobe reader转换不了) 海阳私人借钱联系方式 卡佩罗难道想让卡里克当巴里的替补!! 听说雷纳助攻和卡里克一样多`这是真的吗 pdf转txt问题 大同私人借钱联系方式 尼泊利特手榴弹有哪些型号? pdf转txt转不了 汾阳私人借钱联系方式 为什么日本中小女学生普遍都穿短裙呢? 为什么pdf有的能转为txt,有的不能 锦州私人借钱联系方式 为什么用adobe reader 不能将pdf转为txt 文件 请各位高手们帮帮忙!!! 女学生身高1.72体重124斤校服穿什么尺码? 自贡私人借钱电话