pdfview请稍等正在渲染
发布网友
发布时间:2022-12-29 00:07
我来回答
共1个回答
热心网友
时间:2023-10-24 20:19
PDF文件在创立初始主要是面向印刷出版领域的,通过提供平台无关的成像模型来保证页面的精确描述,可以理解为一种固定版式(Fixed Layout)技术,随着后续在越来越多的领域产生应用需求,又加入了交互式表单、多媒体、数字签名、Tagged PDF等内容,使得PDF规范变得越来越臃肿和复杂。
PDF首次由Adobe公开是1993年,而XML技术的出现是1995年,所以一直以来PDF使用的是二进制文本流作为描述语言,而非XML这样的标记语言,在文档结构的鲁棒性设计上是比较糟糕的,而且有各种各样的数据描述方式,可读性很差,编辑起来自然也不太容易。
所以,如果只是将PDF页面渲染出来,那还是相对比较容易的一件事情,顶多就是有些不兼容或者渲染结果错误而已,经过这么多年的发展,无论是开源的还是自主研发的代码,基本上可以满足大多数PDF文件的渲染要求。但是要说编辑,就不是那么简单了,比如段落信息,PDF里面基本都不会有,如果希望做到像Word文件那样编辑,就会涉及到一个版面理解领域的难题,编辑器必须通过算法来确定段落边界,比如:
如果不能很好的确定段落边界和文字顺序,你想进行文字的插入和删除操作的话,体验就会非常差,另外,PDF进行文本编辑时的字体匹配算法也是非常复杂的,因为很多PDF文档使用了内嵌字体技术,甚至在编辑器所在的系统环境中,根本没有安装对应的字体,那么好一点的编辑器也许会匹配一个近似的字体,通常的编辑器那就只能呵呵了。
这还仅仅是文本编辑领域,如果加上图形图像、表格表单,甚至于扫描PDF之类的,情况当然会更加复杂,因此一个好的PDF编辑器,技术门槛是比较高的。
对于推荐PDF编辑器,这里也做一个利益声明,我自己目前重回数字文档领域,负责PDFelement这个产品的开发,虽然目前距离Adobe Acrobat还有不小的差距,但也有自身的特色,下个月全新的PDFelement 6即将发布,希望给大家带来惊喜。