如何利用OCR识别扫描PDF中的文字?

      有些时候我们打开PDF文件后会发现字体模糊,并且不能编辑,这种情况一般是因为该PDF文件是由扫描件或图片转化而成的,一般的PDF编辑器很难编辑其中文字。但对于这种情况我们也不是完全束手无策,万兴PDF高级版中的OCR就是对付这类PDF的利器。

首先我们先了解一下OCROCRoptical character recognition)文字识别是指电子设备检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

如果按照上面的标准去评判万兴PDFOCR性能的话,我愿意给它打满分,下面我们就一起通过一个实例感受下万兴PDF的魅力吧!

第一步:下载安装OCR组件

      当我们下载安装好万兴PDF时,默认是不附带OCR组件的,因此如果是第一次使用OCR功能需要先下载OCR组件,这个下载过程很简单,只需单击“转换”选项卡下的“OCR”或“区域OCR”,软件就会自动提示下载,按指引下载安装即可。

第二步:打开由图片或扫描件转化成的PDF

      当我们打开由图片或扫描件转化成的PDF时,软件会自动识别并提示我们这是一个扫描的PDF文件,并建议我们执行OCR

OCR识别扫描PDF步骤1

第三步:对PDF全部或局部执行OCR

      1.对文档全部或部分页面执行OCR

      我们点击上述提示中的“执行OCR”按钮就会出现下图所示的窗口,在这里我们可以选择转化后文件类型、文档语言和需要转化的页面。如果我们只需对特定页面进行编辑,可以点击“自定义页面”选项选择我们想要转化的特定页面,之后点击“确定”按钮即可执行对文档全部或部分页面的OCR。当然,我们也可以点击“转换”选项卡下的“OCR”图标完成相同功能。执行OCR功能后会生成一个文件名为“源文件名_OCR”的PDF文件,我们可以在这个文件中编辑需要修改的文字,修改完成后保存该文件即可。

OCR识别扫描PDF步骤2

      2.对文档特定页面局部区域执行OCR

      如果我们只需修改单个页面的部分文字或者某一页面包含图片不适合整页OCR时,我们可以选择“区域OCR”。点击“转换”选项卡下的“区域OCR”图标,之后在右侧选择文档语言,在文档区用鼠标拖选出需要OCR的文档区域,最后点击“识别”按钮,红框内的文字就会转化成可编辑的文本,这时我们就可以像编辑由文字文档转化成的PDF一样编辑框内文字了,修改完毕后保存文件即可。

OCR识别扫描PDF步骤3

      以上就是利用万兴PDF编辑PDF中文字的全部内容了,欢迎大家下载万兴PDF一起体验编辑PDF文档的便捷和OCR功能的强大!

最强大的OCR文字识别软件——万兴PDF

      万兴PDF在文字识别领域名列前茅,是最好的具有OCR功能的PDF工具。它有十分高端的OCR功能,可完美识别多种语言,包括英语,法语,德语,中文,韩语,西班牙语等。除此之外它还具有以下令人心动的功能:

  • 具有多种PDF编辑工具,支持修改、突出显示文本,切换图像,添加页面,添加注释等。
  • 能将PDF文件转换为各种格式,如WordExcelPPT,文本和图像等,并且不会改变文档的质量。
  • 可批量转换文件,从而为您节省大量时间。
  • 能填写PDF表单并提供创建个性化PDF表单的选项。
  • 可以通过添加密码和权限来提高文档的安全性。