PDF提取文字的方法有哪些 具体该如何操作?
大家从网络上下载了文件之后,有时候需要将文件里面的文字提取出来。而不同格式的电脑文件,在提取文字的时候,就要用到不同的方法。接下来万兴PDF就给大家介绍PDF提取文字的方法有哪些,具体该如何操作?
大家从网络上下载了文件之后,有时候需要将文件里面的文字提取出来。而不同格式的电脑文件,在提取文字的时候,就要用到不同的方法。接下来万兴PDF就给大家介绍PDF提取文字的方法有哪些,具体该如何操作?
第 1 部分:从PDF中提取文字
打开PDF文字识别软件,执行“文件”-“打开图像...”导入PDF文件,然后执行“输出”-“PDF文件转换为TXT文件”(或PDF文件转换为RTF文件)。弹出“PDF转换为TXT”对话框,万兴PDF提醒大家,选择转换的页面,还有生成文件的目录,点击“确定”。即可生成以源文件一样名称的TXT文本文件了。
第 2 部分:从PDF图像中提取文字
图像型PDF,有的PDF都是扫描图片,这个就不能复制文字了,可以采用OCR识别的方式,将PDF文件转换为可编辑文档。这也是本文主要讲的PDF文字识别方法。还是打开PDF文字提取软件,执行“文件”-“打开图像...”导入PDF文件。接下来,点击一下工具栏上的“ocr文字识别软件,教你如何识别图片中的文字并提取为可编辑的文本恢复鼠标”按钮,再在右下方的图片栏中,圈选需要识别的文字。然后执行“识别”-“开始识别...”。这样,软件立即能识别出对应的文字来,自己可以检查一遍有没有个别因字体模糊而识别失误的地方(一般软件不确定的地方会将识别的文字标为红色的),如有也可以手工更正的。OK,如果正确无误了,就可以导出文本了,执行“输出”-“到指定格式文件”。弹出“保存识别结果”对话框,在这里自定义输出文件的路径,文件名称,保存类型(如TXT、RTF、HTM、XLS),然后“保存”搞定。然后就会自动提取出来文字了,这个文字保存需要会员的哦。
想要从PDF提取文字的话,有两种方法可以选择。大家使用上面的方法,不但能够从文件中提取文字,还可以把图片里面的文字提取出来。