8种简单方法提高OCR识别率,文字识别准确率
如果您的PDF文件是扫描文件或基于图像的文件,则需要执行OCR才能编辑和搜索其中的内容。在程序中打开PDF文件后,请点击“编辑” > “OCR”按钮,然后选择“可搜索文本的图片”或“可编辑的文本”模式,单击“更改语言”按钮,选择扫描文件中的正确语言。如果您只想选择/搜索/复制文本而不是编辑文本,则建议您可以使用“可搜索文本的图片”模式来执行OCR。执行OCR后,新创建的PDF文件将保持与原始内容相同的排版与布局,文本将可搜索和选择。
如果您发现直接对扫描文件执行OCR功能,输出的可编辑PDF文件识别率和准确率很低,建议您按照以下思路检查扫描文档或者图片中的文字:
1:是否是常规字体,手写体和特殊艺术字体,OCR很难有准确的识别率
2:是否有大量特殊符号,行业特殊符号OCR也无法保证识别准确率
3:注意扫描文件或者图片的背景与文字前景的对比度,对比度是影响识别率和准确率的核心参数。可用工具去除背景中的杂色,杂点,噪点
4:扫描文件或者图片的亮度,调整到合适的亮度,可以有效提高识别率和准确率
5:设置合适的分辨率
6:如果原图像或者扫描件歪斜,请校正
7:选择正确的识别区域
8:在扫描文档时,设置合适的扫描参数,或者在拍摄时,摆正文字区域,切忌歪斜