OCR 扫描的 PDF:如何使其可搜索
2026-05-09
PDF OCR
您有一堆扫描的合同、您拍摄的旧书章节或收据图像的文件夹。它们看起来像 PDF,但您无法搜索它们、复制其中的文本或将名称粘贴到搜索框中。欢迎来到“图像 PDF”的世界 — OCR 是您的出路。
OCR 的实际用途
OCR(光学字符识别)像人一样读取每一页:它识别字母形状,将它们分组为单词,并将这些单词作为文本层写入原始图像后面。该页面看起来仍然相同 - 但现在它也可以搜索、复制和编辑。
准确率预期
- 清晰的打印文本:准确率 95–99%
- 报纸/旧书:90–95%
- 干净文档的电话扫描:88–94%
- 手写:50–80%,很大程度上取决于书写者
- 数学/化学公式:有限 - 专用工具效果更好
我们支持的语言
我们的 PDF OCR 可处理 50 多种语言,包括英语、土耳其语、德语、法语、西班牙语、意大利语、葡萄牙语、俄语、中文、日语、韩语、阿拉伯语、印地语。您可以为混合脚本的文档选择多种语言。
获得更好 OCR 结果的提示
- 使用正确的语言。在土耳其语文档中选择“英语”会将准确率降低至 60%。始终选择您要扫描的语言。
- 更高分辨率的扫描 = 更好的 OCR。300 DPI 是最佳选择。低于 200 DPI,准确度会快速下降。
- 直页。如果扫描件旋转或倾斜,请先使用PDF 旋转修复它。
- 清洁原件。咖啡渍、角落里的手指和深色阴影会干扰 OCR。如果可以的话,裁剪实际页面。
OCR 后您可以做什么
一旦扫描有文本层:
- 在 PDF 中搜索 (Ctrl+F)
- 复制文本并粘贴到 Word、电子邮件或笔记中
- 使用PDF to Word转换为Word
- 翻译文本内容
- 使文档可供屏幕阅读器访问
隐私
OCR 在欧洲服务器上运行。文档在传输过程中被加密,并在处理后被删除。我们不会保留、共享或分析您的扫描结果。