PDF OCR — Metin Çıkar
Taranmış PDF'lerden metni OCR ile çıkarın. 14 dil desteği, Text/Word/PDF olarak dışa aktarın.
正在上传…
如何对PDF进行OCR
-
1
上传扫描PDF将文件拖入上传区域。支持最大100MB、数百页。
-
2
选择语言为提高识别准确率,指定文档主要语言。可选多种语言。
-
3
下载识别后的PDF点击「识别」获得文字可选择、复制、搜索的PDF。
适合谁使用?
PDF OCR 适合任何被无法搜索或复制的扫描件困住的人——把旧教材数字化的学生、从扫描合同里摘取条款的律师、归档纸质发票的会计。设想你拍下了一页印刷品,现在需要其中的一个段落:运行 OCR,你就能直接选中并复制那段文字到邮件或 Word,而不必再手动逐字重打。
帮助我们改进
为这个工具评分,您的反馈很有价值!
什么是PDF OCR?
OCR(光学字符识别)将扫描的PDF变为可编辑、可搜索的文档。含文字的图像变为可复制、搜索、编辑的文字数据。
我们使用经过多年改进的专有 OCR 技术,以实现尽可能高的准确性。 100 多种语言,包括土耳其语、英语、德语、西班牙语、阿拉伯语、日语、中文 — 您的扫描结果将成为真正的可搜索文本。
在底层,OCR 会扫描每一页上字母和数字的形状,将它们与训练好的字符模型进行匹配,再把结果作为一层隐藏文本写回,并对齐到这些文字在图像中出现的位置。由于原始页面图像保持原样,文档看起来完全相同——只有在你搜索、高亮或复制时才会察觉到区别。原件越干净,效果越好:清晰的 300 DPI 扫描、摆正的页面和良好的对比度能产出几近完美的文本,而倾斜、模糊或弱光下拍摄的图像则会带来错误。选择正确的文档语言也有助于引擎区分形似的字符和带重音的字母。处理完成后,可搜索的 PDF 能在任何阅读器中打开,并可直接用于归档、建立索引或进一步编辑。
为什么用PDF7做OCR?
50多种语言
训练有素的模型,涵盖从英语到古希腊语的所有内容。选择您的语言以获得最佳准确性。
高准确率
清晰扫描可达95-99%准确率。支持多列布局、表格。
保留布局
文字识别在图像之上,页面外观保持不变。
搜索和复制
OCR后可在PDF内搜索、复制、高亮。便于归档管理。
常见问题
识别准确率多少?
我们的 OCR 引擎在干净的现代扫描(300 DPI,光线充足)下达到 95-99% 的准确度。旧的、褪色的或低分辨率的扫描件下降到 80-90%。重新扫描或拍摄更清晰的照片以获得更好的效果。
能识别手写文字吗?
我们的 OCR 接受过印刷文本的训练。草书基本上不可读。用铅笔进行雕版印刷有时会起作用——尝试一下看看。
原始布局会保留吗?
是的,文字叠加在图像上,页面外观相同,但文字变为可复制。
OCR需要多长时间?
每页约2-5秒。100页文档5-10分钟完成。
OCR 会改变我的 PDF 外观吗?
不会。原始扫描的页面图像会完全保持原样。PDF7 只是在图像后面添加一层不可见的文本,因此文件看起来一模一样,却变得可搜索、可选择。字体、印章、签名和版式都保持不变。
有文件大小或页数限制吗?
你可以一次处理多页文档;以数十 MB 计的大型扫描 PDF 也能轻松应对。分辨率极高的图像页面只是处理起来稍慢一些。如果文件异常庞大,先把它拆分成更小的 PDF 会加快速度。