PDF OCR — Metin Çıkar
Taranmış PDF'lerden metni OCR ile çıkarın. 14 dil desteği, Text/Word/PDF olarak dışa aktarın.
アップロード中…
PDFをOCR処理する方法
-
1
スキャンPDFをアップロードファイルをアップロードエリアにドラッグ。最大100MB、数百ページに対応。
-
2
言語を選択認識精度向上のため、文書の主要言語を指定。複数言語の選択も可能。
-
3
認識済みPDFをダウンロード「認識」クリックでテキスト選択・コピー・検索可能なPDFを取得。
誰に向いていますか?
PDF OCR は、検索もコピーもできないスキャン文書に困っているすべての人のためのものです。古い教科書をデジタル化する学生、スキャンした契約書から条項を抜き出す弁護士、紙の請求書をアーカイブする経理担当者など。たとえば印刷されたページを撮影し、その中の 1 段落が必要になったとします。OCR を実行すれば、そのテキストを手で打ち直すことなく、そのまま選択してメールや Word にコピーできます。
改善にご協力ください
このツールを評価してください。皆様のフィードバックは貴重です!
PDFのOCRとは?
OCR(光学文字認識)はスキャンされたPDFを編集可能・検索可能な文書に変換する技術です。テキストを含む画像から、コピー、検索、編集できる文字データに変換します。
可能な限り最高の精度を実現するために、長年にわたって磨き上げられた独自の OCR テクノロジーを使用しています。トルコ語、英語、ドイツ語、スペイン語、アラビア語、日本語、中国語を含む 100 以上の言語 - スキャンは実際に検索可能なテキストになります。
内部では、OCR が各ページを走査して文字や数字の形を読み取り、学習済みの文字モデルと照合し、その結果を画像内で語句が表示されている位置に合わせた隠しテキストレイヤーとして書き戻します。元のページ画像はそのまま保持されるため、文書の見た目はまったく同じで、検索・ハイライト・コピーをしたときに初めて違いに気づきます。元の画像がきれいなほど結果も良くなります。鮮明な 300 DPI スキャン、まっすぐなページ、十分なコントラストならほぼ完璧なテキストが得られ、傾き・ぼやけ・暗い環境での撮影は誤認識を招きます。正しい文書言語を選ぶことも、似た形の文字やアクセント付き文字をエンジンが見分ける助けになります。処理が完了すると、検索可能な PDF はどのリーダーでも開けて、アーカイブ・インデックス作成・さらなる編集にすぐ使えます。
なぜPDF7でOCRするのか?
50以上の言語
英語から古ギリシャ語まで、あらゆる言語に対応できるようにトレーニングされたモデル。最高の精度を得るために言語を選択してください。
高精度
鮮明なスキャンで95-99%の精度。複数列レイアウト、表に対応。
レイアウト保持
テキストは画像の上に重ねて認識されるので、ページの見た目はそのまま。
検索とコピー
OCR後はPDF内検索、コピー、ハイライトが可能。アーカイブ管理に便利。
よくある質問
認識精度はどの程度?
当社の OCR エンジンは、最新のクリーンなスキャン (300 DPI、明るい照明) で 95 ~ 99% の精度に達します。古い、色あせた、または低解像度のスキャンは 80 ~ 90% に低下します。より良い結果を得るには、再スキャンするか、より鮮明な写真を撮影してください。
手書き文字も認識できますか?
当社の OCR は印刷されたテキストでトレーニングされています。筆記体はほとんど読めません。鉛筆でのブロック印刷がうまくいく場合もあります。試してみてください。
元のレイアウトは保持されますか?
はい、テキストは画像の上に重ねられ、ページの見た目はそのまま、テキストはコピー可能になります。
OCRにかかる時間は?
1ページあたり2-5秒程度。100ページ文書なら5-10分で完了。
OCR をかけると PDF の見た目は変わりますか?
いいえ。元のスキャンしたページ画像はそのままの状態で残ります。PDF7 は画像の背後に見えないテキストレイヤーを追加するだけなので、ファイルの見た目は同じまま、検索・選択ができるようになります。フォント、スタンプ、署名、レイアウトはすべてそのまま保たれます。
ファイルサイズやページ数の制限はありますか?
複数ページの文書を一度に処理できます。数十 MB に及ぶ大きなスキャン PDF も問題なく扱えます。非常に高解像度の画像ページは、処理に少し時間がかかるだけです。ファイルが極端に大きい場合は、先に小さな PDF に分割しておくと処理が速くなります。