PDF-файлы, отсканированные с помощью OCR: как сделать их доступными для поиска

У вас есть стопка отсканированных контрактов, глава старой книги, которую вы сфотографировали, или папка с изображениями квитанций. Они выглядят как PDF-файлы, но вы не можете выполнять в них поиск, копировать текст или вставлять имя в поле поиска. Добро пожаловать в мир PDF-файлов с изображениями. OCR — ваш выход.

Что на самом деле делает OCR

OCR (оптическое распознавание символов) считывает каждую страницу так, как это делает человек: оно определяет формы букв, группирует их в слова и записывает эти слова в виде текстового слоя позади исходного изображения. Страница по-прежнему выглядит идентично, но теперь ее можно искать, копировать и редактировать.

Ожидания относительно точности

<ул>

Четкий печатный текст: точность 95–99 %.

Газеты/старые книги: 90–95 %

Сканирование чистых документов с помощью телефона: 88–94 %

Почерк: 50–80 %, сильно зависит от автора.

Математические/химические формулы: ограничены: специализированные инструменты работают лучше.

Языки, которые мы поддерживаем

Наш PDF OCR поддерживает более 50 языков, включая английский, турецкий, немецкий, французский, испанский, итальянский, португальский, русский, китайский, японский, корейский, арабский и хинди. Вы можете выбрать несколько языков для документов, в которых используются разные алфавиты.

Советы по улучшению результатов распознавания

<ол>

Используйте правильный язык. Выбор варианта «Английский» в турецком документе снижает точность до 60 %. Всегда выбирайте язык, который вы сканируете.

Сканирование с более высоким разрешением = лучшее распознавание текста. 300 точек на дюйм — лучший вариант. При разрешении ниже 200 точек на дюйм точность быстро падает.

Прямые страницы. Если отсканированное изображение повернуто или перекошено, сначала исправьте это с помощью Поворот PDF.

Чистые оригиналы. Пятна кофе, пальцы в углах и темные тени затрудняют распознавание текста. Если возможно, обрежьте саму страницу.

Что можно сделать после оптического распознавания текста

Если в скане есть текстовый слой:

<ул>

Поиск внутри PDF-файла (Ctrl+F)

Скопируйте текст и вставьте в Word, электронное письмо или заметки.

Преобразование в Word с помощью PDF в Word

Перевести текстовый контент

Сделать документ доступным для программ чтения с экрана

Конфиденциальность

OCR работает на европейских серверах. Документы шифруются при транспортировке и удаляются после обработки. Мы не храним, не передаем и не анализируем ваши сканы.