PDF-файлы, отсканированные с помощью OCR: как сделать их доступными для поиска
У вас есть стопка отсканированных контрактов, глава старой книги, которую вы сфотографировали, или папка с изображениями квитанций. Они выглядят как PDF-файлы, но вы не можете выполнять в них поиск, копировать текст или вставлять имя в поле поиска. Добро пожаловать в мир PDF-файлов с изображениями. OCR — ваш выход.
Что на самом деле делает OCR
OCR (оптическое распознавание символов) считывает каждую страницу так, как это делает человек: оно определяет формы букв, группирует их в слова и записывает эти слова в виде текстового слоя позади исходного изображения. Страница по-прежнему выглядит идентично, но теперь ее можно искать, копировать и редактировать.
Ожидания относительно точности
<ул>Языки, которые мы поддерживаем
Наш PDF OCR поддерживает более 50 языков, включая английский, турецкий, немецкий, французский, испанский, итальянский, португальский, русский, китайский, японский, корейский, арабский и хинди. Вы можете выбрать несколько языков для документов, в которых используются разные алфавиты.
Советы по улучшению результатов распознавания
<ол>Что можно сделать после оптического распознавания текста
Если в скане есть текстовый слой:
<ул>Конфиденциальность
OCR работает на европейских серверах. Документы шифруются при транспортировке и удаляются после обработки. Мы не храним, не передаем и не анализируем ваши сканы.