pdf7
PDF7 теперь на мобильных!
Наше приложение для Android доступно в Google Play. На iPhone/iPad можно добавить сайт на главный экран одним касанием.
Google Play

PDF-файлы, отсканированные с помощью OCR: как сделать их доступными для поиска

У вас есть стопка отсканированных контрактов, глава старой книги, которую вы сфотографировали, или папка с изображениями квитанций. Они выглядят как PDF-файлы, но вы не можете выполнять в них поиск, копировать текст или вставлять имя в поле поиска. Добро пожаловать в мир PDF-файлов с изображениями. OCR — ваш выход.

Что на самом деле делает OCR

OCR (оптическое распознавание символов) считывает каждую страницу так, как это делает человек: оно определяет формы букв, группирует их в слова и записывает эти слова в виде текстового слоя позади исходного изображения. Страница по-прежнему выглядит идентично, но теперь ее можно искать, копировать и редактировать.

Ожидания относительно точности

<ул>
  • Четкий печатный текст: точность 95–99 %.
  • Газеты/старые книги: 90–95 %
  • Сканирование чистых документов с помощью телефона: 88–94 %
  • Почерк: 50–80 %, сильно зависит от автора.
  • Математические/химические формулы: ограничены: специализированные инструменты работают лучше.
  • Языки, которые мы поддерживаем

    Наш PDF OCR поддерживает более 50 языков, включая английский, турецкий, немецкий, французский, испанский, итальянский, португальский, русский, китайский, японский, корейский, арабский и хинди. Вы можете выбрать несколько языков для документов, в которых используются разные алфавиты.

    Советы по улучшению результатов распознавания

    <ол>
  • Используйте правильный язык. Выбор варианта «Английский» в турецком документе снижает точность до 60 %. Всегда выбирайте язык, который вы сканируете.
  • Сканирование с более высоким разрешением = лучшее распознавание текста. 300 точек на дюйм — лучший вариант. При разрешении ниже 200 точек на дюйм точность быстро падает.
  • Прямые страницы. Если отсканированное изображение повернуто или перекошено, сначала исправьте это с помощью Поворот PDF.
  • Чистые оригиналы. Пятна кофе, пальцы в углах и темные тени затрудняют распознавание текста. Если возможно, обрежьте саму страницу.
  • Что можно сделать после оптического распознавания текста

    Если в скане есть текстовый слой:

    <ул>
  • Поиск внутри PDF-файла (Ctrl+F)
  • Скопируйте текст и вставьте в Word, электронное письмо или заметки.
  • Преобразование в Word с помощью PDF в Word
  • Перевести текстовый контент
  • Сделать документ доступным для программ чтения с экрана
  • Конфиденциальность

    OCR работает на европейских серверах. Документы шифруются при транспортировке и удаляются после обработки. Мы не храним, не передаем и не анализируем ваши сканы.

    Попробуйте этот инструмент прямо сейчас

    Используйте прямо здесь, не покидая статью.

    Открыть на весь экран

    Этот сайт использует файлы cookie для улучшения вашего взаимодействия. Политика конфиденциальности

    Добавьте PDF7 на устройство: на iPhone/iPad нажмите «Поделиться», затем «На экран Домой». На компьютере нажмите значок установки в адресной строке.