OCR отсканированного PDF-файла — сделайте его доступным для поиска
Отсканированный PDF-файл представляет собой просто стопку изображений. Вы не можете выполнять поиск по нему, вы не можете копировать из него текст, а программы чтения с экрана не могут помочь слепым пользователям перемещаться по нему. OCR — оптическое распознавание символов — исправляет все это, считывая пиксели и превращая их обратно в настоящий текст.
Для большей точности выберите язык документа: английский, турецкий и немецкий используют разную оптимизацию. Инструмент обрабатывает многостраничные PDF-файлы и укладывает распознанный текст в том же порядке. Вы получаете либо PDF-файл с возможностью поиска (выглядит так же, но с невидимым текстовым слоем под изображением), либо простой файл .txt.
Качество входных данных имеет значение. Чистое сканирование с разрешением 300 точек на дюйм распознает почти идеально. На размытой телефонной фотографии распечатки будут ошибки. Инструмент сообщит вам оценку достоверности, чтобы вы знали, насколько можно доверять полученным данным.