PDF OCR — Metin Çıkar
Taranmış PDF'lerden metni OCR ile çıkarın. 14 dil desteği, Text/Word/PDF olarak dışa aktarın.
Загрузка…
Как сделать OCR для PDF
-
1
Загрузите отсканированный PDFПеретащите файл в зону загрузки. Поддерживаем сканы до 100 МБ, сотни страниц.
-
2
Выберите язык документаУкажите основной язык текста для повышения точности распознавания. Можно выбрать несколько языков.
-
3
Скачайте PDF с распознанным текстомНажмите «Распознать» и получите PDF, в котором текст можно выделить, скопировать и искать.
Для кого это?
PDF OCR пригодится всем, кто застрял со сканами, в которых нельзя искать или копировать текст, — студентам, оцифровывающим старые учебники, юристам, извлекающим пункт из отсканированного договора, и бухгалтерам, архивирующим бумажные счета. Представьте, что вы сфотографировали печатную страницу, и теперь вам нужен один абзац из неё: запустите OCR — и вы сможете выделить и скопировать этот текст прямо в письмо или Word, вместо того чтобы перепечатывать его вручную.
Помогите нам стать лучше
Оцените этот инструмент, ваша обратная связь важна!
Что такое OCR для PDF?
OCR (оптическое распознавание текста) превращает отсканированный PDF в редактируемый и поисковый документ. Картинка с текстом становится текстом, который можно копировать, искать и редактировать.
Мы используем запатентованную технологию оптического распознавания символов, отработанную годами для обеспечения максимально возможной точности. Более 100 языков, включая турецкий, английский, немецкий, испанский, арабский, японский, китайский — ваши сканы станут настоящим текстом, доступным для поиска.
Под капотом OCR сканирует каждую страницу в поисках очертаний букв и цифр, сопоставляет их с обученными моделями символов и записывает результат обратно в виде скрытого текстового слоя, выровненного по тому месту, где слова находятся на изображении. Поскольку оригинальная картинка страницы остаётся нетронутой, документ выглядит абсолютно так же — разницу вы заметите только при поиске, выделении или копировании. Чем чище исходник, тем лучше результат: чёткие сканы 300 DPI, ровные страницы и хороший контраст дают почти безупречный текст, тогда как перекошенные, размытые или снятые при слабом освещении изображения добавляют ошибок. Выбор правильного языка документа также помогает движку распознавать похожие символы и буквы с диакритикой. По завершении PDF с возможностью поиска работает в любой программе для чтения и готов к архивированию, индексации или дальнейшему редактированию.
Почему OCR с PDF7?
50+ языков
Обученные модели для всего: от английского до древнегреческого. Выберите свой язык для максимальной точности.
Высокая точность
95-99% точности на качественных сканах. Поддержка многоколоночных макетов и таблиц.
Сохранение макета
Текст распознаётся поверх изображения — оригинал страницы остаётся виден, как было.
Поиск и копирование
После OCR можно искать текст внутри PDF, копировать и выделять. Удобно для архивов.
Частые вопросы
Какая точность распознавания?
Наш механизм оптического распознавания символов достигает точности 95–99 % на чистых современных сканах (300 точек на дюйм, при хорошем освещении). Старые, выцветшие сканы или сканы с низким разрешением падают до 80–90%. Повторно отсканируйте или сделайте более четкое фото для получения лучших результатов.
Работает ли с рукописным текстом?
Наше OCR обучено на печатном тексте. Рукописный почерк практически не читается. Ксилографическая печать карандашом иногда работает — попробуйте и убедитесь.
Сохраняется ли оригинальный вид?
Да, текст накладывается поверх изображения. Видимо страницы остаются как были, но текст становится копируемым.
Сколько занимает OCR?
Около 2-5 секунд на страницу. Документ из 100 страниц обработается за 5-10 минут.
Меняет ли OCR внешний вид моего PDF?
Нет. Оригинальные изображения отсканированных страниц остаются точно такими же. PDF7 лишь добавляет невидимый текстовый слой за картинкой, поэтому файл выглядит идентично, но становится доступным для поиска и выделения. Шрифты, штампы, подписи и вёрстка остаются на своих местах.
Есть ли ограничение по размеру файла или числу страниц?
Вы можете обработать многостраничные документы за один раз; большие отсканированные PDF в десятки MB обрабатываются без проблем. Страницы с изображениями очень высокого разрешения просто требуют чуть больше времени на обработку. Если файл необычно большой, разбиение его на меньшие PDF сначала ускорит процесс.