OCR de un PDF escaneado: hágalo con capacidad de búsqueda
Un PDF escaneado es solo una pila de imágenes. No puede buscarlo, no puede copiar texto y los lectores de pantalla no pueden ayudar a los usuarios ciegos a navegar por él. OCR (reconocimiento óptico de caracteres) soluciona todo eso leyendo los píxeles y convirtiéndolos nuevamente en texto real.
Elija el idioma del documento para obtener la mayor precisión: inglés, turco o alemán utilizan diferentes optimizaciones. La herramienta maneja archivos PDF de varias páginas y apila el texto reconocido en el mismo orden. Obtienes un PDF con capacidad de búsqueda (tiene el mismo aspecto, pero con una capa de texto invisible debajo de la imagen) o un archivo .txt simple.
La calidad de los insumos importa. Un escaneo limpio de 300 DPI reconoce casi perfectamente. Una foto borrosa del teléfono de una copia impresa tendrá errores. La herramienta le indica la puntuación de confianza para que sepa cuánto confiar en el resultado.