Archivos PDF escaneados con OCR: cómo hacer que se puedan realizar búsquedas
Tiene una pila de contratos escaneados, un capítulo de un libro antiguo que fotografió o una carpeta con imágenes de recibos. Parecen archivos PDF, pero no puedes buscarlos, copiar texto de ellos ni pegar un nombre en un cuadro de búsqueda. Bienvenido al mundo de los "PDF de imágenes", y el OCR es su salida.
Qué hace realmente el OCR
OCR (reconocimiento óptico de caracteres) lee cada página como lo haría una persona: identifica las formas de las letras, las agrupa en palabras y escribe esas palabras como una capa de texto detrás de la imagen original. La página todavía parece idéntica, pero ahora también se puede realizar búsquedas, copiar y editar.
Expectativas de precisión
- Texto impreso nítido: precisión del 95 % al 99 %
- Periódicos/libros antiguos: 90-95 %
- Escaneos telefónicos de documentos limpios: 88%–94%
- Escritura a mano: 50-80 %, depende en gran medida del escritor
- Fórmulas matemáticas/químicas: limitadas: las herramientas especializadas funcionan mejor
Idiomas que admitimos
Nuestro PDF OCR maneja más de 50 idiomas, incluidos inglés, turco, alemán, francés, español, italiano, portugués, ruso, chino, japonés, coreano, árabe e hindi. Puede elegir varios idiomas para documentos que combinen escrituras.
Consejos para obtener mejores resultados de OCR
- Utilice el idioma correcto. Seleccionar "inglés" en un documento turco reduce la precisión al 60 %. Elija siempre el idioma que está escaneando.
- Escaneos de mayor resolución = mejor OCR. 300 ppp es el punto ideal. Por debajo de 200 ppp, la precisión disminuye rápidamente.
- Páginas rectas. Si el escaneo está girado o torcido, corríjalo con giro de PDF primero.
- Originales limpios. Las manchas de café, los dedos en las esquinas y las sombras oscuras confunden el OCR. Recorta la página real si puedes.
Qué puedes hacer después del OCR
Una vez que un escaneo tiene una capa de texto:
- Buscar dentro del PDF (Ctrl+F)
- Copiar texto y pegarlo en Word, correo electrónico o notas
- Convierta a Word con PDF a Word
- Traducir el contenido del texto
- Hacer que el documento sea accesible para lectores de pantalla
Privacidad
OCR se ejecuta en servidores europeos. Los documentos se cifran en tránsito y se eliminan después del procesamiento. No guardamos, compartimos ni analizamos sus escaneos.