PDF scansionati con OCR: come renderli ricercabili
Hai una pila di contratti scansionati, un vecchio capitolo di un libro che hai fotografato o una cartella di immagini di ricevute. Sembrano PDF, ma non puoi cercarli, copiarne il testo o incollare un nome in una casella di ricerca. Benvenuto nel mondo dei "PDF di immagini" e l'OCR è la soluzione.
Cosa fa effettivamente l'OCR
L'OCR (riconoscimento ottico dei caratteri) legge ogni pagina come farebbe una persona: identifica le forme delle lettere, le raggruppa in parole e scrive quelle parole come uno strato di testo dietro l'immagine originale. La pagina sembra ancora identica, ma ora è anche ricercabile, copiabile e modificabile.
Aspettative di precisione
- Testo stampato nitido: precisione del 95–99%
- Giornali/libri vecchi: 90–95%
- Scansioni telefoniche di documenti puliti: 88–94%
- Scrittura: 50–80%, dipende fortemente dallo scrittore
- Formule matematiche/chimiche: limitate: gli strumenti specializzati funzionano meglio
Lingue supportate
Il nostro PDF OCR gestisce oltre 50 lingue tra cui inglese, turco, tedesco, francese, spagnolo, italiano, portoghese, russo, cinese, giapponese, coreano, arabo, hindi. Puoi scegliere più lingue per i documenti che mescolano script.
Suggerimenti per risultati OCR migliori
- Utilizza la lingua giusta. La selezione di "Inglese" su un documento turco riduce la precisione al 60%. Scegli sempre la lingua che stai scansionando.
- Scansioni a risoluzione più elevata = OCR migliore. 300 DPI è il punto debole. Al di sotto di 200 DPI, la precisione diminuisce rapidamente.
- Pagine dritte. Se la scansione è ruotata o inclinata, correggilo prima con Ruota PDF.
- Originali puliti. Macchie di caffè, dita negli angoli e ombre scure confondono l'OCR. Se puoi, ritaglia la pagina vera e propria.
Cosa puoi fare dopo l'OCR
Una volta che una scansione ha un livello di testo:
- Cerca all'interno del PDF (Ctrl+F)
- Copia testo e incollalo in Word, email o note
- Converti in Word con PDF in Word
- Traduci il contenuto del testo
- Rendi il documento accessibile agli screen reader
Privacy
L'OCR viene eseguito su server europei. I documenti vengono crittografati durante il transito ed eliminati dopo l'elaborazione. Non conserviamo, condividiamo o analizziamo le tue scansioni.