PDF numérisés par OCR : comment les rendre consultables
Vous disposez d'une pile de contrats numérisés, d'un vieux chapitre de livre que vous avez photographié ou d'un dossier contenant des images de reçus. Ils ressemblent à des fichiers PDF, mais vous ne pouvez pas les rechercher, en copier du texte ou coller un nom dans un champ de recherche. Bienvenue dans le monde des « PDF d'images » — et l'OCR est votre porte de sortie.
Ce que fait réellement l'OCR
OCR (Optical Character Recognition) reads each page like a person would: it identifies letter shapes, groups them into words, and writes those words as a text layer behind the original image. La page semble identique, mais elle est désormais également consultable, copiable et modifiable.
Attentes en matière de précision
- Texte imprimé net : précision de 95 à 99 %
- Journaux/livres plus anciens : 90 à 95 %
- Analyses téléphoniques de documents vierges : 88 à 94 %
- Écriture manuscrite : 50 à 80 %, dépend fortement de l'auteur
- Formules mathématiques/chimie : Limitées : les outils spécialisés fonctionnent mieux
Langues prises en charge
Notre PDF OCR gère plus de 50 langues, dont l'anglais, le turc, l'allemand, le français, l'espagnol, l'italien, le portugais, le russe, le chinois, le japonais, le coréen, l'arabe et l'hindi. Vous pouvez choisir plusieurs langues pour les documents qui mélangent des scripts.
Conseils pour de meilleurs résultats OCR
- Use the right language. Selecting "English" on a Turkish document drops accuracy to 60%. Choisissez toujours la langue que vous numérisez.
- Numérisations à plus haute résolution = meilleur OCR. 300 DPI est la solution idéale. En dessous de 200 DPI, la précision chute rapidement.
- Pages droites. Si la numérisation est pivotée ou inclinée, corrigez-la d'abord avec la Rotation du PDF.
- Clean originals. Coffee stains, fingers in the corner, and dark shadows confuse OCR. Recadrez la page réelle si vous le pouvez.
Que pouvez-vous faire après l'OCR
Une fois qu'une numérisation comporte un calque de texte :
- Rechercher dans le PDF (Ctrl+F)
- Copiez le texte et collez-le dans Word, dans un e-mail ou dans des notes
- Convertir en Word avec PDF en Word
- Traduire le contenu du texte
- Rendre le document accessible aux lecteurs d'écran
Confidentialité
OCR fonctionne sur des serveurs européens. Les documents sont cryptés pendant leur transit et supprimés après traitement. Nous ne conservons, ne partageons ni n'analysons vos scans.