Zeskanowane pliki PDF metodą OCR: jak umożliwić ich przeszukiwanie
Masz stos zeskanowanych umów, sfotografowany przez siebie stary rozdział książki lub folder ze zdjęciami paragonów. Wyglądają jak pliki PDF, ale nie można ich przeszukiwać, kopiować z nich tekstu ani wklejać nazwy w polu wyszukiwania. Witamy w świecie „obrazowych plików PDF” — a OCR jest Twoim wyjściem.
Co właściwie robi OCR
OCR (optyczne rozpoznawanie znaków) odczytuje każdą stronę tak, jak zrobiłby to człowiek: identyfikuje kształty liter, grupuje je w słowa i zapisuje te słowa jako warstwę tekstową za oryginalnym obrazem. Strona nadal wygląda identycznie, ale teraz można ją także przeszukiwać, kopiować i edytować.
Oczekiwania dotyczące dokładności
- Wyraźny drukowany tekst: dokładność 95–99%
- Gazety/starsze książki: 90–95%
- Skanowanie czystych dokumentów za pomocą telefonu: 88–94%
- Pismo odręczne: 50–80%, w dużym stopniu zależy od autora
- Wzory matematyczne/chemiczne: ograniczone — wyspecjalizowane narzędzia działają lepiej
Obsługiwane przez nas języki
Nasz PDF OCR obsługuje ponad 50 języków, w tym angielski, turecki, niemiecki, francuski, hiszpański, włoski, portugalski, rosyjski, chiński, japoński, koreański, arabski i hindi. Możesz wybrać wiele języków dla dokumentów zawierających różne skrypty.
Wskazówki dotyczące lepszych wyników OCR
- Używaj odpowiedniego języka. Wybranie opcji „Angielski” w dokumencie tureckim zmniejsza dokładność do 60%. Zawsze wybieraj język, który skanujesz.
- Skanowanie w wyższej rozdzielczości = lepszy OCR. Optymalna rozdzielczość to 300 DPI. Poniżej 200 DPI dokładność szybko spada.
- Proste strony. Jeśli skan jest obrócony lub przekrzywiony, napraw to najpierw za pomocą opcji Obróć plik PDF.
- Czyste oryginały. Plamy po kawie, palce w rogu i ciemne cienie zakłócają rozpoznawanie OCR. Jeśli możesz, przytnij samą stronę.
Co możesz zrobić po OCR
Gdy skan zawiera warstwę tekstową:
- Wyszukaj w pliku PDF (Ctrl+F)
- Skopiuj tekst i wklej go do programu Word, wiadomości e-mail lub notatek
- Konwertuj na Word za pomocą PDF na Word
- Przetłumacz treść tekstową
- Udostępnij dokument czytnikom ekranu
Prywatność
OCR działa na serwerach europejskich. Dokumenty są szyfrowane podczas przesyłania i usuwane po przetworzeniu. Nie przechowujemy, nie udostępniamy ani nie analizujemy Twoich skanów.