Các tệp PDF được quét OCR: Cách làm cho chúng có thể tìm kiếm được
Bạn có một chồng hợp đồng được quét, một chương sách cũ mà bạn đã chụp hoặc một thư mục chứa ảnh biên nhận. Chúng trông giống như tệp PDF nhưng bạn không thể tìm kiếm, sao chép văn bản từ chúng hoặc dán tên vào hộp tìm kiếm. Chào mừng bạn đến với thế giới "PDF hình ảnh" — và OCR chính là lối thoát cho bạn.
OCR thực sự làm gì
OCR (Nhận dạng ký tự quang học) đọc từng trang giống như một người: nó xác định hình dạng chữ cái, nhóm chúng thành các từ và viết những từ đó dưới dạng lớp văn bản phía sau hình ảnh gốc. Trang vẫn trông giống hệt nhau — nhưng giờ đây trang này cũng có thể tìm kiếm, sao chép và chỉnh sửa được.
Kỳ vọng về độ chính xác
- Văn bản in sắc nét: độ chính xác 95–99%
- Báo/sách cũ: 90–95%
- Điện thoại quét tài liệu sạch: 88–94%
- Chữ viết tay: 50–80%, phụ thuộc nhiều vào người viết
- Công thức toán/hóa học: Hạn chế — các công cụ chuyên dụng hoạt động tốt hơn
Ngôn ngữ chúng tôi hỗ trợ
PDF OCR của chúng tôi xử lý hơn 50 ngôn ngữ bao gồm tiếng Anh, tiếng Thổ Nhĩ Kỳ, tiếng Đức, tiếng Pháp, tiếng Tây Ban Nha, tiếng Ý, tiếng Bồ Đào Nha, tiếng Nga, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập, tiếng Hindi. Bạn có thể chọn nhiều ngôn ngữ cho các tài liệu kết hợp chữ viết.
Mẹo để có kết quả OCR tốt hơn
- Sử dụng ngôn ngữ phù hợp. Việc chọn "tiếng Anh" trên tài liệu tiếng Thổ Nhĩ Kỳ sẽ giảm độ chính xác xuống 60%. Luôn chọn ngôn ngữ bạn đang quét.
- Quét có độ phân giải cao hơn = OCR tốt hơn. 300DPI là mức lý tưởng. Dưới 200 dpi, độ chính xác giảm nhanh.
- Các trang thẳng. Nếu bản quét bị xoay hoặc bị lệch, trước tiên hãy sửa nó bằng xoay PDF.
- Làm sạch bản gốc. Vết cà phê, vết ngón tay trong góc và bóng tối gây nhầm lẫn cho OCR. Cắt trang thực tế nếu có thể.
Bạn có thể làm gì sau OCR
Sau khi quét có lớp văn bản:
- Tìm kiếm bên trong tệp PDF (Ctrl+F)
- Sao chép văn bản và dán vào Word, email hoặc ghi chú
- Chuyển đổi sang Word bằng PDF sang Word
- Dịch nội dung văn bản
- Làm cho trình đọc màn hình có thể truy cập được tài liệu
Quyền riêng tư
OCR chạy trên máy chủ Châu Âu. Tài liệu được mã hóa trong quá trình vận chuyển và bị xóa sau khi xử lý. Chúng tôi không giữ, chia sẻ hoặc phân tích bản quét của bạn.