PDF OCR — Metin Çıkar
Taranmış PDF'lerden metni OCR ile çıkarın. 14 dil desteği, Text/Word/PDF olarak dışa aktarın.
Đang tải lên…
Cách thực hiện OCR cho PDF
-
1
Tải lên PDF được scanKéo tệp vào khu vực tải lên. Chúng tôi hỗ trợ scan tới 100 MB, hàng trăm trang.
-
2
Chọn ngôn ngữ tài liệuChỉ định ngôn ngữ chính của văn bản để tăng độ chính xác nhận dạng. Có thể chọn nhiều ngôn ngữ.
-
3
Tải xuống PDF với văn bản được nhận dạngNhấp «Nhận dạng» và nhận PDF mà bạn có thể chọn, sao chép và tìm kiếm văn bản.
Công cụ này dành cho ai?
PDF OCR dành cho bất kỳ ai đang vướng phải những bản quét không thể tìm kiếm hay sao chép — sinh viên số hóa sách giáo khoa cũ, luật sư trích một điều khoản từ hợp đồng đã quét, và kế toán lưu trữ hóa đơn giấy. Hãy hình dung bạn vừa chụp một trang in và giờ cần một đoạn trong đó: hãy chạy OCR, bạn có thể chọn và sao chép đoạn văn bản đó thẳng vào email hoặc Word thay vì gõ lại bằng tay.
Hãy giúp chúng tôi cải thiện
Hãy đánh giá công cụ này, phản hồi của bạn rất có giá trị!
OCR cho PDF là gì?
OCR (Nhận dạng ký tự quang học) chuyển PDF được scan thành tài liệu có thể chỉnh sửa và tìm kiếm. Hình ảnh chứa văn bản trở thành văn bản có thể sao chép, tìm kiếm và chỉnh sửa.
Chúng tôi sử dụng công nghệ OCR độc quyền được cải tiến qua nhiều năm để có độ chính xác cao nhất có thể. Hơn 100 ngôn ngữ bao gồm tiếng Thổ Nhĩ Kỳ, tiếng Anh, tiếng Đức, tiếng Tây Ban Nha, tiếng Ả Rập, tiếng Nhật, tiếng Trung — bản quét của bạn trở thành văn bản có thể tìm kiếm thực sự.
Bên trong, OCR quét từng trang để nhận diện hình dạng của chữ cái và chữ số, đối chiếu chúng với các mô hình ký tự đã được huấn luyện, rồi ghi kết quả trở lại dưới dạng một lớp văn bản ẩn được căn khớp đúng vị trí xuất hiện của các từ trong ảnh. Vì hình ảnh trang gốc được giữ nguyên vẹn, tài liệu trông y hệt như cũ — bạn chỉ nhận ra khác biệt khi tìm kiếm, bôi đậm hay sao chép. Nguồn càng sạch thì kết quả càng tốt: bản quét sắc nét 300 DPI, trang thẳng và độ tương phản tốt cho ra văn bản gần như hoàn hảo, trong khi những bản chụp bị nghiêng, mờ hoặc thiếu sáng sẽ phát sinh lỗi. Chọn đúng ngôn ngữ tài liệu cũng giúp công cụ phân biệt các ký tự trông giống nhau và những chữ cái có dấu. Khi hoàn tất, tệp PDF có thể tìm kiếm sẽ hoạt động trong mọi trình đọc và sẵn sàng để lưu trữ, lập chỉ mục hoặc chỉnh sửa thêm.
Tại sao OCR với PDF7?
50+ ngôn ngữ
Người mẫu được đào tạo về mọi thứ từ tiếng Anh đến tiếng Hy Lạp cổ. Chọn ngôn ngữ của bạn để có độ chính xác tốt nhất.
Độ chính xác cao
Độ chính xác 95-99% trên các bản scan chất lượng. Hỗ trợ bố cục nhiều cột và bảng.
Giữ bố cục
Văn bản được nhận dạng trên hình ảnh — các trang vẫn trông giống nhau như trước.
Tìm kiếm và sao chép
Sau OCR có thể tìm kiếm văn bản bên trong PDF, sao chép và đánh dấu. Hữu ích cho lưu trữ.
Câu hỏi thường gặp
Độ chính xác nhận dạng là bao nhiêu?
Công cụ OCR của chúng tôi đạt độ chính xác 95-99% trên các bản quét hiện đại rõ ràng (300 dpi, đủ ánh sáng). Những bản quét cũ, bị mờ hoặc độ phân giải thấp giảm xuống còn 80-90%. Quét lại hoặc chụp ảnh rõ hơn để có kết quả tốt hơn.
Có hoạt động với chữ viết tay không?
OCR của chúng tôi được đào tạo về văn bản in. Chữ viết tay chữ thảo phần lớn là không thể đọc được. In khối bằng bút chì đôi khi có tác dụng - hãy thử và xem.
Bố cục gốc có được giữ không?
Có, văn bản được phủ lên hình ảnh. Các trang trông giống nhau, nhưng văn bản có thể sao chép.
OCR mất bao lâu?
Khoảng 2-5 giây mỗi trang. Tài liệu 100 trang được xử lý trong 5-10 phút.
OCR có làm thay đổi giao diện PDF của tôi không?
Không. Hình ảnh trang quét gốc được giữ y nguyên như ban đầu. PDF7 chỉ thêm một lớp văn bản vô hình phía sau hình ảnh, nên tệp trông giống hệt nhưng trở nên có thể tìm kiếm và chọn được. Phông chữ, con dấu, chữ ký và bố cục đều giữ nguyên vị trí.
Có giới hạn về kích thước tệp hay số trang không?
Bạn có thể xử lý tài liệu nhiều trang trong một lần; những tệp PDF quét lớn lên tới hàng chục MB vẫn được xử lý tốt. Các trang ảnh có độ phân giải rất cao chỉ mất thêm chút thời gian để xử lý. Nếu một tệp lớn bất thường, việc tách nó thành các PDF nhỏ hơn trước sẽ giúp tăng tốc độ.