Desktop & Văn phòng VietOCR.NET (Freeware) - Phần mềm đọc văn bản từ file ảnh MIỄN PHÍ!

tramanh89xd


Junior Moderator
Thành viên BQT
VietOCR.NET là một .NET WPF GUI frontend cho Tesseract OCR engine, cung cấp hỗ trợ nhận dạng ký tự cho các dạng ảnh phổ thông, và ảnh chứa nhiều trang. Chương trình có phần hậu xử lý giúp sửa chữa các lỗi thường gặp trong quy trình OCR, tăng độ chính xác trên kết quả. Chương trình còn có khả năng vận hành như một ứng dụng console, thi hành lệnh từ command line.

Batch processing nay được hỗ trợ. Chương trình theo dõi một watch folder cho các tập tin ảnh mới, tự động xử lý chúng qua OCR engine, và xuất kết quả nhận dạng ra một output folder.

Yêu cầu hệ thống phải cài Microsoft .NET Framework 4.7.1 và Microsoft Visual C++ 2015 Redistributable Package.
HƯỚNG DẪN

Các gói data ngôn ngữ ( language data packs ) cho Tesseract nên được giải nén vào tesseract installation folder; các data files, có tên bắt đầu với mã ISO639-3, sẽ được đặt vào tessdata subdirectory. VietOCR cũng có cung cấp hỗ trợ tải xuống và cài đặt các language packs được chọn qua Tải dữ liệu ngôn ngữ menu item. Tùy theo địa điểm của thư mục tessdata, bạn có thể được yêu cầu chạy chương trình với quyền admin để có thể cài đặt dữ liệu đã được tải vào thư mục đó nếu nó nằm trong một system folder, như là trong C:\Program Files.

Bộ Vietnamese language data được tạo cho các font Times New Roman, Arial, Verdana, và Courier New. Do đó, việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có font glyphs tương tự. OCR ảnh có font glyph trông khác các font hỗ trợ thông thường sẽ đòi hỏi tập huấn Tesseract để tạo một bộ language data khác cụ thể cho những mặt chữ đó. Language data cho một số VNI và TCVN3 (ABC) fonts cũng đã được bó kèm trong các phiên bản mới nhất.

Hình ảnh muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400 trong trắng đen hoặc grayscale. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt, và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa. Dầu vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét. Thông số tiêu biểu cho quét ảnh là 300 DPI và 1 bpp (bit per pixel) trắng đen hoặc 8 bpp grayscale dạng không nén (uncompressed) TIFF hay PNG.

Chế độ Screenshot Mode cung cấp độ nhận dạng tốt hơn cho những hình ảnh có độ phân giải thấp, chẳng hạn như ảnh in màn hình, bằng cách rescaling chúng tới 300 DPI.

Ngoài thuật toán hậu xử lý xây trong chương trình, bạn có thể thêm cách thức thay thế từ ngữ đặc riêng của bạn qua một tập tin text UTF-8-encoded tab-delimited có tên x.DangAmbigs.txt, mà x là ISO639-3 language code. Cả hai cách thay thế text đơn giản và Regex đều được hỗ trợ.

Bạn có thể đặt control parameters init-only và non-init trong các file tessdata/configs/tess_configs và tess_configvars để biến đổi hành vi của Tesseract engine.

Vài công cụ gắn liền được cung cấp để nối nhiều file ảnh hoặc PDF vào một file đơn để thuận tiện cho các tác vụ OCR, hoặc tách một file PDF thành nhiều file nhỏ hơn nếu nó quá lớn, điều mà có thể gây ra biệt lệ cạn bộ nhớ.

Note : Bạn có thể download nhiều loại ngôn ngữ để có thể sử dụng .

Một số hình ảnh của phần mềm :

vi-jpg.3038


en-jpg.3040


cn-jpg.3039


Bài viết chi tiết tham khảo tại đây:


Nguồn : Viet OCR
 
Sửa lần cuối bởi điều hành viên:
Top