• Thứ Tư, 05/03/2008 08:14 (GMT+7)

    Nhận dạng văn bản với MS Office 2003

    Đôi lúc chúng ta cần lưu lại một đoạn văn bản trên web (hoặc chép từ tệp PDF chỉ cho phép "view") nhưng không biết làm thế nào vì không có quyền sao chép hay thậm chí là quyền in. Phương án đầu tiên tôi nghĩ tới là chụp ảnh màn hình rồi dùng phần mềm nhận dạng văn bản để xử lý. Phần mềm nhận dạng văn bản tiếng Anh rất nhiều nhưng kiếm được đồ miễn phí không đơn giản – không lẽ mua cả một cái máy quét chỉ để lấy phần mềm nhận dạng văn bản dùng trong chốc lát? Cứu tinh là phần mềm Microsoft Office Document Imaging nằm ngay trong bộ MS Office 2003. Để tìm đến nó, các bạn nhấn nút Start, chọn Programs, Microsoft Office, rồi Microsoft Office Tools (thực đơn cài đặt ngầm định là "C:\Program Files\Common Files\Microsoft Shared\MODI\11.0\"). Phần mềm này khá lười nhác, nó chỉ xử lý tệp ảnh dạng TIF. Nếu muốn xử lý tệp ảnh có sẵn ở dạng khác, bạn có thể chuyển đổi thành dạng TIF chỉ với Paint (nếu khi cài Office bạn đã chọn đủ các bộ lọc đồ họa) hoặc đơn giản hơn là chép hình ảnh cần xử lý vào clipboard (rồi thực hiện theo hướng dẫn dưới đây).

    Bước 1: Chọn Page/Paste Page

    Bước 2: Tiến hành nhận dạng văn bản bằng cách nhấn nút lệnh "nhận dạng" như hình dưới đây.

    Bước 3: Nhấn nút "Export to Word" (hoặc chọn từ thực đơn Tools) – thế là xong, bây giờ chúng ta có thể chép đoạn văn bản từ Word để dán vào bất cứ chương trình nào.

    Lưu ý cho các lập trình viên: Thư viện nhận dạng văn bản của MS Office có thể được tận dụng để tự động hóa quy trình, tận dụng tính năng nhận dạng văn bản có sẵn này cho các nhu cầu khác. Thông tin mô tả về các lớp đối tượng dùng trong nhận dạng văn bản có thể tham khảo tại địa chỉ http://msdn.microsoft.com/library/default.asp?url=/library/en-us/Mspauto/html/dihowUsingMODIObjectModel_HV01049396.asp
    Một ví dụ lập trình cụ thể có tại http://www.codeproject.com/office/modi.asp.

    Nguyễn Anh Tuấn
    124 Vương Thừa Vũ, Hà Nội

    ID: A0802_126