• Thứ Ba, 15/05/2007 09:32 (GMT+7)

    Nhận dạng văn bản từ bitmap

    Câu hỏi :
    Hướng dẫn thuật toán chung để nhận dạng ảnh đơn giản gồm 2 dòng chữ là các ký tự chữ và số (0-9), được quy định theo 1 font cố định? 
     

    Trả lời :

    Yêu cầu của bạn không phải là nhận dạng ảnh, mà là nhận dạng văn bản (chuỗi ký tự) từ file ảnh bitmap. Đây là lĩnh vực nghiên cứu đã, đang và sẽ được nhiều người thực hiện vì cho đến giờ vẫn còn nhiều điều cần được hoàn chỉnh. Qui trình chung để nhận dạng văn bản từ ảnh bitmap là:

     - Tách ra nhiều vùng bitmap từ trên xuống, mỗi vùng bitmap miêu tả 1 hàng văn bản.
     - Tách vùng bitmap miêu tả 1 hàng văn bản ra nhiều vùng bitmap nhỏ hơn theo chiều ngang, mỗi vùng nhỏ miêu tả 1 ký tự.
     - Nhận dạng từng vùng bitmap nhỏ ra ký tự tương ứng. Có nhiều phương pháp nhận dạng ký tự khác nhau, nhưng nhìn chung độ chính xác không cao, nhất là khi phải nhận dạng ký tự viết tay, do đó người ta phải kết hợp với việc kiểm tra từ điển (và ngay cả kiểm tra cú pháp) để hiệu chỉnh kết quả nhận dạng được tốt hơn.

    Bạn có thể tìm đọc các tài liệu giới thiệu các phương pháp nhận dạng văn bản trên Internet hay trong các bản thuyết minh luận văn đại học của một số sinh viên ở các trường đại học như Bách Khoa Tp.HCM, Khoa Học Tự Nhiên Tp.HCM...

    Nếu chỉ dừng lại ở việc nhận dạng các ký tự chữ số được in từ máy tính theo 1 font chữ truyền thống (không phải font chữ viết tay phức tạp) thì hầu hết các phương pháp nhận dạng hiện nay đều có thể nhận dạng chính xác 100%.
     

    Chuyên mục: Lập trình