• Thứ Sáu, 16/01/2004 09:19 (GMT+7)

    Nhập và xử lý tự động dữ liệu dạng đánh dấu bằng MarkREAD

    Một tập 1000 bài thi trắc nghiệm dạng đánh dấu lựa chọn có thể được MarkREAD xử lý tự động trong vòng một giờ đồng hồ!

    Ý Tưởng Về Phần Mềm Nội Cạnh Tranh Với Phần Mềm Ngoại
    Trong các cuộc khảo sát thị trường, điều tra xã hội, các kỳ thi trắc nghiệm... trên giấy, việc xử lý các phiếu kết quả và hoàn chỉnh báo cáo thống kê là những công việc tiêu tốn khá nhiều thời gian và nhân công. Làm thế nào để bớt được gánh nặng này, đồng thời hạn chế sự can thiệp của con người để đảm bảo được độ chính xác, tính khách quan và nhanh chóng của việc điều tra hay chấm điểm? MarkREAD - phần mềm nhập và xử lý dữ liệu tự động - sản phẩm của Viện CNTT chính là công cụ giúp giải quyết vấn đề này. 
    Tiến sĩ Đỗ Năng Toàn, người chủ trì nhóm nghiên cứu và phát triển sản phẩm MarkREAD cho biết, ý tưởng ra đời một sản phẩm tự động nhập và xử lý dữ liệu đã được ấp ủ từ lâu. Cú huých xảy ra khi “cuối năm 2000,  chúng tôi được biết ĐH Tây Nguyên có mua một hệ thống chấm thi trắc nghiệm của nước ngoài trị giá xấp xỉ 40.000 USD, song việc sử dụng hệ thống này lại gặp không ít khó khăn do hệ thống chỉ chấm điểm được trên một loại giấy chuyên dụng...”, anh Toàn kể. Vì thế, suy nghĩ về một sản phẩm phần mềm hỗ trợ nhập và xử lý dữ liệu tự động, đọc được nhiều loại giấy và do người Việt sáng tạo đã thành hình trong nhóm các kỹ sư thuộc Phòng Nhận Dạng và Xử Lý Ảnh thuộc Viện CNTT. Đây cũng là địa chỉ đã trở nên quen thuộc với người dùng CNTT qua sản phẩm nhận dạng và xử lý chữ Việt VnDOCR - một sản phẩm nổi tiếng, đặc thù của PM Việt phục vụ người Việt.  


    Mô hình quy trình xử lý  của MarkREAD

    Quy Trình Hoạt Động Của Markread

    Quy trình chung


    Giao diện màn hình của
    MarkREAD. Bên trái: ảnh phiếu điều tra, bên phải: kết quả xử lý.

    Các phiếu điều tra, bài thi... chứa các ô đánh dấu trong hình chữ nhật, hình tròn hoặc hình e-lip... được quét bằng máy quét (scanner) và lưu dưới dạng file ảnh (ở hầu hết các định dạng thông thường như TIF, GIF, PCX, BMP, JPG...) nhiều trang, tương ứng mỗi trang là một phiếu. Ảnh được nhận dạng và xử lý, kết quả xử lý được thể hiện dưới dạng CSDL như DBF (Foxpro), XLS (Excel), MDB (Microsoft Access), TXT (dạng text file)... Bên cạnh đó, MarkREAD còn cung cấp một công cụ đi kèm cho phép ngư­ời dùng có thể kết xuất dữ liệu trực tiếp ra các dạng thông tin cần thiết. Chẳng hạn như đầu vào là các bài thi trắc nghiệm bằng giấy, đầu ra là bảng điểm; hay đầu vào là các phiếu bầu, đầu ra là danh sách và số phiếu bầu...

    Học mẫu       
    Đây là một bước bắt buộc với các mẫu phiếu mới. Bạn phải “dạy” cho chương trình xử lý “hiểu” mẫu để xây dựng cấu trúc CSDL, làm cơ sở cho xử lý dữ liệu về sau. Bạn quét một phiếu điều tra, phiếu bầu cử hay bài thi trắc nghiệm chư­a đư­ợc điền thông tin. Căn cứ vào đây, MarkREAD trích, chọn các thông tin cần thiết để nhận dạng những phiếu đã đư­ợc điền. Chương trình có thể nhận dạng các loại mẫu đánh dấu thông dụng và tự định nghĩa như:  Dấu check hình chữ nhật;  Dấu check hình tròn;  Dấu check hình tròn với số;  Dấu check hình ngoặc với chữ;  Dấu gạch dùng trong bầu cử...; và có thể tự khai báo. Quá trình “học” đối với mỗi mẫu phiếu chỉ cần thực hiện một lần, bởi MarkREAD có thể lư­u để dùng lại cho nhiều lần sau.

    Những vấn đề cần giải quyết khi nhận dạng
    Bản thân việc in phiếu, giấy in, máy photocopy, máy quét... đều ẩn chứa các nguyên nhân kỹ thuật khiến ảnh thu được từ các phiếu khác nhau có độ lệch (ví dụ: nghiêng), độ dịch chuyển (dịch lên hoặc dịch xuống) khác nhau mà ta cần loại bỏ. Một lưu ý ở đây là các nhà lập trình MarkREAD giả thiết giấy in phiếu là giấy bất kỳ, không cần chuyên dụng, tức là đã chấp nhận thêm một khó khăn về kỹ thuật.
    Việc tách chính xác các đối tượng đánh dấu trong phiếu điều tra là quan trọng nhất trong quá trình nhận dạng. Khó khăn gặp phải là: các mẫu phiếu rất đa dạng, gồm nhiều loại đối tượng (hình học, ảnh) với đặc tính và định hướng ngang dọc khác nhau...

    Hiệu Quả
    MarkREAD phát huy hiệu quả cao khi được sử dụng cùng những chiếc máy quét nhiều trang tự động (ADF scanner), tốc độ cao (50-100 trang/phút) và các máy tính có khả năng lưu trữ lớn.
    Qua kiểm tra, với việc chấm 50 bài thi trắc nghiệm bằng MarkREAD, tổng thời gian thao tác, từ học mẫu, thu nhận ảnh, nhận dạng, lưu kết quả đến khi kết xuất ra các báo cáo (bảng điểm, báo cáo thống kê), tối đa hết 5 phút (nếu không phải học mẫu thì thời gian xử lý 50 bài thi chỉ từ 2-3 phút), nhanh hơn rất nhiều lần so với việc chấm bài theo phương thức thông thường.

    Nghịch Lý Buồn Và Niềm Hy Vọng
    MarkREAD, sản phẩm giàu chất trí tuệ, đã đoạt giải thư­ởng kỹ thuật thanh niên năm 2002 do Trung Tâm KHTN&CNQG và Trung Û­ơng Đoàn tổ chức và được ứng dụng rộng rãi trong các cuộc điều tra về khách hàng trong Dự Án VIE/009 về hợp tác du lịch giữa Vư­ơng Quốc Bỉ và Việt Nam. Có thể dự đoán đây là sản phẩm rất nhiều tổ chức, doanh nghiệp, dự án sẽ cần đến.
    Nhưng thực tế lại không như vậy. Số khách hàng của MarkREAD, cho đến thời điểm này, đếm chưa hết các đầu ngón tay. “Không phải do sản phẩm không tốt, không phải do giá cả quá đắt (giá của MarkREAD là 10 triệu đồng/bản). Một nguyên nhân quan trọng khiến các cơ quan, các dự án điều tra e ngại sử dụng MarkREAD là sợ mất việc làm cho người lao động thủ công...” - anh Toàn tâm sự.
    Đây là một nghịch lý buồn, không chỉ đối với MarkREAD, mà đối với nhiều sản phẩm PM khác. “Mặt khác, những cơ quan nghiên cứu như chúng tôi khó mà tổ chức được một đội ngũ tiếp thị sản phẩm, do đó người có nhu cầu lại không biết đến chúng tôi” - anh Toàn nói thêm - “Tuy nhiên chúng tôi hy vọng sản phẩm sẽ đến được với người dùng có khối lượng thông tin lớn và đặt cao nhu cầu xử lý nhanh chóng, chính xác.”

    Đặng Kim Long

     

     

     

    ID: B0309_30