• Thứ Sáu, 15/04/2011 15:25 (GMT+7)

    ScanPack: giải pháp số hóa và "bóc" lớp tài liệu

    NND
    Hệ thống xử lý văn bản ScanPack có khả năng nhận dạng tài liệu từ bản gốc đã hư hại, đặc biệt có thể dễ dàng bóc tách các lớp in của con dấu, chữ ký...

    Nhà phát triển Nga Cognitive Technologies vừa thông báo sắp tung ra thị trường hệ thống xử lý văn bản Cognitive ScanPack với các tính năng đặc biệt. Hệ thống được dành cho các công việc truyền thống như quét và xử lý, nén các tài liệu. Tuy nhiên, hệ thống này có ứng dụng vài công nghệ đặc biệt khiến nó khác hẳn so với các hệ thống tương tự hiện nay.

    Điểm mới then chốt của ScanPack là những thuật toán phân tích hình ảnh mới. Đặc tính đáng kể nhất là khả năng làm việc với những tài liệu cấu trúc phức tạp (với nhiều lớp in (ký, đóng dấu) trên bề mặt văn bản) và khả năng làm việc với tài liệu bị hư hại (nền bị vỡ do bẩn, nát, hoen ố). Sau khi xử lý với ScanPack, tài liệu trở lại "chất lượng hình ảnh chấp nhận được".

    Việc sử dụng để lưu trữ dưới định dạng PDF/A cho phép nén tài liệu gốc đến 4 - 10 lần. Với file kết quả, có thể thực hiện tìm kiếm theo văn bản. ScanPack tự động hoá quá trình số hoá tài liệu từ giai đoạn scan đến giai đoạn nén dữ liệu. Cognitive cho rằng, các thuộc tính của hệ thống sẽ khiến nó đặc biệt phù hợp với công việc về hồ sơ công việc.

    Grigory Lipich, Tổng giám đốc điều hành Abbyy Nga chưa sẵn sàng thử nghiệm để đánh giá công nghệ ScanPack của Cognitive, tuyên bố rằng "những công nghệ tương tự đã có trên thị trường từ lâu". Ông Lipich nói rằng, các sản phẩm của công ty ông đang sử dụng công nghệ MRC (Mixed Raster Content) cho phép cắt giảm đáng kể kích thước file PDF và nhận được các tài liệu kết quả kích thước nhỏ, có khả năng tìm kiếm theo toàn bộ văn bản và giữ được trạng thái ban đầu. Nó được trang bị cho nhà phát triển Abbyy FineReader Engine và trong các hệ thống đầu vào tài liệu và dữ liệu Abbyy FlexiCapture và Abbyy Recognition Server.

    Kết quả thử nghiệm so sánh giữa Abbyy FineReader và Cognitive ScanPack. Text nhận dạng được tách ra bằng màu tím...
    Khi sử dụng công nghệ MRC, hình ảnh trước khi nén đã trải qua một công đoạn gọi là "phân tách lớp": trong hình là các chi tiết cấu trúc được tách thành 3 dạng (text, hình ảnh (ảnh, sơ đồ, đồ thị v.v...) và các khu vực được dùng chung một màu. Sau đó, những lớp này sẽ được xử lý độc lập với nhau bằng các thuật toán nén. Ngoài ra, trong các giải pháp của Abbyy có ứng dụng công nghệ nhận dạng thích ứng ADRT (Adaptive Document Recognition Technology) cho phép xử lý tài liệu định dạng phức tạp.

    Thử nghiệm so sánh Abbyy FineReader với Cognitive ScanPack. Text nhận dạng được tách ra bằng màu tím...
    Vladimir Arlazarov, lãnh đạo Phòng thí nghiệm của Viện Vật lý Lý thuyết và Thực hành TP.Moskva nói rằng định dạng PDF/A để nén hình ảnh và lưu trữ tài liệu thực sự đang được nhiều nhà phát triển sử dụng trong các sản phẩm và công nghệ của mình. Trong đó, việc ứng dụng công nghệ MRC (Mixed Raster Content) là sự mở rộng cách tiếp cận được dùng ở định dạng DjVu. Trong khi sử dụng MRC, việc phân mảnh hình học sử dụng công nghệ nhận dạng được thực hiện, trong đó hình ảnh được phân tách thành các lớp đồ hoạ (bức tranh và text) nhờ sử dụng các thuật toán nén khác nhau.

    Theo Arlazarov, trong cách tiếp cận này có một nhược điểm lớn: Nếu hệ thống không thể nhận biết đối tượng (text trên bức tranh, con dấu hay chữ ký trên nền văn bản in, chất lượng bản sao tồi, sách hay báo ngả màu vàng) thì nó sẽ được xử lý như một hình ảnh và sẽ không thể thực hiện tìm kiếm theo nội dung tài liệu sau khi nó được xử lý.

    Arlazarov giải thích rằng, trong Cognitive ScanPack có ứng dụng phân mảnh hình học và màu sắc, cho phép tách tài liệu ra thành vài "lớp thông tin, nhờ đó, có thể xử lý text trong trường hợp bị dấu và chữ lý đè lên, tại các vị trí bị gạch ngang hoặc bị nhiễu do sao chụp, hoen ố... Việc tách tài liệu ra thành các lớp không phụ thuộc vào nhau quan trọng trong quá trình xử lý tài liệu, trong đó nền giấy là đáng kể như trong trường hợp xử lý hộ chiếu.

    Ngoài ra, theo Arlazarov, "các phương pháp nhị phân được dùng để phục hồi text của ScanPack gia tăng chất lượng hình ảnh của text trên tài liệu cuối cùng so với tài liệu ban đầu". Sau đó, mỗi lớp thông tin được xử lý bắng thuật toán nén hiệu quả hơn (text được nén ở định dạng TIFF còn hình ảnh thì ở định dạng JPG).

    Phó Chủ tịch phụ trách tiếp thị của Cognitive Technologies Nikolai Nikolsky khẳng định, các sản phẩm trên nền ScanPack sẽ không cạnh tranh trực tiếp với các giải pháp của Abbyy. Trong khi đó, Vladimir Arlazarov bổ sung rằng, mặc định là ScanPack sử dụng lõi nhận dạng Cuneiform nhưng nếu muốn thì người dùng cũng có thể kết nối với hệ thống Abbyy FineReader.

    Thú vị là, do ScanPack biết nhận dạng và tách hình ảnh con dấu và chữ ký, vô hình trung nó "tiếp tay" cho việc làm giả tài liệu giấy. Vladimir Arlazarov thừa nhận rằng, với sự xuất hiện hàng loạt trên thị trường các sản phẩm trên nền ScanPack, việc làm giả tài liệu sẽ trở nên dễ dàng. Tuy nhiên, ông cũng nói rằng những ai sử dụng thuần thục phần mềm Photoshop cũng có thể làm việc đó.

    Arlazarov nói, các nhà phát triển đang cố gắng gỡ bỏ nguy cơ lạm dụng công nghệ bằng cách bổ sung thêm vào tài liệu thành phẩm dấu hiện nhận biết nào đó, hoặc làm giảm chất lượng của các chữ ký, con dấu vừa được tái tạo.

    Cognitive cho biết, hiện thời hệ thống ScanPack đang được dùng ở 2 công ty bảo hiểm "Bảo hiểm Zurich" và "Bảo hiểm Renessans" và Nhà máy luyện kim Magnhitogorsky, và có thể cả trong các lực lượng vũ trang.

    Nikolai Nikolsky nói rằng các giải pháp trên nền Cognitive ScanPack sẽ được bán ra hàng loạt trong năm 2011. Tổng giá trị thị trường "các hệ thống xử lý tài liệu" của Nga được ông Nikolsky định giá 1 tỷ USD (20.833 tỷ đồng). Nikolai Nikolsky cho rằng do không có các hệ thống tương đương nên Cognitive ScanPack có thể chiếm được thị phần đáng kể trên thị trường thế giới.

    Còn một điều thú vị nữa là ScanPack chủ yếu dựa trên các công nghệ mở: Lõi nhận dạng Cuneiform được phát triển bởi Cognitive và công bố năm 2008 theo giấy phép tự do BSD còn PDF/A là tập hợp con của PDF đã được chuẩn hoá trong hệ thống ISO. Các thành phần nhận dạng và xử lý hình ảnh thì vẫn còn nằm trong khuôn khổ sử dụng theo giấy phép, theo Cognitive.