• Thứ Tư, 17/12/2003 11:31 (GMT+7)

    Công nghệ tách thông tin


    Hình 1: Đọc báo trên Internet

    Internet, với hàng tỉ trang web, hàng triệu cơ sở dữ liệu thông tin về nhiều lĩnh vực: khoa học, kinh tế, chính trị, xã hội..., được coi là “mỏ thông tin” vĩ đại nhất trong lịch sử loài người. Công nghệ tách thông tin (Information Extraction) cho phép bạn dễ dàng thu thập và tích hợp thông tin từ mỏ tài nguyên này tạo thành cơ sở dữ liệu để có thể phân tích một cách dễ dàng, khiến việc sử dụng và nắm bắt thông tin trở nên nhanh chóng và thuận tiện hơn bao giờ hết.

    Có ít nhất vài chục triệu người thường xuyên đọc tin tức trên internet và coi đây là một kênh thu thập thông tin chính. Có rất nhiều nguồn tin trên internet, hình 1 là màn hình máy tính của người “bận rộn” với các nguồn tin. Ta thấy được từ hình: hàng chục cửa sổ bài viết nằm chen nhau, rất nhiều ảnh quảng cáo, rất nhiều siêu liên kết với các màu sắc xanh đỏ tím vàng, các kiểu font chữ (Times New Roman, Tahoma, Arial, Vernada...) với các kiểu định dạng chữ to, chữ bé, in đậm, in nghiêng, gạch chân...

     

    1.khái niệm về tách thông tin


    Hình 2: Ví dụ về tách thông tin. Đầu vào là một bài báo được đăng trên website www.vnn.vn.
    Thông tin ở đầu ra là một bản ghi gồm 3 trường: tiêu đề, nội dung và URL của bài báo




    Module
    tách
    thông tin


    Hình 3: Một ví dụ khác về tách thông tin. Đầu vào là trang web dạng bảng chứa danh sách những người tìm việc trên website của báo Lao Động. Thông tin ở đầu ra của quá trình tách thông tin là bảng dữ liệu gồm các trường: mã số, giới tính, trình độ văn hóa…










        Tách thông tin là quá trình xử lý mà dữ liệu ở đầu vào của quá trình là một file HTML, dữ liệu ở đầu ra là các thông tin thoả mãn điều kiện nào đó do người dùng đặt ra và được tổ chức thành dạng có cấu trúc.

     

    2. ý nghĩa của công nghệ tách thông tin


    Hình 4: Công nghệ tách thông tin cho phép chuyển thông tin cần quan tâm từ nhiều website thành cơ sở dữ liệu, mở ra khả năng sử dụng công cụ sẵn có để nghiên cứu thông tin ở cấp độ cao hơn tùy theo nhu cầu

    Từ những người đã từng sử dụng lâu năm cho tới những người mới làm quen với internet đều nhìn nhận rằng có rất nhiều thông tin trên web. Tuy nhiên, những thông tin này lại nằm rải rác ở nhiều nơi, khiến việc thu thập, lưu trữ để rồi sau đó tiến hành các phân tích tỉ mỉ như so sánh, đánh giá, tổng quát hoá... trở nên cực kì khó khăn và tốn nhiều thời gian. Sử dụng công nghệ tách thông tin là phương pháp hữu hiệu nhất để giải quyết những khó khăn này. Các chương trình “tách thông tin” sẽ thực hiện tách dữ liệu từ nhiều nguồn tin (trang web) trên mạng rồi tổ chức lưu trữ (thường là dạng cơ sở dữ liệu) trên hệ thống cục bộ. Sau đó, tuỳ theo nhu cầu cụ thể, các chương trình/công cụ sẵn có sẽ được sử dụng để phân tích, tìm hiểu, chắt lọc thông tin từ nguồn cơ sở dữ liệu này. (hình 4)

     

    3. Căn bản về công nghệ tách thông tin


    Hình 5: Ví dụ nguồn tin gồm nhiều thực thể

    3.1. Nguồn tin - đầu vào của quá trình tách thông tin

     Các nguồn tin được chia thành 3 loại sau:

      •  Nguồn tin gồm nhiều thực thể (multiple-instances source)

      •  Nguồn tin một thực thể (single-instance source)

      •  Nguồn tin có cấu trúc không rõ ràng (loosy-structured source) 

    1. Nguồn tin gồm nhiều thực thể là nguồn tin có các thông tin quan trọng đối với người xem được đặt trên nhiều trang web có cấu trúc định dạng giống nhau. Hình 5 là ví dụ về nguồn tin nhiều thực thể. Hai bài báo thuộc 2 chuyên mục khác nhau tại địa chỉ http://VnExpress.net có chung định dạng sau:

       1. Đầu tiên là một dòng cỡ chữ 10, font Arial ghi ngày giờ đăng bài báo lên mạng

       2. Tiếp đó là tiêu đề của bài báo được in đậm, cỡ chữ 14

       3. Một ảnh tư liệu được đặt bên trái của bài báo ngay sau phần tiêu đề

       4. Dưới ảnh tư liệu có dòng chữ chú thích cỡ chữ 10

       5. Phần tóm tắt của bài báo: cỡ chữ 12, in đậm, màu xám

       6. Nội dung của bài báo: font “Times New Roman”, cỡ chữ 12, màu đen.

     

     


    Hình 6: Ví dụ nguồn tin một thực thể

    2. Nguồn tin một thực thể là nguồn tin có các thông tin quan trọng đối với người xem được đặt trên cùng một trang HTML và các thông tin này có định dạng hiển thị giống hoặc gần giống nhau. Kết quả tìm kiếm thông tin được trả về từ google.com là ví dụ nguồn tin một thực thể: các link được trả về có định dạng hiển thị khá giống nhau và có thể được biểu diễn được ở dạng bảng. (hình 6)

     

    3. Những nguồn tin có cấu trúc không rõ ràng (hay còn gọi là phi cấu trúc) này thường “nghèo thông tin”, không biểu diễn được hoặc rất khó biểu diễn ở dạng bảng. Những nguồn tin dạng này thường không là mục tiêu nghiên cứu để tìm cách tách thông tin. (hình 7)

    3.2. Wrapper

    Về mặt kỹ thuật, việc tách thông tin được thực hiện bằng một module tách thông tin mà tham số ở đầu vào của module này là một trang web. Nội dung của trang web đầu vào được chia thành hai loại:

    • Thông tin cần tách ra và tổ chức lại thành dạng có cấu trúc (các thông tin cần quan tâm)

     • Thông tin không cần quan tâm

    Nhiệm vụ của module tách thông tin là sẽ đọc và thực hiện các lệnh trích xuất thông tin cần thiết để dữ liệu ở đầu ra chỉ chứa thông tin cần quan tâm. Module tách thông tin gồm hai phần: các luật tách thông tin (thuật ngữ tiếng Anh là wrapper) và đoạn mã triển khai các luật tách này trên dữ liệu đầu vào. (hình 8)


    Hình 8: Mô hình tách thông tin

    Việc nghiên cứu để tạo ra được các wrapper một cách dễ dàng với độ chính xác cao, tốn ít thời gian là trọng tâm trong công nghệ tách thông tin. Có 3 phương pháp chính để tạo wrapper:

    • Phương pháp thủ công:

    Theo phương pháp này, người tạo wrapper phải có những kiến thức nhất định về web, HTML, CSS và có căn bản về kỹ thuật lập trình (đặc biệt là các vấn đề có liên quan đến xử lý chuỗi). Không những thế, việc phân tích nguồn tin để thiết kế luật tách cũng mất rất nhiều thời gian. Tuy nhiên phương pháp thủ công này cũng có ưu điểm: có thể tạo wrapper chỉ bằng các hàm xử lý chuỗi thông thường, do đó có thể dễ dàng triển khai trên nhiều ngôn ngữ lập trình.

    • Phương pháp tự động:Tạo wrapper một cách tự động ở đây có nghĩa là người sử dụng chỉ cần cho biết nguồn tin, chương trình phần mềm sẽ tự phân tích cấu trúc của các tập tin nguồn tin này để tạo ra các luật tách mà không cần hoặc là cần rất ít sự điều khiển của người sử dụng. Hiện tại, phương pháp này mới chỉ áp dụng thành công đối với các nguồn tin có nội dung cần tách được hiển thị ở dạng bảng.

    • Phương pháp bán tự động:

    Tạo wrapper bằng phương pháp tự động chỉ có thể áp dụng được với một số dạng nguồn tin nhất định, phương pháp thủ công thì quá mất thời gian và đòi hỏi nhiều kiến thức chuyên môn, do vậy việc nghiên cứu cách tạo wrapper bằng phương pháp bán tự động cho phép người dùng tự định nghĩa các wrapper với sự trợ giúp của các công cụ là hướng phát triển tốt nhất để có thể đáp ứng kịp thời nhu cầu của người sử dụng.

    Bạn có thể tìm hiểu thêm về giải pháp tạo wrapper bán tự động sử dụng giải thuật quy nạp tại địa chỉ: www.hoang-namhai.com/IppDemo.htm.


    3.3. Thông tin tại đầu ra của quá trình tách thông tin

    Dạng biểu diễn của dữ liệu sau quá trình tách thông tin phổ biến nhất là dạng dữ liệu meta - XML. Từ dạng dữ liệu XML này, ta hoàn toàn có thể sử dụng các công cụ sẵn có để chuyển đổi tiếp sang dạng dữ liệu nào đó phù hợp với nhu cầu sử dụng, chẳng hạn dạng bảng tính của Excel, dạng cơ sở dữ liệu của SQL, dạng text, dạng DOC, hoặc thậm chí chuyển lại thành dạng HTML. (hình 11-12)

    4. lời kết

    Thu thập thông tin về các chỉ số chứng khoán hàng ngày vào cơ sở dữ liệu, ta có thể vẽ đồ thị và phân tích tình hình tăng giảm của từng chỉ số. Thu thập các mẩu tin rao vặt về điện thoại di động vào cơ sở dữ liệu, rồi áp dụng một vài lệnh thống kê đơn giản, ta có thể thu được nhiều thông tin quý giá, chẳng hạn như chủng loại điện thoại nào hiện đang được nhiều người tìm mua: Nokia, Siemen hay Ericsson, loại điện thoại nào được nhiều người rao bán... Công nghệ tách thông tin tạo ra cơ hội để biến những thông tin quanh ta thành cơ sở dữ liệu, thành tri thức, thành các quyết định kinh doanh một cách nhanh chóng. Cùng với sự trưởng thành của công nghệ tách thông tin, hàng loạt công nghệ tri thức mới sẽ ra đời như công nghệ về tích hợp thông tin, tóm tắt thông tin, tổng quát hoá thông tin...

    Bạn có thể đọc thêm về công nghệ tách thông tin và tải về cơ sở dữ liệu ví dụ gồm hơn 10.000 bài viết được thu thập bằng cách ứng dụng công nghệ này tại địa chỉ: http://www.HoangNamHai.com/IppDemo.htm

    Hoàng Nam Hải
    HoangNamHai@Yahoo.Com

     

    ID: A0304_80