• Thứ Bảy, 21/05/2005 11:04 (GMT+7)

    Hình thành ngành khoa học về khai thác thông tin

    Khoa học CNTT trên thế giới hiện đang phát triển khá nhanh và việc khai thác thông tin không còn dừng lại là một kỹ năng đơn thuần và việc ra đời ngành khoa học mới: khoa học về Phát hiện tri thức và Khai phá dữ liệu (Knowledge Discovery and Data Mining – KDD) cũng không nằm ngoài mục đích trên.

    Trong ba ngày từ 18-20/5/2005, 150 nhà khoa học từ nhiều quốc gia cùng gặp nhau tại hội nghị khoa học mang tên “Phát hiện tri thức và Khai phá dữ liệu 2005” – PAKDD – 05 để cùng trao đổi, thảo luận về chủ đề này. Mỗi tham luận được trình bày tại hội thảo là một công trình nghiên cứu khoa học của các học giả. Đáng mừng là vài ba năm trở lại đây, một số trường đại học của Việt Nam cũng bắt đầu quan tâm đến vấn đề này.

    Internet - kho tri thức của nhân loại, của mọi ngành, mọi nghề, mọi lĩnh vực trở thành nguồn tài sản chung của tất cả những ai biết khai thác. Tuy nhiên, trong khối thông tin khổng lồ và vô cùng phong phú đó, thật khó để tập hợp được những thông tin cần thiết theo cùng một tiêu chí. Chưa kể, tri thức được tồn tại dưới rất nhiều dạng khác nhau: dạng chữ, hình ảnh, đồ thị, các gen, các công thức,... Nhiều nhà khoa học trên thế giới đang cùng một mục đích nghiên cứu nhằm đưa trí tuệ, sự thông minh của con người vào máy móc để chúng có thể tìm kiếm thay con người. Giáo sư Tom Mitchell, ĐH Carnegie Mellon, Mỹ đã có công trình nghiên cứu “Phân tích chức năng hoạt động của não người” . Đây sẽ là cơ sở để chuyển tải sự thông minh của con người sang máy tính.

    Trong quá trình khai thác dữ liệu, nhà khoa học Zdrislaw Pawlak đã đưa ra khái niệm “tập thô” (Rough Set) để gọi tên một loại công cụ dùng trong tiếp cận tri thức. Sau này, “tập thô” trở thành một thuật ngữ phổ biến của CNTT. Những năm gần đây, một số lượng lớn các ứng dụng của "tập thô" được đưa vào y học, kinh tế, tài chính, kinh doanh, môi trường, điện, nghiên cứu phần mền và khoa học về thông tin. Một số tham luận đáng chú ý về tập thô là “Sử dụng tập thô trong phân tích sự lành mạnh về tài chính của dot-com của Indranil Bose; “Phương pháp khai phá dữ liệu về điểm đen mặt trời” của Claire P.Willin. Hay như trong sinh học, những năm qua, ứng dụng CNTT trong nghiên cứu sinh học cũng được đẩy mạnh và được gọi dưới cái tên: ngành sinh tin học. Một trong những mục tiêu quan trọng của sinh tin học là khám phá các chức năng của cơ thể sống từ các dữ liệu gen. Việc nghiên cứu không thể thành công nếu chỉ có những thông tin được xử lý dưới dạng đơn lẻ của từng bộ gen cá thể mà nó phải được tập hợp lại để nghiên cứu. GS.Susumu Goto, Nhật Bản đã đề cập đến vấn đề trên qua tham luận về “Mạng lưới phân tích trong sinh tin học”. GS.Trần Lê Bình – Viện Công Nghệ Sinh Học Việt Nam cũng có bài về “Tình trạng phát triển công nghệ sinh học ở Việt Nam”.

    Tại Việt Nam, một số trường như ĐH Bách Khoa Hà Nội, ĐH Bách Khoa TPHCM, ĐH Công Nghệ từ vài ba năm trở lai đây cũng đã quan tâm đến khoa học KDD. Các vấn đề được quan tâm chủ yếu là Phân lớp, phân loại văn bản; Áp dụng tập thô trong khai phá dữ liệu. Đã có một số đồ án tốt nghiệp, đề tài sinh viên nghiên cứu khoa học về KDD như đề tài “Tìm kiếm Tiếng Việt BK Searcher” của sinh viên Hoàng Minh Sơn và Nguyễn Xuân Tài, khoa CNTT, ĐH Bách Khoa Hà Nội. Công trình này đã đoạt giải ba VIFOTEC 2004. Hiện hai sinh viên này đang tiếp tục phát triển hệ Tìm kiếm theo mục đích BK Triplex System. Ngoài ra còn một số luận văn khác của Đặng Xuân Hà, Nguyễn Lê Vinh (K42, ĐH Bách Khoa Hà Nội) về tìm kiếm văn bản; Phan Thanh Liêm (K44, ĐH Bách Khoa Hà Nội) nghiên cứu về tập thô.

    Thu Nga

    ID: O0505_1