• Thứ Hai, 21/02/2005 15:18 (GMT+7)

    Hệ thống tìm kiếm thế hệ mới

    Các hệ thống tìm kiếm mới có khả năng truy xuất các kho dữ liệu phức tạp, khéo léo cải thiện mức độ chính xác của kết quả.

     

    Các hệ thống tìm kiếm mới có khả năng truy xuất các kho dữ liệu phức tạp, khéo léo cải thiện mức độ chính xác của kết quả.

    Google đã làm hư người dùng! Chỉ cần nhập vào một vài từ khóa và một màn hình đầy các liên kết website xuất hiện một cách kỳ diệu, sẵn sàng cho cú nhấn chuột. Tuy nhiên, cỗ máy Google tìm kiếm trong môi trường đồng nhất, chủ yếu là các website và tài liệu 'bộc lộ' thông tin thông qua các giao tiếp chuẩn.

    Trong thời đại bùng nổ thông tin điện tử hiện nay, môi trường thông tin không hoàn toàn đồng nhất, người dùng thường phải tìm kiếm thông tin từ nhiều nguồn với từng công cụ tìm kiếm riêng. Cụ thể như môi trường công sở đang ngập tràn trong cơn lũ dữ liệu có cấu trúc (cơ sở dữ liệu) lẫn không cấu trúc (các tập tin tài liệu văn bản). Mặc dù người dùng thường gán các tài liệu một cách thủ công vào các hệ thống quản lý nội dung với hy vọng sẽ dễ tìm chúng hơn nhưng lại làm cho việc tìm kiếm mất nhiều thời gian và không chính xác.

    Các hệ thống tìm kiếm dành cho mạng công sở (TKCS) có nhiệm vụ thay đổi tất cả việc này. Các công nghệ tích hợp và tìm kiếm mới 'bóc' thông tin từ các kho dữ liệu ở khắp mạng. Mục tiêu của TKCS rất đơn giản: nhận các truy vấn đơn giản và trả về các kết quả thích hợp nhất trong khả năng có thể, tất cả ở một chỗ. Nhưng đằng sau đó, TKCS tập hợp nhiều công nghệ mới như tự động phân loại, trích xuất thông tin và xử lý ngôn ngữ tự nhiên. Trên nền tảng TKCS, công ty-tổ chức có thể xây dựng các ứng dụng tìm kiếm riêng có khả năng xử lý tự động tài liệu phục vụ cho việc lưu trữ và lập chỉ mục.

    Khám phá bí mật

    TKCS thay đổi cách thức thực hiện tìm kiếm liên hoàn, quá trình một câu truy vấn được gửi đến nhiều cỗ máy tìm kiếm và người dùng nhận được kết quả tập hợp. Một tìm kiếm liên hoàn có thể hữu ích cho việc tìm kiếm các kho dữ liệu tương tự nhưng không hiệu quả khi truy vấn CSDL bên ngoài có yêu cầu cú pháp riêng.

    Thường có nhiều cỗ máy tìm kiếm nhúng trong các ứng dụng khác nhau - ví dụ, một cái trong hệ thống quản lý nội dung, một cái trong môi trường Microsoft Office, và một cái khác trong trình email. TKCS 'đứng trên' các cỗ máy tìm kiếm này và các kho dữ liệu tương ứng (xem sơ đồ 1) và áp đặt việc dịch cú pháp và các xử lý ngôn ngữ khác, như kiểm tra chính tả và nhận biết câu, đối với truy vấn trước khi truy xuất kho dữ liệu.

    Tại lớp chỉ mục, TKCS trợ giúp người dùng bằng cách trả về danh sách các lựa chọn truy vấn cải tiến dựa trên ngữ cảnh truy vấn gốc (đôi khi mơ hồ). Ví dụ TKCS của FAST, điều hành trang Scirus.com. Nếu bạn nhập từ 'nuclear' (hạt nhân) nhằm tìm các ấn phẩm khoa học liên quan đến chủ đề này, danh sách trả về hơn 700.000. Từ khoá cải tiến được chọn từ danh sách đề nghị ở bên phải trang - 'nuclear facility' - rút lại còn dưới 1.000. Nhấn thêm lần nữa, trên 'uranium enrichment' (làm giàu uranium) thì danh sách còn lại khoảng 10.

    Website tìm kiếm Endeca cung cấp công nghệ kết hợp tìm kiếm với cái gọi là Guided Navigation. Ở đây, một từ khoá tìm kiếm sẽ tạo ra một thư mục tìm kiếm, cho phép người dùng sàng lọc để tinh chỉnh kết quả dần.
     

     

    CÁC HÊ THỐNG TÌM KIẾM CÔNG SỞ

     
     

    Khi chọn lựa hệ thống tìm kiếm nên lưu ý đến việc kết hợp với giải pháp thu thập dữ liệu từ nhiều nguồn một cách an toàn và hiệu quả; khả năng nhận biết nhiều ngôn ngữ và sử dụng ngôn ngữ tự nhiên; định dạng đưa đến phân loại hợp lý và nâng cấp đáp ứng nhu cầu lưu trữ gia tăng. Sản phẩm của các hãng sau đáp ứng một số hoặc tất cả yêu cầu trên.
    Autonomy autonomy.com
    Atomz atomz.com
    Convera convera.com
    EasyAsk easyask.com
    Endeca endeca.com
    Entopia entopia.com
    Fast Search and Transfer (FAST) fastsearch.com

     

    Google google.com
    Hummingbird hummingbird.com
    Intelliseek intelliseek.com
    InQuira inquira.com
    iPhrase iphrase.com
    ISYS isysusa.com
    Kanisa kanisa.com
    Mercado Software mercado.com
    Mondosoft mondosoft.com
    Open Text opentext.com
    Recommind recommind.com
    Thunderstone thunderstone.com
    Verity verity.com
    ZyLAB www.zylab.com

     


    Tất cả đều động

    Nhiều năm nay, người ta phải đánh vật với việc tìm kiếm dữ liệu không cấu trúc - thông tin nằm bên ngoài ứng dụng và các CSDL - nhằm đạt được mức độ chính xác như với dữ liệu có cấu trúc. Quá trình lập chỉ mục tìm kiếm cho thông tin không cấu trúc đang phát triển với một loạt thuật toán tìm kiếm và công nghệ cao cấp khác nhau mang lại hứa hẹn cho TKCS. Chúng cho phép việc phân loại động hoặc phân tích văn bản có chủ đích để sử dụng trong quá trình phân tích tài liệu và quá trình xử lý câu truy vấn.

    Một bổ sung khá mới là việc trích xuất thông tin, theo đó một cỗ máy tìm kiếm trích xuất động các cụm từ dựa trên nội dung được lập chỉ mục thông qua phân tích ngữ pháp. Quá trình này bao gồm việc nhận diện các danh từ riêng và tạo danh sách người, nơi chốn và đồ vật từ tài liệu và sau đó chèn một cấp siêu dữ liệu mới vào tài liệu này.

    Một bổ sung khác là sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên cho phép chuyển các câu truy vấn 'dở' thành câu truy vấn 'tốt'. Sự tiến bộ trong các hệ thống tìm kiếm bao hàm nhiều lĩnh vực gồm thuật toán, quy tắc, cải tiến dữ liệu, hồ sơ ngữ cảnh và người dùng - tất cả kết hợp với nhau, tập trung vào cái người dùng cần để có câu trả lời xác đáng nhất.

    Về phần siêu dữ liệu, cách thức thủ công cũ định nghĩa các thuộc tính của một tài liệu đang mất dần vì hệ thống tìm kiếm thông minh mới có khả năng gán tự động dựa trên 'luận lý riêng' của người dùng.

    TKCS có thể phát hiện các khuôn mẫu trong nội dung và làm tăng giá trị của nội dung đó trong hệ thống tìm kiếm bằng cách tạo tự động các thành phần siêu dữ liệu. Nhờ sự phổ biến của XML trong môi trường tìm kiếm, siêu dữ liệu có thể được dùng cho nhiều tác vụ xử lý, cải thiện truy vấn và trình bày. 

    Những cải tiến về phân loại cho phép người dùng duyệt thông tin theo vùng chủ đề thay vì phải 'bơ vơ' chỉ biết dựa vào từ khoá (keyword) để tìm trong mênh mông 'biển' thông tin; và cho họ khả năng xây dựng truy vấn hiệu quả. Khả năng phân loại động có thể điều chỉnh thể hiện của vùng chủ đề dựa trên ngữ cảnh truy vấn. Các công nghệ mới này 'cho phép người dùng đi xuyên thế giới dữ liệu có và không cấu trúc'.

    Một khác biệt quan trọng giữa hệ thống tìm kiếm thông thường và TKCS là bảo mật. 'Chắc hẳn bạn không muốn hiển thị kết quả có các tài liệu mà người dùng khác không được phép xem'. Tuy nhiên, việc bảo mật ở lớp hệ thống không quá phức tạp, hệ thống tìm kiếm có thể dùng mức bảo mật ở cấp tài liệu hay cấp CSDL để lập chỉ mục tài liệu theo quyền truy cập.

     

    LỜI KHUYÊN ĐƠN GIẢN CHO GIẢI PHÁP TÌM KIẾM PHỨC TẠP

     
     

    Khi làm việc đúng như thiết kế, các ứng dụng tìm kiếm tỏ ra tuyệt vời, cung cấp thông tin cập nhật giúp tránh các quyết định sai. Tuy nhiên, để hệ thống tìm kiếm của bạn đạt được mức độ này cần có sự suy tính trước và thực thi chính xác. Các chuyên gia đưa ra một số lời khuyên để làm cho hệ thống tìm kiếm đạt đúng vai trò của nó.
    Tối đa tính năng. Cơ chế tìm chỉ dựa vào các website ngày càng bị 'thất sủng'. Nhân viên cũng cần phải truy cập thông tin giá trị trong một loạt CSDL, ứng dụng, thư viện tài liệu, các folder công khai trên máy chủ email, máy chủ file và các nhóm diễn đàn.
    Làm nổi bật vùng tìm kiếm. Làm cho dễ tìm từ bất kỳ đâu trong mạng nội bộ và website công khai của công ty. Đặt ô tìm kiếm - hay ít nhất là liên kết tìm kiếm - ở vị trí nổi bật của mỗi trang.
    Đơn giản. Giữ trang tìm kiếm của bạn gọn gàng và hấp dẫn. Và đảm bảo có những hướng dẫn trực quan, như các ô có nhiều hàng để người dùng biết có thể nhập nhiều từ khoá. Tương tự, các trang kết quả nên hạn chế hình ảnh không liên quan...
    Thông suốt và tự động. Thông tin ít có giá trị nếu chỉ giữ riêng ở máy tính nhân viên. Vì vậy, hãy làm cho quá trình đưa tài liệu lên cổng thông tin trực

     

     tuyến (portal) cũng dễ dàng như lưu ở máy tính để bàn. Tinh gọn các bước thực hiện càng nhiều càng tốt.
    Bảo vệ. Đừng quá lo ngại về việc truy cập trái phép nội dung web bảo mật, CSDL giới hạn và dịch vụ trả phí. Tuy nhiên công ty cung cấp nội dung phải cung cấp khả năng xác thực thích hợp để giới hạn nội dung được bảo vệ chỉ dành riêng cho người dùng được phép.
    Sử dụng SSO (Single Sign-On). Kiến trúc SSO cho phép người dùng kiểm tra nội dung tất cả nguồn thông tin trực tuyến với một câu truy vấn duy nhất. Việc này có thể giúp tiết kiệm thời gian đáng kể.
    Ưu tiên tốc độ. Kết quả trả về cần phải nhanh. Điều này làm hài lòng người dùng và khuyến khích họ thường xuyên trở lại website của bạn.
    Khuyến khích phản hồi. Cuối cùng, đừng cho rằng hệ thống tìm kiếm của bạn hoạt động với khả năng tốt nhất dựa trên việc giới hạn chủ đề tìm kiếm, cũng như xác thực người dùng mà hãy cố gắng xử lý phản hồi từ người dùng. Tìm hiểu xem họ thích gì ở hệ thống tìm kiếm của bạn và khả năng cải tiến thêm; thực hiện theo các gợi ý nếu hợp lý.

     

    Đơn giản bao che phức tạp 

    Người dùng thường không cần biết những công việc 'hậu trường' xử lý truy vấn để cho ra kết quả. Hãng cung cấp hệ thống tìm kiếm phải cung cấp một giao tiếp người dùng duy nhất, che đi thực tế có nhiều hệ thống tìm kiếm khác nhau, nhiều hệ thống chỉ mục khác nhau, và những tính năng khác nhau ở 'hậu trường'.

    Nhưng TKCS đòi hỏi người dùng phải làm quen với các phương pháp tìm kiếm thông minh hơn. Cơ chế tìm kiếm thiếu định hướng, phân loại và tìm kiếm không chính xác đang dần bị đào thải, khi các hệ thống TKCS đưa ra những giao tiếp mới.

     

    TÌM KIẾM ĐA PHƯƠNG TIÊN

     
     

    Cung và cầu nội dung đa phương tiện (multimedia) trên mạng là hệ quả trực tiếp của sự bùng nổ kết nối Internet băng rộng. Ngày càng có nhiều người dùng quan tâm và tìm kiếm nội dung multimedia, tuy nhiên các dịch vụ tìm kiếm (DVTK) thông thường trên web không hiệu quả trong công việc này.
    Sự không hài lòng đối với các DVTK thông thường trên web có lẽ là nguyên nhân chính lý giải cho mức gia tăng truy cập mạnh mẽ của site tìm kiếm multimedia Singingfish (www.singingfish.com) của AOL từ vài ngàn truy vấn mỗi ngày trong năm 2003 lên hơn 700.000 truy vấn mỗi ngày hiện nay.
    Một vấn đề khác mà Singingfish đang tập trung xử lý là tích hợp kết quả tìm kiếm multimedia với kết quả tìm kiếm thông thường theo cách thức cảm ngữ cảnh nhằm giúp người dùng không phải tiến hành các tìm kiếm riêng biệt rồi đối chiếu kết quả theo cách thủ công.
    Việc lập chỉ mục nội dung multimedia (để phục vụ cho việc tìm kiếm) không đơn giản. Chẳng hạn, thường các file video không có hoặc có ít siêu dữ liệu - metadata, và chuẩn metadata cho nội dung video cũng chưa hoàn thiện. Metadata là thông tin về file, như ngày tạo, kích thước, chủ sở hữu và mô tả nội dung. Thẻ thư viện trong thế giới thực là một dạng metadata.
    Ngay cả khi file video có metadata đầy đủ, nó cũng ít có giá trị nếu người dùng muốn tìm một câu trích dẫn trong một bảng tin nhưng lại phải xem toàn bộ video clip để tìm ra đoạn trích.
    Mặt khác, do các file video thường rất lớn, cần nhiều không gian lưu trữ và năng lực xử lý, nên chúng thường bị xoá khỏi máy chủ web, vì vậy có thể chỉ mục được lập trước đó 1 tuần không còn giá trị.
    Vấn đề quyền sở hữu cũng là một nguyên nhân làm khan hiếm nội dung video mà người dùng cần, chẳng hạn như các chương trình truyền hình hay phim, vì những nguyên nhân hiển nhiên: chủ sở hữu mong muốn thu được lợi nhuận từ việc phân phối nội dung trực tuyến.

     

    Blinkx, một DVTK mới được xem là 'kẻ nổi loạn' vì hăm he xâm lấn thị phần của các đối thủ lớn hơn, đã cho ra mắt Blinkx TV vào cuối năm 2004. DVTK này tập trung vào nội dung chương trình truyền hình và xử lý vấn đề metadata: Blinkx biên soạn lại tất cả video clip mà nó lập chỉ mục, giúp tìm kiếm chính xác nội dung.
    Với cách này, Blinkx TV đã vượt lên trước DVTK video của Yahoo (http://video.search.yahoo.com) cũng được khai trương vào cuối năm 2004. Hiện Yahoo đang dùng metadata và thông tin ngữ cảnh để lập chỉ mục. Tuy nhiên, Yahoo có kế hoạch chuyển sang hệ thống 'chỉ mục sâu' trong tương lai, sử dụng những kỹ thuật mới như nhận dạng tiếng nói cho phép lập chỉ mục lời thoại trong nội dung video.
    Bradley Horowitz, giám đốc bộ phận DVTK multimedia của Yahoo, là người sáng lập công ty Virage chuyên về công nghệ nhận dạng tiếng nói. Điều thú vị là Virage đã được Autonomy Corp mua lại rồi sau đó chuyển bản quyền công nghệ cho Blinkx. Horowitz rời Autonomy và đầu quân cho Yahoo cách đây khoảng 9 tháng.
    Mặc dù hướng đến mục tiêu 'chỉ mục sâu' nhưng Yahoo không từ bỏ metadata. Cùng với DVTK video thử nghiệm, hãng còn đưa ra sáng kiến mang tên Media RSS, đây là định dạng cung cấp tin dựa trên RSS (Really Simple Syndication) cho phép đưa nhiều metadata vào nội dung multimedia và giúp việc lập chỉ mục dễ dàng hơn.
    Yahoo còn sở hữu DVTK Altavista (www.altavista.com) và AllTheWeb (www.alltheweb.com), cả hai đều cho phép người dùng tìm kiếm nội dung multimedia. Site tìm kiếm video thử nghiệm của Yahoo (video.search.yahoo.com) tích hợp công nghệ từ Altavista và AllTheWeb, cũng như từ DVTK chính của Yahoo, cùng với các công nghệ mới được phát triển.
    IDG News Service, 17/12/2004

     

    Nguyễn Lê
    Nguồn: InfoWorld

    ID: A0502_84