• Thứ Hai, 28/09/2009 10:01 (GMT+7)

    Công cụ tìm kiếm - Đôi điều suy nghĩ

    Con đường bứt phá, có tính đột biến là phải tập trung nghiên cứu khoa học vào những hướng liên quan đến “tìm kiếm” và có biện pháp đưa nhanh kết quả nghiên cứu vào thực tiễn,...

    Vài nét về bức tranh tìm kiếm

    Công cụ tìm kiếm trên Internet đã quá quen thuộc với nhiều người truy cập như Google, Yahoo, Microsoft… Dẫn đầu cuộc chạy đua về lượng tìm kiếm giữa các hãng vẫn là Google. Google đã được nhiều người hiểu như một động từ là “tìm kiếm”. Để có được một công cụ tìm kiếm thuyết phục, thu hút được nhiều người dùng, phải giải quyết hàng loạt vấn đề liên quan đến phương pháp, thuật toán, công nghệ, phương tiện máy móc và dĩ nhiên là cần có những con người tài giỏi và phải có tiền. Gần đây, Microsoft cho ra mắt công cụ tìm kiếm, ra quyết định với tên gọi Bing. Trong thời gian ngắn, Bing đã chiếm vị trí thứ 2 về số người sử dụng, vượt qua cả Yahoo.

    Theo StatCounter, từ 4/6/2009 Bing đã chiếm 16,28% lượng truy cập, trong khi Yahoo chỉ có khoảng 10,22%. Theo Microsoft, Bing giúp giải quyết sự bất hợp lý của mảng tìm kiếm khi có đến 30% số lệnh tìm kiếm trên thế giới với kết quả không như người dùng mong muốn! Microsoft trang bị cho Bing một số tính năng mới như Best Match để tìm câu trả lời tốt nhất, Deep Links để cung cấp cho người dùng thông tin tóm tắt về nội dung, Quick Preview cửa sổ để người dùng mở rộng các lệnh tìm kiếm và cung cấp những thông tin khác, Instant Answers để hiển thị thông tin tìm kiếm với bất kỳ dạng nào: text, hình ảnh và video… Gần đây, Microsoft thỏa thuận được với Yahoo cùng khai thác Bing trong 10 năm với những điều khoản hưởng lợi cụ thể của 2 bên và nhằm cạnh tranh với Google. Tuy nhiên, Google cho đến nay vẫn chiếm 71,47% phần Mỹ, còn trên thị phần toàn cầu thì 87,62%, trong khi đó Bing chỉ 5,62% và Yahoo chiếm 5,13%.

    Công cụ tìm kiếm Google thống trị trên mạng di động toàn cầu, dù Yandex và Baidu chiếm lĩnh hai thị trường Nga và Trung Quốc (theo hãng trình duyệt Opera). Nhu cầu tìm kiếm thông tin trên các thiết bị di động càng thúc đẩy phát triển các công cụ tìm kiếm mạnh mẽ. Ngay trong khu vực ASEAN, Philippines có tỷ lệ phổ cập di động lên tới 90% dân số, lướt Net bằng điện thoại di động trở thành thói quen của nhiều người. Tại Ấn Độ, Nigeria tìm kiếm di động chiếm tới 16,3% và 26,6% lưu lượng tìm kiếm.

    Một mảng tìm kiếm khác cũng rất sôi động là tìm kiếm chuyên dụng. Đó là tìm kiếm trên các mạng xã hội và các micro-blogging. Bing, Google, CrowdEye (Microsoft), Topsy, Oneriot, Tweetfind, Twingly… đều có chức năng này. Nhu cầu phát triển các công cụ tìm kiếm cho mảng chuyên còn rất lớn!

    Xét theo một khía cạnh khác là chiều sâu của kết quả tìm kiếm đã có các công cụ tìm kiếm kiểu chuyên gia, chẳng hạn Wolfram Alpha. Về tìm kiếm mảng chuyên đã có nhiều hãng cho ra đời các hệ như: Pandia, BoarReader, CampInfo, CompletePlanet, Itools… Xử lý yêu cầu tìm kiếm "thông minh" đã có một số hệ như Powerset. Hiện tại, Powerset chỉ mới tìm kiếm và đánh chỉ mục hơn một triệu trang từ Wikipedia và Freebase với công nghệ Metaweb.


    Các công cụ tìm kiếm của nước ta


    Ở nước ta, trong nhiều năm qua cũng đã xuất hiện nhiều công cụ tìm kiếm được làm từ trong nước. Hãng IDG đã quyết định đầu tư vào công cụ tìm kiếm Việt với 2 hướng chủ yếu: tìm kiếm tài nguyên Internet và tìm kiếm quảng cáo trực tuyến. Nhu cầu của cả 2 hướng đều tăng do số lượng người dùng Internet và các kênh truyền thông trên Internet tăng mạnh ở nước ta.

    Tìm kiếm là một nhu cầu lớn của người truy cập Internet. Hơn nữa, sự thành công rực rỡ của các hãng như Google, Baidu… đã thu hút nhiều người muốn thử sức nghiên cứu. Tuy vậy, những công cụ tìm kiếm như 7sac.com, Socbay.vn, Baamboo.com, Xalo.vn, Zing.vn... trong nước phát triển chưa thật sự thuyết phục, chưa thu hút được nhiều người dùng. Nhờ công nghệ của Fast Search cho phép mở rộng đến 3,5 tỉ trang tìm kiếm, một nền tảng công nghệ ổn định. Kinh nghiệm phát triển dịch vụ tìm kiếm từ nhiều năm của Tinh Vân (Vinaseek), Xalo.vn đã thể hiện được một vài thế mạnh. Về lý thuyết, “tìm kiếm” đã được các trường ĐH và các viện nghiên cứu ở nước ta quan tâm và đã thu được một số kết quả nghiên cứu.

    Nền công nghiệp nội dung số đang phát triển mạnh mẽ. Nền công nghiệp này được xây dựng trên nền tảng nhiều dạng dữ liệu khác nhau: văn bản, âm thanh, ảnh và video... Một cách khái quát, đó là dữ liệu multimedia. Những bài toán đặt ra cho việc xử lý thông tin multimedia là thu thập, lưu trữ, tìm kiếm và truyền thông tin. Theo sự phát triển một cách tự nhiên đối với CNTT, những loại dữ liệu văn bản được nghiên cứu sớm và đã có kết quả đáp ứng nhu cầu thực tiễn và phát triển mạnh mẽ.

    Mỗi dạng dữ liệu có những đặc trưng riêng và cũng đều có những đặc trưng giống nhau theo cách nhìn hướng đến lưu trữ, xử lý, tìm kiếm. Với văn bản, do bản thân nó được xây dựng trên một quy tắc xác định nên có khả năng đáp ứng được nhu cầu xử lý với độ chính xác cao, còn đối với các dạng khác, để kết quả xử lý có độ chính xác cao thì khó khăn hơn nhiều. Thật ra ảnh là bản sao chụp thế giới thực hàm chứa một nội dung nào đó. Để đọc được nội dung đó, cần một ngôn ngữ. Đó là ngôn ngữ ảnh. Với bức ảnh một khu rừng, người thường có thể nhận biết được nhưng đưa bức ảnh đó để máy tính có thể nhận biết được thì phải bỏ nhiều công sức. Trong chiến lược tìm kiếm có thể kết hợp đặc trưng thị giác và ngữ nghĩa, TP.HCM đã xây dựng được hệ truy vấn thông tin thị giác gồm 2 phân hệ chính: hệ truy vấn ảnh số và hệ truy vấn video số (VIROS - Visual Information Retrieval of Saigon).

       
    Google áp đảo
    Kết quả khảo sát nhanh về "Thói quen sử dụng công cụ tìm kiếm" trên website www.pcworld.com.vn từ 6/8 -20/8/2009 cho thấy Google có lượng người dùng áp đảo với 1518/ 1672 lượt bình chọn (trên 90%), các công cụ còn lại là có Bing: 5%, Yahoo!: 2%. Các công cụ tìm kiếm Việt Nam (Socbay, Zing, Baamboo...) có tỉ lệ bình chọn rất thấp: 1% hoặc chỉ gần đạt 1%.

    Những hệ tìm kiếm có lượng người dùng lớn đều được vận dụng những cơ sở khoa học là những kết quả nghiên cứu về nhận dạng, xử lý ảnh. Google đã tạo ra công cụ có khả năng tìm kiếm một hình ảnh có nội dung và kích thước phù hợp (http://images.google.com) tìm kiếm tất cả hình ảnh trên một trang web; tìm kiếm hình ảnh theo một kích thước và định dạng cụ thể, với từ khoá là imagesize, filetype; tìm những hình ảnh có cùng nội dung… Công cụ tìm kiếm ảnh nâng cao của Google có thể đáp ứng cao nhu cầu của người dùng. Chẳng hạn, tìm những ảnh với những nội dung mặc định thì tại mục Content types, nếu chọn faces thì kết quả sẽ là chân dung liên quan đến từ khoá đã chọn; tại mục Safe search (tìm kiếm an toàn) thì trong kết quả sẽ loại bỏ những hình ảnh mang nội dung không mong muốn.

    Từ đây cũng gợi cho ta những điều có thể suy nghĩ về xây dựng những công cụ tìm kiếm như: Tìm kiếm những mảng chuyên; Những hệ tìm kiếm thông minh mảng chuyên… Con đường bứt phá, có tính đột biến là phải tập trung nghiên cứu khoa học vào những hướng liên quan đến “tìm kiếm” và có biện pháp đưa nhanh kết quả nghiên cứu vào thực tiễn, một việc làm có tính hiển nhiên mà nói mãi vẫn không làm được!

    Nguyễn Lãm

    Từ khóa: search engine
    ID: B0909_50