• Thứ Hai, 14/07/2014 11:08 (GMT+7)

    Tại sao chúng ta cần một "Google ngầm”

    Bùi Lê Duy
    Đến nay, chưa bao giờ có một công cụ tìm kiếm nào phản ánh chính xác Internet. Không phải vì chúng không làm được, mà vì chúng bị "bóp méo" có chủ đích.

    Vào những thập niên 1990 và 2000, chúng ta bị hạn chế về kỹ thuật. Những thuật ngữ như “deep web” hay “dark Internet” mang nghĩa là một Internet nào đó bí ẩn, nguy hiểm nhưng đơn giản nghĩa là có những trang web chúng ta không thể truy cập qua những công cụ thông thường được, và chúng luôn tồn tại. Chỉ thế thôi!

    Các chính phủ đang ép những công cụ tìm kiếm hiển thị kết quả sai lệnh. Đã đến thời điểm mà những công cụ tìm kiếm đứng lên đòi có tiếng nói riêng.
    Nhiều phần trên Internet rất khó để tạo chỉ mục, hoặc bị chặn tạo chỉ mục do chính chủ nhân các trang web đó thiết lập. Còn những công ty như Google thì cố gắng bới tất cả những gì nằm “sâu, ngầm” bên dưới mạng internet lên trên, xét về phương diện kỹ thuật.

    Nhưng trong vài năm qua, có một xu hướng khá rắc rối là chính phủ các nước, bất kể là thông qua luật hay kỹ thuật, hay quyền quản lý các công ty có thể truy cập dữ liệu ngầm đó, buộc những engine tìm kiếm phổ biến đưa ra kết quả không chính xác, sai lệch.

    Theo dõi

    Mãi cho đến gần đây, những động thái theo dõi engine tìm kiếm không còn nằm trên danh sách nóng của vấn đề thế giới nữa. Nhưng trong vài năm qua, các chính phủ ở Mỹ và châu Âu và bất kỳ nơi nào khác trên thế giới công nghiệp hoá đều phát hiện ra rằng mặc dù luật tự do ngôn luận khiến họ không thể cấm cản hay chặn nội dung Internet thì các kết quả mà công cụ tìm kiếm hiển thị giống như một loại “khe hở” mà các chính phủ có thể can thiệp vào. Trong một thế giới ngày càng có nhiều nội dung số trải rộng trên mạng thì việc giám sát các kết quả tìm kiếm là cách theo dõi mà không cần quan tâm nhiều đến vấn đề vi phạm quyền tự do ngôn luận, ít ra về mặt kỹ thuật.

    Bắt đầu từ năm 2011, các công ty như Google ghi nhận lại có những yêu cầu vô lý của chính phủ để buộc hiển thị kết quả tìm kiếm không chính xác, nghĩa là nói cho người dùng biết rằng những trang web và nội dung nào đó trên Internet là không tồn tại, mà thực chất là có. Những yêu cầu loại bỏ hay làm sai lệch thông tin như vậy từ chính phủ Mỹ tăng đến 718 % trong giai đoạn từ nửa đầu năm 2011 đến nửa cuối năm 2011. Và kể từ đó, con số này tiếp tục tăng cao hơn.

    Những đòi hỏi như vậy không chỉ đến từ Mỹ mà còn từ các chính phủ châu Âu, cho dù họ tuyên bố không dính líu gì đến vấn đề theo dõi truy cập Internet của người dùng.

    Lý do cho các yêu cầu làm sai lệch thông tin như vậy rất khác nhau, và nghe có vẻ hợp lý như an ninh quốc gia, luật và trật tự xã hội, tự hào quốc gia, nhạy cảm tôn giáo, quyền riêng tư, bảo vệ quyền trẻ em… Nhưng khi bạn thoả hiệp với những lý do này và chúng lớn dần theo thời gian thì hiệu ứng tích tụ lại sẽ rất lớn, kết quả tìm kiếm không còn phản ánh được bộ mặt thực của Internet.

    Nhiều trường hợp khởi nguồn từ những ý định tốt, nhắm vào những vấn đề quan trọng. Chúng ta cùng xét cụ thể một trường hợp tại Canada.

    Một toà án tối cao British Colombia đang xét xử một vụ vi phạm sở hữu trí tuệ giữa 2 công ty sản xuất trang thiết bị công nghiệp nhỏ, ra lệnh cho Google không chỉ xoá mọi kết quả tìm kiếm liên quan đến 2 công ty này, nhưng còn mọi kết quả khác trong tương lai, không chỉ ở khu vực Canada mà trên toàn cầu. Nhưng toà án mới chỉ yêu cầu Google, chưa có yêu cầu các dịch vụ tìm kiếm khác như Bing.

    Chi tiết cần giữ bí mật của vụ này lại không liên quan với thông tin tìm kiếm Internet và dữ liệu cũng không mấy quan trọng. Có một tiền lệ là một chính phủ ở một quốc gia nào đó có thể giám sát thông tin của quốc gia khác là điều chẳng hay ho gì. Bạn nghĩ xem nếu Trung Quốc được phép giám sát thông tin về Dalai Lama ở Mỹ hoặc nếu Pakistan cho phép giám sát hình ảnh bạo lực của người Hồi Giáo ở Đan Mạch thì mọi thứ sẽ trở nên như thế nào. Thậm chí mới đây, toà án châu Âu đưa ra một lối xử lý “quyền được lãng quên”, mà cốt lõi là châu Âu muốn bảo vệ công dân khỏi những sự kiện mà lúc nào cũng xuất hiện trên Internet.

    Một trường hợp điển hình khác có liên quan đến một người Tây Ban Nha, bị đăng tải lên báo chí về các khoản nợ của ông, nhưng sau đó, người này thoát được cảnh nợ nần. Thay vì Internet đưa thông tin chính xác là người đó hiện tại không còn nợ nần gì nữa thì toà án lại yêu cầu các công cụ tìm kiếm Google, Bing và một số công cụ khác loại bỏ tên ông ta ra khỏi dữ liệu tìm kiếm khi các engine tìm kiếm này chỉ trả về các thông tin cũ về vấn đề tài chính của ông.

    Tệ hơn nữa, yêu cầu các công cụ tìm kiếm như vậy tạo tiền lệ để bất kỳ quốc gia châu Âu nào ép buộc Google, Microsoft và các hãng làm dịch vụ tìm kiếm khác phải đánh giá liệu yêu cầu đó có hợp lý hay không, hợp pháp hay không.

    Gần đây nhất, Google vừa nhận được khoảng 70.000 yêu cầu thay đổi kết quả tìm kiếm trong tháng vừa qua. Còn với Microsoft, trong tuần này họ chỉ công bố quy trình xử lý kết quả bị theo dõi.

    Rõ ràng là có một sự xung đột giữa “quyền được quên” và “quyền được nhớ” (tự do ngôn luận). Và rồi vấn đề giám sát Internet qua đó lại nổi lên theo lối gắt gao hơn. Tuy đây là vấn đề về tính công bằng nhưng các công cụ tìm kiếm có lẽ cũng phải chịu áp lực từ chính các tổ chức truyền thông có trọng lượng (đã từng xảy ra trước đây) để không theo dõi kết quả tìm kiếm, trong khi các công ty truyền thông ít tên tuổi hơn lại không tác động được.

    Do vậy, hiệu ứng tích tụ này khiến kết quả tìm kiếm ở châu Âu sẽ nhanh chóng mất đi tính chính xác vốn có. Người dùng Google sẽ phải cho rằng bất kỳ kết quả tìm kiếm nào trả về có thể đang bị theo dõi. Chúng ta không thể biết được. Google hiện thời cảnh báo rằng hiệu ứng này có thể có nếu người dùng tìm theo một tên tuổi nào đó, bất kể là từ tìm kiếm ấy có bị loại ra khỏi hàng đợi hay không.

    Không cần nhiều ví dụ, phân tích thì chúng ta cũng dễ đồng ý rằng các chính phủ “độc quyền” luôn bước trước người dùng trong việc giám sát kết quả tìm kiếm. Như với Trung Quốc, chính phủ toàn quyền tạo ra một bảng kết quả tìm kiếm theo ý riêng khi người dùng tìm kiếm bất kỳ từ nhạy cảm nào, trong bất cứ công cụ tìm kiếm nào. Và điều này rõ ràng là phản ánh méo mó bộ mặt thật của Internet. Các chế độ “quân chủ” như vậy như Thổ Nhĩ Kỳ, Iran và Trung Quốc luôn có những phương pháp phức tạp để theo dõi kết quả tìm kiếm. Kết quả cuối cùng là cứ mỗi năm trôi qua, kết quả tìm kiếm càng trở nên không chính xác và không tin tưởng được. Các engine tìm kiếm do vậy không còn thực hiện đúng chức năng chính của chúng nữa, là giúp bạn tìm thông tin mình mong muốn trên Internet.

    Rõ ràng là chúng ta đang cần có những công cụ tìm kiếm mà kết quả không bị các chính phủ “lái đi” theo một hướng khác. Vậy giải pháp là gì?

    Đề xuất

    Lý do mà các chính phủ có thể ép buộc các công cụ tìm kiếm hiển thị kết quả không chính xác là bởi vì các công cụ tìm kiếm bị buộc vào một cái lưới khó gỡ.

    Để nắm bắt và tạo chỉ mục đầy đủ cho Internet, các engine tìm kiếm cần rất nhiều tiền để tạo các máy chủ khổng lồ và thuê những chuyên viên được đào tạo chuyên sâu. Để kiếm được tiền, họ cần cộng tác với các chính phủ và tuân thủ luật lệ quốc gia về bất cứ vấn đề gì liên quan đến việc kinh doanh của họ để có thể bán được quảng cáo. Tuy vậy, việc hợp tác này chỉ khả thi khi họ bị buộc phải làm méo mó đi kết quả tìm kiếm, họ không tạo được chỉ mục đầy đủ cho Internet.

    Và đó là lý do tại sao không có engine tìm kiếm nào là chính xác. Các trang web tìm kiếm phải chạy bằng “tiền” thì không thể chính xác. Engine tìm kiếm chính xác thì không tạo ra tiền.

    Ví dụ, có một giải pháp cho một engine tìm kiếm dạng phân tán, là tạo những máy chủ tìm kiếm ở nhiều nơi, và có thể tắt nơi này, bật nơi kia và có thể chuyển đổi vị trí địa lý trực tiếp. Giải pháp này từng được thử nghiệm, như các dự án của InfraSearch, Opencola, YaCy và FAROO. Nhưng vấn đề là Internet quá lớn, quá rộng và thay đổi quá nhanh.

    Nên thay vì nhân bản các điểm đặt máy chủ cho các công cụ tìm kiếm thì chúng ta cần một engine tìm kiếm phân tán mà chỉ tập trung vào những nội dung bị theo dõi mà thôi, là những nội dung mà các enigne tìm kiếm lớn như Google và Bing không cho được kết quả chính xác. Và có lẽ Google, Microsoft và các công ty khác nên ủng hộ giải pháp này bằng cách cung cấp dữ liệu miễn phí về thông tin bị theo dõi. Engine tìm kiếm phân tán sẽ hiển thị kết quả do người dùng chọn (là từ Google, từ Bing…), cùng với đó là kết quả nào đang bị theo dõi, bị ai theo dõi, ở đâu… Cùng với đó có thể tạo ra 2 bảng kết quả rõ ràng cho người dùng.

    Trong vòng 2 năm nữa, cứ cho là vấn đề lọc kết quả tìm kiếm của chính phủ vẫn gia tăng thì các engine tìm kiếm rõ ràng là sẽ mất đi tính chính xác và sẽ không ai tin hoàn toàn vào chúng nữa.

    Đã đến lúc chúng ta nghĩ đến một công cụ tìm kiếm phân tán.
     

    Nguồn: Theo Computerworld