• Thứ Sáu, 12/09/2014 10:45 (GMT+7)

    Thói quen lướt web và cuộc đua theo dấu người dùng trực tuyến

    Mỹ Anh
    Các doanh nghiệp quảng cáo trực tuyến vẫn âm thầm theo dõi thói quen lướt web của người dùng ngay cả khi không được phép.

    Tháng 7 năm 1993, tác giả Peter Steiner của tờ New Yorker đã vẽ một bức tranh biếm họa về một chú chó giống Labrador ngồi trước máy tính, chân gác lên bàn phím và quay sang nói một cách rất rao giảng cho bạn của mình bên cạnh: “trên mạng Internet, không ai biết cậu là chó đâu”. Hai thập kỷ đã trôi qua kể từ ngày đó và giờ đây họ không những biết rõ đấy là chó và còn biết màu lông của nó, chu kỳ khám sức khỏe cũng như các phương thức chăm sóc ưa thích của nó nữa.

    Vậy làm sao để biết tất cả những thông tin đó? Nói một cách khái quát là các nhà quảng cáo trực tuyến đã móc ngoặc với chủ các trang web để thu thập dữ liệu lướt web của người dùng, thậm chí cả hồ sơ cá nhân chi tiết với sở thích và hành vi của họ. Các hồ sơ dữ liệu này có thể được phân tích xác đáng và cho phép các doanh nghiệp quảng cáo trực tuyến nhắm tới những cộng đồng mục tiêu cụ thể. Có thể bạn không để tâm song thói quen lướt web của chúng ta có chứa rất nhiều thông tin mà các doanh nghiệp quan tâm. Chân dung một người dùng tiềm năng có thể được dựng nên qua những thông tin về nhân thân được tiết lộ trên mạng xã hội, lịch sử mua hàng hay các địa điểm đã ghé qua bị lưu vết trên mạng bởi chính điện thoại người dùng. Có thể nói không cần đến cơ quan chuyên trách của chính phủ, các công ty quan tâm đến dữ liệu lướt web của người dùng cũng rút ra được nhiều điều về người dùng qua  những thông tin này.

    Sau đây chúng ta sẽ xem xét lại quá trình của việc theo dõi lịch sử lướt web và giới thiệu những thông tin cơ bản về hiện tượng mới nổi gần đây trong lĩnh vực này được biết đến với tên gọi lưu vân tay (fingerprinting) cho phép các doanh nghiệp vẫn do thám được thông tin người dùng ngay cả khi người dùng đã thiết lập lại trình duyệt để tăng cường sự riêng tư.

    Một trong các công cụ thu thập dữ liệu lướt web sớm nhất là cookie, một tính năng được phát triển cho trình duyệt Netscape Navigator nổi tiếng chỉ một năm sau thời điểm Steiner công bố bức biếm họa kể trên. Cookie là một dạng bản ghi được tạo ra và lưu lại trên trình duyệt khi người dùng truy cập một website, hay nói cách khác cookie là một bộ nhắc nhỏ mà website lưu trữ ở trên máy tính của bạn có thể định danh cho bạn. Khi bạn truy cập vào một trang web, website này sẽ đặt một cookie trên máy đó, thay cho việc liên tục hỏi bạn các thông tin như nhau, chương trình trên website có thể sao lưu thông tin vào một cookie mà khi cần thông tin nó sẽ đọc cookie chứ không cần yêu cầu người dùng nhập lại thông tin của mình trên mỗi màn hình web. Thông tin duy nhất mà cookie lưu trữ là thông tin mà bản thân bạn chia sẻ với website tạo ra cookie. Một website không thể đọc cookie của một công ty khác trừ khi được cung cấp khóa giải.

    Cookie được coi là công cụ do thám Internet xuất hiện sớm nhất và rất hiệu quả.

    Do vậy có thể thấy cookie rất tiện lợi, nó đỡ được rất nhiều công sức cho người dùng trong quá trình tương tác với trang web. Vấn đề chỉ xảy ra khi các doanh nghiệp phát hiện ra lợi ích và bắt đầu lợi dụng cookie để theo dõi các hành vi lướt web của người dùng. Ví dụ như khi người dùng vào một trang web du lịch nào đó có hiển thị banner quảng cáo. Thường thì banner này không phải của chính trang web du lịch đó mà thuộc về một công ty quảng cáo trung gian nào đó.  Và trong quá trình người dùng tìm hiểu thông tin trên trang web du lịch, trình duyệt của họ cũng cung cấp thông tin cho chủ của banner quảng cáo kia một cách âm thầm thông qua việc cài đặt cookie lên trình duyệt của người dùng. Sau đó, khi người dùng này ghé vào trang web được quảng cáo trên banner, trang web sẽ nhận ra và tiếp tục xây dựng hồ sơ về người dùng này, đặc biệt là thói quen lướt web.

    Độc giả có thể nêu nghi vấn về tác hại của cookie khi mà các quảng cáo trực tuyến đập vào mắt người dùng sẽ liên quan gần hơn với nhu cầu của họ. Điều này đúng một phần khi người dùng quả thật cũng được xem các quảng cáo phù hợp với nhu cầu. Song thực ra các thuật toán của các đơn vị quảng cáo trực tuyến cũng chưa tinh vi đến mức ấy. Tệ hơn thế, họ còn sử dụng dữ liệu về thói quen lướt web để trục lợi.

    Không lâu sau khi các cookie được các bên thứ 3 cung cấp trở nên phổ biến, rất nhiều công ty quảng cáo và tổ chức tư nhân bắt đầu đặt câu hỏi về tính thực tiễn của chúng. Năm này qua năm khác, các thông tin người dùng lưu trên web ngày một phong phú hơn. Các công ty quảng cáo trực tuyến, cơ quan chính phủ hay thậm chí một công ty bất kỳ có nhu cầu đều có thể bằng cách này hay cách khác nắm được các thông tin như tuổi tác và giới tính, khuynh hướng chính trị, tình trạng sức khỏe… của người dùng Internet. Và người dùng hầu như rất mơ hồ về việc thông tin liên quan đến họ bị thu thập âm thầm như vậy.

    Không có gì ngạc nhiên khi mà việc các doanh nghiệp quảng cáo “sử dụng cookie” đã sớm được đưa lên cảnh báo như là một sự vi phạm riêng tư cá nhân nghiêm trọng. Giới kỹ sư lập trình, những người có liên quan trực tiếp đến sự phát triển của các tiêu chuẩn kỹ thuật liên tục nhận được sức ép dư luận về nguy cơ này.

    Cụ thể vào năm 1997, một liên minh các tổ chức về quyền riêng tư đã gửi một thông báo ngỏ đến Lực Lượng Kỹ Thuật Internet - Internet Engineering Task Force đồng thời gửi các bản sao tới các nhà phát triển web hàng đầu thế giới bày tỏ sự ủng hộ của họ với chuẩn cookie đầu tiên – RFC 2109. Chuẩn này cho phép chặn các cookie của các bên thứ 3 để “bảo vệ an toàn đối với các sự xâm phạm riêng tư cá nhân”. Song các công ty quảng cáo còn phản công mạnh hơn. Cuối cùng thì cả 2 trình duyệt web chính thời kỳ đó là Netscape Navigator và Internet Explorer đều cho phép cookie của các bên thứ 3 hoạt động.

    Gió bắt đầu đổi chiều từ năm 2005 khi các nhà phát triển trình duyệt bắt đầu thêm chế độ “duyệt web riêng tư - private browsing” vào trình duyệt của mình. Các nhà phát triển độc lập cũng tung ra phần mở rộng (extension) tăng cường bảo vệ quyền riêng tư để người dùng web có thể dễ dàng cài đặt vào trình duyệt của mình. Hiện nay, phần mở rộng được cài đặt nhiều nhất trên một trong các trình duyệt phổ biến Mozilla Firefox là AdBlock Plus. Phần mở rộng này cho phép chặn cả quảng cáo cũng như khả năng lưu thông tin cá nhân của các cookie đến từ các bên thứ 3. Các công cụ mới được phát triển gần đây như Ghostery và Lightbeam còn cho biết số lượng các cookie theo dõi nằm ẩn trong từng trang web và cách thức chúng “cấu kết” với các website tưởng chừng không liên quan như thế nào. Các nghiên cứu đã chỉ ra rằng sau đó phần lớn người dùng đã tiến hành xóa/chặn cookie khỏi trình duyệt của mình. Đây là minh chứng hùng hồn nhất cho việc cookie đã làm ảnh hưởng đến quyền riêng tư của người dùng web.

    Trước đây, việc xóa cookie sau mỗi lần duyệt web hoặc thiết lập tùy chọn “Do not track” của trình duyệt có thể ngăn chặn được người khác theo dõi hành vi của bạn trên Internet. Sơ đồ mô tả cách thức các nhà quảng cáo trực tuyến theo dõi những nơi bạn truy cập thông qua fingerprint.

    Nhưng mặc dù người dùng nhận thức được về ảnh hưởng của cookie rồi tiến hành xóa chúng khỏi trình duyệt của mình, các công ty liên quan cũng không vì thế mà chùn lại. Họ tiếp tục tìm kiếm các phương pháp khác để né tránh khỏi sự săm soi của người dùng. Đại đa số các doanh nghiệp này đều sử dụng phương thức là “chôn giấu” khả năng lưu vết của cookie vào một góc khuất nẻo trên trình duyệt.

    Một kỹ thuật mới phổ biến là sử dụng Flash cookie. Về mặt khái niệm thì nó cũng không khác gì với cookie thường, điểm khác biệt là nó dính với plug-in Adobe Flash mà thôi. Trước đây, các trang web thường giấu thông tin vào trong Flash cookie để trốn tránh việc phát hiện và gỡ bỏ của người dùng. Thông tin tại đây sau khi quét sẽ tự động sản sinh ra các cookie thông thường cài vào trình duyệt. Các công ty liên quan đã sử dụng phương thức du kích này mãi đến khi bị giới nghiên cứu phát hiện ra và công bố vào năm 2008. Giờ đây, hầu hết các trình duyệt đều cung cấp tùy chọn cho phép xóa hoàn toàn các cookie.

    Và như mọi cuộc rượt đuổi theo kiểu mèo đuổi chuột khác, các công ty quảng cáo sẽ không chấp nhận thất bại. Trong những năm gần đây, họ chuyển sang phương thức theo dõi không hề lưu vết trên máy chủ web và không để lại dấu tích gì trên thiết bị của người dùng. Thay vào đó, các mạng lưới quảng cáo giờ đây phụ thuộc vào quá trình theo dõi hành trình thiết bị của người dùng - fingerprinting: thu thập các thông tin nhận diện nhiều mặt về tính cách của người dùng cụ thể thông qua các hành vi cá nhân khi lướt web. Hay nói cách khác, sau khi thu thập một số lượng nhất định các thông tin về hoạt động của thiết bị, các công ty quảng cáo có thể phục dựng được một hình ảnh khá rõ ràng về chủ nhân của thiết bị.

    Mặc dù điều này nghe có vẻ hơi ghê gớm, song cũng cần nhận thức được mặt tốt, thậm chí đáng biểu dương của quá trình lưu vết này. Các ứng dụng trên thiết bị rất đa dạng, chúng có thể được dùng để xác định người dùng đang đăng nhập sử dụng dịch vụ nền web chứ không phải là kẻ đánh cắp dữ liệu đang cố gắng thực hiện hành vi xâm nhập. Fingerprinting cũng rất có ích khi ngăn chặn nạn click giả (click fraud). Vấn đề duy nhất mà fingerprinting có thể gặp phải chính là nó tiềm ẩn các nguy cơ phá hoại quyền riêng tư của người dùng.

    Vào năm 2010, Peter Eckersley (thuộc tổ chức Electronic Frontier Foundation) đã công bố rằng sự theo dõi dấu vết thuộc tính trên các trình duyệt web khác nhau cung cấp khá đầy đủ thông tin để có thể xác định được danh tính của đại bộ phận các thiết bị duyệt web. Trong số 470.000 người dùng tham gia dự án điều tra Panopticlick của Peter , có tới 84% số lượng trình duyệt cung cấp các thông tin khác biệt (94% nếu tính cả các trình duyệt hỗ trợ  Flash hoặc Java). Các thông tin thuộc tính mà bản lưu của dự án cung cấp bao gồm thông tin về kích cỡ màn hình, múi giờ, về plug-in trong trình duyệt và thậm chí cả các font hệ thống cài đặt trong máy.

    Nhóm nghiên cứu đã tiến hành mở rộng kết quả nghiên cứu của Eckersley bằng cách tiếp tục thử nghiệm để làm rõ vai trò của fingerprinting trong toàn bộ hệ thống mạng lưới kết cấu theo dõi lưu vết thông tin người dùng Internet chứ không chỉ dừng ở mức cảnh báo nguy cơ tiềm ẩn. Công trình này bắt đầu bằng việc nghiên cứu nhận diện mã lập trình của 3 nhà cung cấp fingerprinting lớn nhất: BlueCava, Iovation và ThreatMetrix.

    Kết quả nghiên cứu cho thấy chiến thuật tinh vi của các công ty này đã đi xa hơn nhiều so với những gì được Eckersley chỉ ra trước đây. Ví dụ nhóm nghiên cứu đã tìm ra rằng một công ty đã sử dụng phương thức gián tiếp rất thông minh để nhận diện được các bộ phông chữ cài đặt trên máy người dùng mà không cần các thao tác thăm dò thông thường.

    Nghiên cứu cũng cho thấy mã lập trình này đã lợi dụng kẽ hở của Adobe Flash để tiến hành thông báo thông tin kể cả khi người dùng cố tình che giấu địa chỉ IP của mình thông qua các máy chủ trung gian proxy khác. Thêm vào đó, nhóm nghiên cứu còn thử tiến hành đưa vào cài đặt một phần plug-in mở rộng có cơ chế hoạt động gần giống với vi rút máy tính dạng trojan. Chương trình này lén lút tải về và cài đặt các phần mềm không liên quan gì đến những thông tin mà fingerprinting thu thập, dạng như một chương trình đánh bài trực tuyến.

    Với những thông tin thu thập được về 3 công ty này, nhóm thử nghiệm đã khởi tạo và chạy một chương trình tự động lướt web và ngăn chặn các nỗ lực tìm kiếm thông tin của các chương trình fingerprinting. Mục đích của hành động này là nhằm tìm ra thêm những công ty có hoạt động tương tự với 3 công ty ban đầu. Ngay sau đó, nhóm thử nghiệm đã tìm ra 16 chương trình fingerprinting khác, một vài chương trình được tạo ra để quản lý siết chặt việc chia sẻ thông tin trên diện rộng của các công ty tương quan. Số còn lại đều được tạo ra và điều hành bởi các công ty Coinbase, MaxMind và Perferencement. Và dường như các công ty này đều đã tìm được người mua sản phẩm của mình bởi lẽ trong số 159 website thuộc Top 10.000 của Alexa đều có sử dụng các chương trình fingerprinting được nói ở trên. Nhóm thử nghiệm còn thấy rằng có hơn 400 trang web thuộc nhóm 1 triệu website thường được truy cập có sử dụng chương trình fingerprinting dạng JavaScript-only để có thể theo dấu các thiết bị không mặn mà với Flash như iPhone hay iPad. Tệ hơn hết là nhóm phát hiện ra các chương trình fingeprinting này vẫn hoạt động âm thầm cho dù người dùng đã chọn chế độ duyệt web riêng tư, kích hoạt tùy chọn Do Not Track trong trình duyệt trước khi lướt web.

    Việc sử dụng những chương trình fingerprinting ngày càng trở nên phổ biến, tuy nhiên người dùng vẫn còn khá mù mờ về điều đó. Nhưng đáng buồn là kể cả khi họ nhận thức được nguy cơ này và áp dụng các chương trình bảo vệ chống gian lận, họ vẫn có thể bị lừa bởi quan điểm các thông tin mà họ nhập vào sẽ không bị dùng cho các mục đích khác. Một trong số chúng nhắm vào lĩnh vực quảng cáo trực tuyến và cho phép tồn tại ngay cả khi người dùng tiến hành xóa cookie và chọn chế độ duyệt web riêng tư.

    Trong quá trình nghiên cứu, nhóm cũng tiến hành xem xét các công cụ mà người dùng sử dụng để chống lại việc do thám này. Cách phổ biến nhất là cài đặt thêm một extension cho phép thay đổi thông tin nhận dạng trình duyệt với máy chủ. Sự thay đổi này sẽ cho phép người dùng thi thoảng đánh lừa được các máy chủ về trình duyệt thực sự mà họ đang sử dụng. Với các extension dạng này, duyệt web bằng Firefox trên máy tính cài hệ điều hành Linux có thể khiến cho máy chủ nhận diện thành người dùng đang xài Internet Explorer trên máy tính cài đặt Microsoft Windows. Một số các extension khác còn đi xa hơn nữa khi tạo ra các thông tin sai lệch về kích cỡ màn hình và phông chữ.

    Nghiên cứu của nhóm thử nghiệm cho thấy một chương trình fingerprinting tầm trung cũng có thể nhẹ nhàng đánh bại bất kỳ các extension nào vừa được nhắc tới ở trên. Nguyên do nằm ở các trình duyệt hiện đại ngày nay thực ra là một tập hợp chứa đựng rất nhiều phần mềm cùng những lỗ hổng nội tại. Và điều này đã làm cho trình duyệt rời xa bản chất ban đầu vốn có của nó và tạo ra cơ chế để các chương trình fingerprinting có thể tận dụng. Chính vì thế mà các phần mở rộng ngăn chặn thu thập thông tin cá nhân cài vào trình duyệt đều trở nên vô dụng đối với fingerprinting.

    Cần chấp nhận thực tế rằng quảng cáo là ngành kinh doanh số 1 trên Internet và việc thu thập dấu vết người dùng là một phần xấu xí không thể tách rời. Cũng như việc hồ sơ thông tin người dùng và những dấu vết mà họ để lại trên web là luôn tồn tại. Do vậy chúng ta cần những quy định ngặt nghèo và những phương tiện kỹ thuật hiệu quả hơn để ngăn chặn sự lạm dụng các thông tin này. Nhóm thử nghiệm và các nhà nghiên cứu khác đang rất nỗ lực để có các phần mềm tốt hơn ngăn chặn fingerprinting. Một phương thức trực tiếp nhất đang được xem xét là chặn các mã fingerprinting từ ngay khi trình duyệt bắt đầu tải giống với phương thức mà các extension chặn quảng cáo vẫn hoạt động. Với việc duy trì ‘danh sách đen’ các mã nghi vấn, phần mở rộng chống fingerprinting có thể bảo vệ trình duyệt và không cho các mã này được thực thi.

    Một trong các trở ngại của phương thức này là phải liên tục cập nhật bản danh sách đen bởi lẽ các công ty tạo ra fingerprinting cũng nhanh chóng cập nhật và tìm cách khắc phục. Một trở ngại khác là chính cơ chế fingerprinting lại cần thiết đối với một số trang web nhất định.
    Một cách hiệu quả hơn có thể áp dụng, đó là nhiều người cùng tạo ra chung các dấu vết lướt web. Về phương diện này thì điện thoại thông minh đang chiếm ưu thế so với máy tính truyền thống. Tuy nhiên cũng có khả năng làm cho các máy tính trở nên giống hệt nhau nếu quá trình duyệt web được tiến hành thông qua dịch vụ điện toán đám mây. Những kẻ theo dõi lúc đó chỉ có thể có được các dấu vết của trình duyệt trên điện toán đám mây mà thôi.

    Các công ty cung cấp trình duyệt nền điện toán mây đều đã có sản phẩm giới thiệu cho người dùng, song hiện khả năng fingerprinting có thể chạy được trên mây hay không vẫn chưa thực sự rõ ràng. Người dùng vẫn phải chấp nhận sống chung với lũ và cảnh giác hơn với những nguy cơ thực sự luôn tiềm ẩn với việc lướt web trước khi có những quy định đủ nghiêm và công cụ kỹ thuật đủ mạnh đảm bảo cho vấn đề bảo mật thông tin riêng tư của người dùng.

    PC World VN, 09/2014

    ID: A1409_32