• Thứ Tư, 19/12/2018 10:15 (GMT+7)

    Thuật toán Machine Learning mới giúp bảo vệ an toàn cho trang web

    Thanh Trà
    Các nhà khoa học ở Anh và Trung Quốc vừa phát triển thành công một thuật toán học máy (Machine Learning) mới, có thể vượt qua kỹ thuật CAPTCHA nhanh và dễ dàng, với độ chính xác hơn bất kỳ phương pháp nào trước đây.
    Trang tin công nghệ Zdnet cho hay, thuật toán mới này đã được các nhà nghiên cứu thử nghiệm trên 33 trang web phổ biến và cho tỷ lệ chính xác khá cao. Theo đó, khi nó được phổ biến và sử dụng rộng rãi, có thể phương thức xác thực bằng CAPTCHA sẽ trở nên "lỗi thời".
     
    Cụ thể, thuật toán này được phát triển bởi các nhà khoa học từ Đại học Lancaster (Anh) và Đại học Bắc Kinh (Trung Quốc) dựa trên mô hình GAN – Generative Adversarial Network. Đây là một thuật toán dựa trên trí tuệ nhân tạo AI và nó đặc biệt hữu ích khi thuật toán không được kết nối với số lượng lớn dữ liệu đào tạo. 
    Machine Learning mới dựa trên trí tuệ nhân tạo, đặc biệt hữu ích khi thuật toán không được kết nối với số lượng lớn dữ liệu đào tạo.
    Theo lẽ thường, các thuật toán Machine Learning phân loại vẫn đòi hỏi phải được luyện tập với hàng triệu điểm dữ liệu để có thể đạt tới độ chính xác như mong muốn trước khi hoàn thành một nhiệm vụ nào đó. Song thuật toán GAN có lợi thế là chính nó có thể hoạt động chỉ với một lượng điểm dữ liệu ban đầu nhỏ hơn nhiều, bởi thuật toán này sử dụng một thành phần được gọi là "generative" để tự tạo ra những dữ liệu mới tương đồng. Sau đó, những dữ liệu tương đồng mới được tạo ra này sẽ tiếp tục được đưa vào thuật toán "solver" để đoán ra kết quả. Khi hai thành phần là "generative" và "solver" này được đặt đối nhau, solver sẽ dần trở nên hoàn hảo hơn như thể nó đã được luyện tập với hàng triệu điểm dữ liệu vậy.
     
    Trước khi tìm ra thuật toán mới này, các học giả ở Anh và Trung Quốc đều sử dụng những thuật toán cơ bản khác sau khi chúng được huấn luyện bằng hàng triệu điểm dữ liệu khởi đầu. Song nhiều nhà nghiên cứu cho rằng, trong bối cảnh thực tế hiện nay, việc bí mật tạo ra hàng triệu mã CAPTCHA trên một trang web hoặc thông qua API là điều không thể. Đây chính là lý do mà các học giả đã chỉ sử dụng 500 mã từ 11 dịch vụ CAPTCHA chữ khác nhau trên 32 trang web trong danh sách Top 50 trang web hàng đầu về lượng người truy cậy của Alexa.
     
    "Chúng tôi chỉ mất 2 tiếng để thu thập các mã CAPTCHA (với các phần mềm chuyên dụng thì chỉ cần 30 phút) và thêm gần 2 tiếng nữa để tự tay gắn nhãn cho từng ấy mã. Điều này có nghĩa là công sức và chi phí để thực hiện tấn công thông qua mã CAPTCHA là khá thấp." - Các nhà nghiên cứu cho biết.
     
    Danh sách dữ liệu được lấy từ những trang phổ biến nhất như Wikipedia, Microsoft, eBay, Baidu, Google, Alipay, JD, Qihoo360, Sina, Weibo và Sohu. Bên cạnh sự cải thiện về độ chính xác, các nhà nghiên cứu còn tự tin khẳng định rằng thành phần solver trong thuật toán của họ hiệu quả và rẻ hơn bất kỳ phương pháp nào khác. 
     
    Họ cho biết, "Nó có thể giải một mã CAPTCHA trên máy tính để bàn trong vòng 0,05 giây". Điều đó có nghĩa là, tin tặc sẽ không cần phải mua và trả tiền thuê cho những máy chủ đám mây đắt đỏ để vượt qua bảo mật CAPTCHA. Bởi một khi thuật toán đã được huấn luyện đầy đủ, nó có thể hoạt động ở bất kỳ đâu, từ một máy tính thông thường tới các máy chủ web, từ đó chúng khởi động các cuộc tấn công DDoS hoặc spam thư rác nhắm vào những trang web có sử dụng dịch vụ CAPTCHA.
     
    Không chỉ có thế, nhờ vào tính dễ huấn luyện của thuật toán, tin tặc còn có thể tự huấn luyện cho thuật toán của mình để có thể dễ dàng đối phó với những mã CAPTCHA chưa từng gặp. Tiến sỹ Zheng Wang, Giảng viên tại Đại học Lancaster đồng thời là đồng tác giả của cuộc nghiên cứu này, cho rằng "Đây là điều khá nguy hiểm bởi vì bức tường an ninh đầu tiên của một trang web đã dễ dàng bị vượt qua". Bởi thế, Zheng và nhóm của ông hiện đang khuyến khích chủ sở hữu của các trang web nên phát triển các phương thức khác với khả năng bảo mật đa lớp để thay thế cho CAPTCHA. 
     
    Liên quan đến việc này, hồi đầu năm nay, gã khổng lồ tìm kiếm Google đã cho ra mắt phiên bản thứ ba của dịch vụ reCAPTCHA. Ở phiên bản mới này, họ đã tích hợp cả thuật toán Machine Learning để hỗ trợ việc phân biệt bot và người dùng thật. Thế nên khi thuật toán học máy mới này được phổ cập rộng rãi, các trang web sẽ an toàn hơn rất nhiều, cũng như tránh được các cuộc tấn công mạng của hacker.