• Thứ Tư, 12/11/2014 00:01 (GMT+7)

    Google sẽ đưa bộ gien của bạn lên đám mây

    Huy Thắng
    (PCWorldVN) Dữ liệu bộ gien của hàng triệu người sẽ được Google lưu trên các đám mây điện toán, qua đó giúp cho những khám phá y học mới cũng như những phương pháp chẩn đoán ngày càng hoàn thiện.

    Sản phẩm đầu tiên trong lĩnh vực di truyền học của hãng tìm kiếm khổng lồ là Google Genomics, một dịch vụ điện toán đám mây được trình làng hồi tháng 3 năm nay nhưng hầu như không được chú ý đến trong hàng loạt công bố các kế hoạch nghiên cứu và phát triển nổi tiếng của Google.

    Dịch vụ Google Genomics được cho là quan trọng hơn hẳn những kế hoạch tuyệt vời này, chẳng hạn dự án nghiên cứu chẩn đoán ung thư bằng hạt nano. Kết nối và so sánh hàng nghìn, sau này là hàng triệu bộ gien với nhau, là những gì sẽ thúc đẩy khám phá y khoa trong thập niên kế tiếp. Vấn đề ai sẽ lưu trữ dữ liệu bộ gien đã là một điểm cạnh tranh ngày càng tăng giữa những “ông lớn” trong ngành điện toán đám mây như Amazon, Google, IBM và Microsoft.

    Google bắt đầu nghiên cứu về Google Genomics cách đây 18 tháng. Hãng đã gặp mặt các nhà khoa học và xây dựng một giao diện API nhằm chuyển các dữ liệu ADN vào máy chủ của hãng và thực hiện các cuộc thử nghiệm trên đó bằng cách dùng công nghệ cơ sở dữ liệu tương tự như công nghệ dùng để chỉ số hóa mạng Internet và theo dõi hàng tỷ người dùng Internet.

    Theo David Glazer, người đứng đầu dự án này của Google và trước đây từng là trưởng bộ phận xây dựng nền tảng cho mạng xã hội Google+, các nhà sinh học đang chuyển từ việc nghiên cứu từng bộ gien sang nghiên cứu cùng lúc hàng triệu bộ gien.

    Cơ hội bây giờ là phải làm thế nào để áp dụng những đột phá trong công nghệ dữ liệu để tiếp sức cho thay đổi này.

    Bộ gien của mọi người sẽ được lưu trữ trên đám mây để giới y học chẩn đoán và điều trị bệnh.
    Một số nhà khoa học nhận xét rằng, dữ liệu bộ gien vẫn còn quá phức tạp để Google xử lý, nhưng một số khác cho rằng sẽ có một thay đổi lớn.  Các phòng thí nghiệm ngày nay đã được trang bị những thiết bị mới hơn, nhanh hơn để giải mã ADN. Trung tâm nghiên cứu y sinh và bộ gien Broad ở Cambridge, Massachusetts (Mỹ), cho biết trong tháng 10/2014 cứ mỗi 32 phút đã giải mã được một lượng tương đương với một bộ gien của con người, nghĩa là khoảng 200 terabyte dữ liệu thô.

    Lượng dữ liệu này ít hơn số dữ liệu mà các công ty Internet xử lý hằng ngày. Trong 2 tháng, trung tâm Broad sẽ sản xuất một lượng dữ liệu tương đương với lượng nội dung được tải lên Youtube trong một ngày, nhưng lại lớn hơn nhiều so với lượng dữ liệu mà các nhà sinh học xử lý.

    Hầu hết cơ quan hiện nay cần phải lưu trữ của họ và truy cập thông qua các trung tâm dữ liệu thương mại. Viện Ung thư Quốc gia Mỹ cho biết, tháng trước họ phải chi lên đến 19 triệu USD để chuyển 2,6 petabyte các bản sao của dự án bản ảnh bộ gien ung thư Cancer Genome Atlas lên đám mây.

    Theo bà Sheila Reynolds, nhà khoa học nghiên cứu tại Viện Sinh học Hệ thống của Mỹ thì ý tưởng trên nhằm tạo ra các “đám mây bộ gien ung thư” để các nhà khoa học có thể chia sẻ thông tin và có thể nhanh chóng thực hiện những thí nghiệm ảo dễ dàng như khi tìm kiếm trên mạng.

    Bà Sheila cho biết, không phải ai cũng có thể tải xuống 1 petabyte dữ liệu hay có khả năng điện toán để nghiên cứu lượng dữ liệu này.

    Ngoài ra, trong năm qua Google và Amazon đã cạnh tranh về giá cả trong việc tăng tốc cho quá trình chuyển dữ liệu ADN lên đám mây. Google cho biết, hiện nay hãng chỉ tính giá 25 USD/năm để lưu trữ một bộ gien và mức giá cao hơn để thực hiện tính toán trên dữ liệu này. Dữ liệu thô khoa học cho một bộ gien con người có dung lượng khoảng 100 gigabyte, nhưng phiên bản đã được xử lý của mã gien (mã di truyền) của một người có dung lượng nhỏ hơn nhiều, chỉ dưới 1 gigabyte. Như vậy chi phí lưu trữ chỉ còn 0,25 USD/năm.

    Lưu trữ đám mây đã giúp xuất hiện thêm các công ty mới khởi nghiệp như Tute Genomics, DNANexus, Seven Bridge, và NextCode Health. Những công ty này đã xây dựng “các trình duyệt” mà nhiều bệnh viện và nhà khoa học có thể dùng để khám phá dữ liệu bộ gien.

    Deniz Kural, CEO của Seven Bridges – một công ty đã lưu trữ dữ liệu bộ gien trên danh nghĩa của 1.600 nhà nghiên cứu trên đám mây của Amazon, cho biết có thể xem đám mây của Google hay Amazon là một loại dịch vụ back end. Hai hãng này đang quảng cáo rằng bạn có thể xây dựng một công ty nghiên cứu bộ gien trên đám mây của họ.

    Người đứng đầu của Seven Bridges cho biết, điều quan trọng hơn là ngành y học sẽ chẳng bao lâu sẽ dựa vào một nền tảng mạng Internet của các bộ gien (Internet-of-DNA) toàn cầu mà các bác sỹ sẽ có thể tìm kiếm. Nói chung là, nếu trong tương lai bạn bị ung thư, các bác sỹ sẽ xếp chuỗi bộ gien của bạn và bộ gien của khối u ung thư cũng của bạn, rồi sau đó truy vấn các bộ gien này bằng cơ sở dữ liệu gồm 50 triệu các bộ gien khác. Kết quả là tìm được thuốc chữa trị tốt nhất cho bạn.

    Đại diện Google không cho biết dịch vụ Google Genomics có quy mô cỡ nào hay sẽ có bao nhiêu khách hàng, nhưng ít ra là đã có 3.500 bộ gien từ các dự án công cộng được lưu trữ trên máy chủ của Google. Hiện cũng chưa có liên kết nào giữa đám mây của Google và các dự án đang được đầu tư hơn về chăm sóc sức khỏe, chẳng hạn như dự án có tên gọi Calico mà Google đã bắt đầu trong năm nay để khảo sát làm thế nào để kéo dài tuổi thọ con người.