• Thứ Tư, 28/02/2007 16:12 (GMT+7)

    NVIDIA GeForce 8 định chuẩn mới

    Chip đồ hoạ NVIDIA GeForce 8 với công nghệ CUDA, hỗ trợ DirectX 10, Shader Model 4, cấu trúc xử lý dòng... đã xác định lại một chuẩn mới cho các game PC, đồ hoạ 3D,...

    Chip đồ họa (GPU) NVIDIA GeForce 8 với công nghệ CUDA (compute unified device architecture), hỗ trợ DirectX 10, Shader Model 4, cấu trúc xử lý dòng... đã xác định lại một chuẩn mới cho các game PC, đồ họa 3D, ...

    Nền tảng công nghệ

    20 năm nay, một GPU được thiết kế bao gồm các phần như hình 1

    Đỉnh: đầu tiên GPU nhận dữ liệu đỉnh từ CPU và từ đây công đoạn đổ bóng đỉnh được thực thi.

    Tam giác: các đỉnh được ghép thành các dạng cơ bản như: hàng (line), điểm (point) hay hình tam giác (triangle). Các dạng cơ bản này được chuyển đổi thành các mảnh điểm ảnh (pixel fragment) và lúc này các mảnh điểm ảnh chưa được xem như là điểm ảnh. Sau khi trải qua các công đoạn như đổ bóng, kiểm tra, khử răng cưa; các mảnh điểm ảnh được xem như là điểm ảnh và được gửi đến khung đệm.


     

    Hình 1

    Điểm ảnh: tại đây các quá trình đổ bóng điểm ảnh, phủ vân bề mặt được thực hiện.

    ROP (raster operation): các mảnh điểm ảnh, các điểm ảnh đệm và dữ liệu khử răng cưa được kết hợp lại để cho ra một điểm ảnh hoàn tất cuối cùng và gửi chúng đến bộ nhớ đệm.

    Bộ nhớ: lưu dữ các dữ liệu đã hoàn tất để xuất ra màn hình

    Nhưng tới dòng GeForce 8, NVIDIA đã sử dụng công nghệ CUDA với các kỹ thuật cốt lõi bao gồm: thiết kế đổ bóng và hàng lệnh xử lý hợp nhất, cấu trúc xử lý dòng... nhằm cung cấp một giải pháp phần mềm và phần cứng hợp nhất để xử lý dữ liệu đồ họa.

    1. Thiết kế đổ bóng và hàng lệnh xử lý hợp nhất

    Mô hình hàng lệnh xử lý truyền thống với quá trình xử lý dữ liệu như đổ bóng đỉnh, đổ bóng điểm ảnh được bắt đầu ở trên cùng, thực hiện tuần tự và sau đó được gửi đến khung đệm. Các dữ liệu của quá trình xử lý như thuộc tính, lệnh, phủ vân bề mặt được nhận tại điểm bắt đầu quá trình. Ngoài ra, dòng GPU NVIDIA GeForce 7 còn có nhiều hàng lệnh xử lý vật lý cho công đoạn xử lý chính (chỉ công đoạn đổ bóng điểm ảnh cũng trên 200 bước xử lý tuần tự).

    Trong khi đó với cấu trúc đổ bóng và hàng lệnh xử lý hợp nhất, GeForce 8 giảm số lượng hàng lệnh xử lý và thay đổi dòng xử lý: dữ liệu nhập được nạp vào phần đầu của lõi nhân đổ bóng hợp nhất và dữ liệu xuất được ghi lên thanh ghi và sau đó có thể nạp lại vào phần đầu của lõi nhân đổ bóng hợp nhất cho quá trình kế tiếp.

    Trong sơ đồ GPU hợp nhất tổng quát ở hình 2, hàng lệnh xử lý truyền thống bên trái có nhiều dạng đổ bóng riêng rẽ khác nhau và dữ liệu của đổ bóng sẽ đi tuần tự từ đầu đến cuối để thực hiện việc đổ bóng. Mô phỏng bên phải miêu tả một lõi nhân đổ bóng hợp nhất (không phân biệt các loại đổ bóng khác nhau) với một hay nhiều bộ xử lý đổ bóng hợp nhất chuẩn.

    Hình 2

    Dữ liệu sẽ đi vào phần đầu bên trái của một cấu trúc hợp nhất, sau đó được gửi đến lõi nhân đổ bóng để xử lý và kết quả được gửi trở về phần đầu của lõi nhân đổ bóng, và sau đó lại được gửi đi lần nữa, xử lý lần nữa v.v... cứ vậy tiếp tục cho đến khi tất cả các quá trình đổ bóng được thực hiện và các mảnh điểm ảnh được đi tiếp đến hệ thống ROP.

    2. Chi tiết đổ bóng hợp nhất

    Ví dụ ở hình 3 cho thấy một GPU lý thuyết với 4 đơn vị đổ bóng đỉnh và 8 đơn vị đổ bóng điểm ảnh.

    Trong hình 3, hình trên chủ yếu bao gồm đổ bóng đỉnh, nên toàn bộ 4 đơn vị đổ bóng đỉnh được sử dụng và 7 đơn vị đổ bóng điểm ảnh được “nhàn rỗi”. Cũng tương tự, do hình dưới với hiệu ứng ánh sáng cho mặt nước nên chủ yếu bao gồm các đổ bóng điểm ảnh nên toàn bộ 8 đơn vị đổ bóng điểm ảnh được sử dụng và 3 đơn vị đổ bóng đỉnh lại được “nhàn rỗi”. Chính sự phân biệt hai quá trình đổ bóng điểm ảnh và đổ bóng đỉnh nên sự thực thi không được tối ưu vì vẫn còn phần cứng không được sử dụng.

    Trong hình 3 là một kiến trúc đổ bóng tổng hợp (không phân biệt đổ bóng đỉnh hay đổ bóng điểm ảnh) bao gồm 12 đơn vị. Với hình ảnh trên chủ yếu bao gồm đổ bóng đỉnh thì ngoại trừ 1 đơn vị để dành cho đổ bóng điểm ảnh, toàn bộ 11 đơn vị còn lại đều được sử dụng hết cho đổ bóng đỉnh. Cũng tương tự như vậy với hình dưới thiên về đổ bóng điểm ảnh: 1 đơn vị sẽ được để dành cho đổ bóng đỉnh và toàn bộ 11 đơn vị còn lại thực hiện công việc đổ bóng điểm ảnh. Cách thức này cho phép tận dụng được tối đa phần cứng, giúp cho tốc độ xử lý được gia tăng.

    Hình 3

    3. Cấu trúc xử lý dòng

    Là điểm cải tiến quan trọng trong kiến trúc, GPU NVIDIA GeForce 8 sử dụng các bộ xử lý dòng (stream processor - SP) để thực hiện các giai đoạn đổ bóng (NVIDIA GeForce 8800GTX được thiết kế bởi 128 bộ xử lý dòng). Bộ xử lý dòng là bộ xử lý có khả năng tính toán trên dòng dữ liệu nhập liên tục và cùng lúc xuất ra dòng kết quả liên tục. Các bộ xử lý dòng có thể được gom nhóm với số lượng lớn, có trạng thái gần giống nhau để cung cấp sức mạnh xử lý song song.

    Các nguyên tắc thực thi được truyền cho một bộ xử lý dòng và các công đoạn được thực hiện trên các phần khác nhau của một dòng dữ liệu. Bộ nhớ tích hợp trên chip đồ họa được sử dụng để lưu trữ dữ liệu ra của một bộ xử lý dòng và các bộ xử lý dòng khác đọc dữ liệu vào cho các công đoạn xử lý tiếp theo sau từ bộ nhớ ngoài.

    Cấu trúc xử lý dòng là một thành phần then chốt của công nghệ NVIDIA GigaThread: giữ cho các SP được tận dụng hoàn toàn bằng cách lập chương trình và gửi đi các dạng khác nhau của dòng (như điểm ảnh, đỉnh...) để thực thi.

    4. Hỗ trợ chuẩn game XHD (Extreme high definition)

    Tất cả GPU GeForce 8 được thiết kế hỗ trợ chuẩn game XHD - đạt độ phân giải 2560x1600 (theo tỷ lệ khung hình 16:10).

    5. Công nghệ NVIDIA Lumenex Engine

    NVIDIA Lumenex Engine là công nghệ lọc không đẳng hướng, dựng hình HDR (high dynamic-range) và khử răng cưa chất lượng cao.

    NVIDIA trang bị cho GeForce 8 kỹ thuật khử răng cưa lấy mẫu bao phủ (CSAA) mới.

    Hình 4

     

    Trong khi các GPU hiện nay có các mức khử răng cưa 4x, hay 8x, thì kỹ thuật CSAA mới của GeForce 8 cho phép số lượng lấy mẫu cho từng điểm ảnh được tăng lên thành 16, nên cho nhiều mức khử răng cưa cao hơn bao gồm: 8x, 16x và 16xQ.

    Quá trình dựng hình HDR trong GeForce 8 mặc định hỗ trợ chế độ FP32 (32 bit floating point). Ngoài ra, với các GPU trước đây, 2 quá trình dựng hình HDR và khử răng cưa đa mẫu không được phép hoạt động đồng thời, thì với GeForce 8800 điều này được hiện thực. Khi cả hai quá trình cùng hoạt động thì quá trình dựng hình HDR có thể được chọn lựa giữa hai chế độ: FP16 (tương đương 64 bit màu) hay FP32 (128 bit màu). Sự kết hợp hai quá trình này cho phép gia tăng chất lượng hình ảnh: thể hiện ánh sáng và đổ bóng trung thực.

    Thêm vào đó, GeForce 8 sử dụng cấu trúc hiển thị 10bit, phối hợp với bộ chuyển đổi số sang tương tự 10bit cho chất lượng hiển thị trên 1 tỷ màu (so với 16,7 triệu màu của các thế hệ trước đây), giúp cho hình ảnh có màu sắc phong phú và rực rỡ hơn.

       

    Bảng 2

        GeForce 8800 GTX     GeForce 8800 GTS  
        Số bộ xử lý dòng     128     96  
        Xung nhân (MHz)     575     500  
        Xung đổ bóng (MHz)     1350     1200  
        Xung nhớ (MHz)     900     800  
        Số lượng bộ nhớ     768MB     640MB  
        Giao tiếp bộ nhớ      384-bit     320-bit  
        Băng thông bộ nhớ (GB/sec)     86,4     64  
        Tốc độ phủ vân bề mặt (billion/sec)      36,8     24  

    6. Công nghệ NVIDIA Quantum Effects

    Công nghệ NVIDIA Quantum Effects cho phép các hiệu ứng vật lý được tái tạo trên GPU. GPU GeForce 8800GTX với 128 bộ xử lý phân lớp cho một khả năng vượt trội trong việc tính toán các hiệu ứng vật lý, giúp cho các hiệu ứng trong game như khói, lửa được thể hiện thật hơn.

    7. Tách riêng quá trình phủ vân bề mặt và tính toán đổ bóng (shader math)

    GPU GeForce 7 có quá trình phủ vân bề mặt và quá trình đổ bóng xen kẽ nhau. Đây chính là nguyên nhân gây ra hiện tượng thắt cổ chai của quá trình tính toán đổ bóng: khi quá trình phủ vân bề mặt đang được thực thi, sẽ ngăn cản sử dụng bộ xử lý cho quá trình tính toán đổ bóng cho đến khi nào quá trình phủ vân bề mặt được hoàn thành. Trong khi đó, GPU GeForce 8 thiết kế hai quá trình phủ vân bề mặt và quá trình tính toán đổ bóng độc lập và có thể chạy song song (minh họa hình 4).

    8. Hỗ trợ DirectX 10 và Shader Model 4

    GPU GeForec 8 hỗ trợ DirectX 10 – thư viện đồ họa 3D API (application programming interface) với sức mạnh đổ bóng hình học và Shader Model 4 – cho hình ảnh được thể hiện trung thực, màu sắc phong phú, gia tăng độ chi tiết trong các hiệu ứng đổ bóng.

    Trong khi DirectX 9 và Shader Model 3 sử dụng các mẫu thiết bị ảo khác nhau với các nguồn tài nguyên khác nhau cho mỗi công đoạn hàng lệnh xử lý lập trình, thì DirectX10 và Shader model 4 có mẫu thiết bị ảo với một lõi nhân chung của các nguồn tài nguyên cho mỗi công đoạn đổ bóng lập trình (đỉnh, điểm ảnh, ...).

    Tương tự như Shader Model 3 nhưng Shader Model 4 còn có thêm các chức năng như: bộ hướng dẫn hợp nhất, sự tính toán số nguyên, độ dài chương trình không giới hạn. Ngoài ra, DirectX 10 với Shader Model 4 là yêu cầu bắt buộc trong Windows Vista với các đặc tính kỹ thuật trong bảng 1.

    Hiện thực sản phẩm

    Hiện tại, NVIDIA đã hiện thực và cho ra mắt 2 dòng GPU GeForce 8 bao gồm GeForce 8800GTX và GeForce 8800GTS. Cả hai mẫu sản phẩm đều được trang bị đầy đủ tất cả các công nghệ mới nhất của dòng GeForce 8 nhưng khác nhau ở các chi tiết thông số kỹ thuật, cụ thể như: GeForce 8800GTX giao tiếp bộ nhớ 384bit và GeForce 8800GTS giao tiếp bộ nhớ 320 bit (xem bảng 2).

    Các hãng sản xuất như Asus, Gigabyte, MSI cũng đã triển khai sức mạnh của dòng GPU GeForce 8800GTX và 8800GTS trên các card đồ họa.Trong đợt sản phẩm vào tháng 2, Test Lab đã thử nghiệm sức mạnh của dòng GPU “nóng” này với 3 mẫu card đồ họa của Asus EN8800GTS/HTDP/640M và Gigabyte GV-NX88X768H-RH và GV-NX88S640H-RH (ID: A0702_38). Qua thử nghiệm cho thấy: sức mạnh “đơn độc” của cả ba card đồ họa “nóng” này thật lý tưởng, tốc độ xử lý thu được ở hầu hết các game thử nghiệm đều cao hơn so với sức mạnh của Asus EN7950GT/HTDP/512M đỉnh cao của dòng GeForce 7 hiện nay.

     

    Bảng 1

        DX8 SM1.X     DX9 SM2     DX9 SM3     DX10  
      Lệnh đỉnh (Vertex instructions)     128     256      512     64K  
      Lệnh điểm ảnh (Pixel instructions)     4+8      32+64     512      
      Hàm đỉnh (Vertex constants)     96     256     256     16×4096  
      Hàm điểm ảnh (Pixel constants)     8     32     224      
      Tạm thời đỉnh (Vertex temps)      16      16     16     4096  
      Tạm thời điểm ảnh (Pixel temps)     2     12     32      
      Dữ liệu vào đỉnh (Vertex inputs)      16     16     16     16  
      Dữ liệu vào điểm ảnh (Pixel inputs)     4+2      8+2     10     32  
      Mục tiêu dựng hình (Render targets)      1     4     4     8  
      Phủ vân bề mặt đỉnh (Vertex textures)     N/A      N/A     4     128  
      Phủ vân bề mặt điểm ảnh (Pixel textures)     8     16     16      
      Kích thước phủ vân bề mặt 2D (2D tex size)             2K×2K      8K×8K  
      Tính toán số nguyên (Int ops)                  
      Tính toán tải (Load ops)     –               
      Dẫn xuất (Derivatives)                  
      Điều khiển dòng đỉnh (Vertex flow control)       N/A     Static     Static/Dyn      Dynamic  
      Điều khiển dòng điểm ảnh (Pixel flow control)     N/A     N/A     Static/Dyn      

    Gia An
    Tham khảo:
    www.nvidia.com

    ID: A0702_94