Teraflop đã là một cách phổ biến để thể hiện "sức mạnh đồ họa" trong nhiều năm nay. Thuật ngữ này đề cập đến số lượng phép tính mà một GPU có thể thực hiện, nhưng dù nó mãi nằm trên bảng thông số kỹ thuật, giờ đây, Teraflop đã trở thành một xu hướng chủ đạo, xuất hiện trong các thông điệp tiếp thị cho những chiếc console, chẳng hạn như Xbox Series X.
Với số lượng nhân GPU đạt đến 5 con số, thật tuyệt khi chúng ta có những số điểm để tiện bề so sánh. Và Teraflop xuất hiện vì mục đích đó. Thuật ngữ Teraflop bắt nguồn từ FLOPs, hoặc "floating-point operations per second", có nghĩa là "số lượng phép tính liên quan đến các dấu chấm động trên một giây". Tera có nghĩa là nghìn tỉ, ghép cả 2 lại, teraflops có nghĩa là "nghìn tỉ phép toán dấu chấm động mỗi giây".
Chiếc GPU phổ biến nhất đối với người dùng Steam hiện nay, đó là NVIDIA GTX 1060, hiện có khả năng thực hiện 4,4 teraflops, trong khi đó RTX 2080Ti "sắp bị soán ngôi" có thể xử lý khoảng 13,5 teraflops, và con số này của Xbox Series X lại là 12 teraflops. Những con số này được tính bằng cách lấy số nhân shader trong một con chip nhân với tốc độ xung nhịp cao nhất của card đồ họa, sau đó nhân kết quả với số lệnh trên mỗi xung nhịp. Trái ngược với nhiều số liệu chúng ta thấy trong PC, đó là một phép tính công bằng và minh bạch, nhưng điều đó không giúp nó trở thành một thước đo tốt về hiệu năng chơi game.
Ví dụ, GPU AMD RX580 ra mắt từ năm 2017 với 6,17 teraflop có hiệu năng tương tự RX 5500, vốn có 5,2 teraflop vừa được tung ra hồi năm ngoái. Loại cải thiện "ẩn" này có thể xuất phát từ nhiều yếu tố, từ những thay đổi về kiến trúc cho đến việc nhiều nhà phát triển game tận dụng các tính năng mới, nhưng hầu hết mọi dòng GPU đều nhận được những lợi ích về thế hệ này. Đó là lý do tại sao, Xbox Series X (chẳng hạn) lại vượt trội hơn Xbox One X bởi con số "12 teraflop lớn hơn rất nhiều so với 6 teraflop. Điều tương tự cũng xảy ra với PS5 và PS4 Pro.
Vấn đề là, ngay cả cùng 1 công ty GPU, cứ mỗi năm, các con chip và game được thiết kế để giúp chúng ta nhận thức rõ được "teraflop" có ý nghĩa gì đối với hiệu năng chơi game. So sánh giữa một card đồ họa của AMD và NVIDIA thuộc bất kỳ thế hệ nào, điều này thậm chí còn cho thấy giá trị của nó còn ít hơn.
Tất cả những điều đó đưa chúng ta đến với dòng GPU RTX 3000 mới của NVIDIA. Chúng thực sự có thông số kĩ thuật "gây sốc". RTX 3070 với giá bán 500 USD sở hữu 5.888 nhân CUDA (tên gọi nhân shader của NVIDIA), mang đến sức mạnh 20 teraflops. Còn chiếc card flagship RTX 3090 thì sao? Chính xác, nó có 10.496 nhân CUDA với 36 teraflops. Để dễ hình dung, RTX 2080 Ti, chiếc card đồ họa "tiêu dùng" tốt nhất hiện nay, được trang bị 4.352 "nhân CUDA". Rốt cuộc, NVIDIA đã tăng số lượng nhân trong flagship lên hơn 140% và 160% đối với sức mạnh teraflops.
Những chiếc card NVIDIA được cấu tạo từ nhiều "bộ đa xử lý stream" hay "streaming multiprocessors", (viết tắt là SM). Mỗi chiếc RTX 2080 Ti chứa 68 SM "Turing", cùng 64 nhân CUDA "FP32" dành riêng cho phép toán dấu chấm động và 64 nhân "INT32" dành riêng cho phép toán số nguyên.
Cải tiến lớn trong SM Turing, ngoài AI và tăng tốc dò tia (ray-tracing), đó chính là khả năng thực hiện đồng thời phép toán số nguyên và dấu chấm động. Đây là một thay đổi đáng kể so với thế hệ trước, Pascal, vốn sẽ chuyển đổi các nhân giữa số nguyên và dấm chấm động trên cơ sở một trong hai.
Những chiếc card RTX 3000 được xây dựng trên một kiến trúc mà NVIDIA gọi là "Ampere", và SM của nó tận dụng cả phương pháp Pascal lẫn Turing. Ampere vẫn giữ 64 nhân FP32 như trước đó, nhưng 64 nhân còn lại là sự kết hợp giữa "FP32 và INT32". Thế nên, một nửa các nhân Ampere được dành riêng cho dấu chấm động, nhưng nửa còn lại có thể thực hiện các phép toán dấu chấm động hoặc số nguyên, giống như trong Pascal.
Với sự thay đổi này, NVIDIA xác định mỗi SM chứa 128 nhân FP32, thay vì con số 64 có trên Turing. "5.888 nhân CUDA" của 3070 có lẽ được mô tả tốt hơn "2.944 nhân CUDA, và 2.944 nhân đó chỉ là CUDA".
Khi các tựa game ngày càng trở nên phức tạp hơn, nhiều nhà phát triển đã bắt đầu tập trung nhiều hơn vào số nguyên. Một trang trình bày của NVIDIA từ hồi ra mắt dòng RTX vào năm 2018 cho thấy, trung bình, phép toán số nguyên tạo nên khoảng 1/4 hoạt động của GPU trong game.
Nhược điểm của SM Turing là khả năng sử dụng kém. Chẳng hạn, nếu workload có 25% là phép toán số nguyên, thì khoảng 1/4 nhân của GPU có thể ngồi im đó và chẳng làm gì. Đó là ý tưởng đằng sau cấu trúc bán hợp nhất mới này. Trên lý thuyết, nó có rất nhiều ý nghĩa: bạn vẫn có thể chạy đồng thời các phép toán số nguyên và dấu chấm động, nhưng khi những nhân số nguyên đó không hoạt động, thay vì chỉ ngồi im, chúng sẽ thực hiện phép toán dấu chấm động.
Tại buổi ra mắt RTX 3000 của NVIDIA, CEO Jensen Huang cho biết rằng, RTX 3070 "mạnh hơn so với RTX 2080 Ti". Để mang lại điều đó, NVIDIA đã kết hợp thiết kế của Ampere, khả năng xử lý số nguyên, dấu chấm động, tốc độ xung nhịp và teraflops. Trong workload "25% số nguyên đó", 4.416 nhân trong số đó có thể chạy phép toán FP32, với 1.472 nhân xử lý INT32 khi cần thiết.
Cùng với tất cả những thay đổi khác mà Ampere mang lại, RTX 3070 có thể vượt trội hơn 10% so với RTX 2080 Ti, giả sử game không quan trọng 8GB VRAM thay vì 11GB trong quá trình hoạt động. Trong trường hợp xấu nhất (và rất khó xảy ra), nơi workload phụ thuộc nhiều vào số nguyên, nó có thể hoạt động tương tự RTX 2080. Mặt khác, nếu một game yêu cầu rất ít phép toán số nguyên, thì khả năng cao, RTX 3070 sẽ vượt mặt RTX 2080 Ti.
Gạt những phỏng đoán qua một bên, một video từ Digital Foundry (DF) đã cho chúng ta thấy sự khác biệt RTX 3080 và RTX 2080 to lớn như thế nào. DF đã nhận thấy mức tăng 70% - 90% thế hệ trong một số game mà NVIDIA đã thử nghiệm, và khoảng cách về hiệu năng này còn cao hơn khi các tựa game sử dụng những tính năng của RTX, chẳng hạn như dò tia. Bạn sẽ nhận thấy sự khác biệt này khi thực hiện các tác vụ nặng về đồ họa, tuy nhiên, những con số teraflops rất khó để chúng ta hình dung, khoảng cách đó như thế nào.
Khi những chiếc card đồ họa RTX 3000 đầu tiên cập bến trong vài tuần nữa, bạn sẽ thấy nhiều bài đánh giá chúng, giúp chúng ta thấy kiến trúc Ampere mạnh mẽ như thế nào so với thế hệ đàn anh. Với những thông tin từ NVIDIA như vậy, Ampere rõ ràng là một nước tiến ngoạn mục cho việc chơi game trên PC. Chiếc card RTX 3070 499 USD có hiệu năng vượt qua cả flagship RTX 2080 Ti hiện tại, và RTX 3080 799 USD lại mang đến hiệu năng quá đủ đối với những ai luôn chờ đợi phiên bản "Ti". Và một điều rõ ràng rằng, giá trị của chúng không còn có thể được biểu thị bằng một con số khó mường tượng như teraflops.
Với số lượng nhân GPU đạt đến 5 con số, thật tuyệt khi chúng ta có những số điểm để tiện bề so sánh. Và Teraflop xuất hiện vì mục đích đó. Thuật ngữ Teraflop bắt nguồn từ FLOPs, hoặc "floating-point operations per second", có nghĩa là "số lượng phép tính liên quan đến các dấu chấm động trên một giây". Tera có nghĩa là nghìn tỉ, ghép cả 2 lại, teraflops có nghĩa là "nghìn tỉ phép toán dấu chấm động mỗi giây".
Chiếc GPU phổ biến nhất đối với người dùng Steam hiện nay, đó là NVIDIA GTX 1060, hiện có khả năng thực hiện 4,4 teraflops, trong khi đó RTX 2080Ti "sắp bị soán ngôi" có thể xử lý khoảng 13,5 teraflops, và con số này của Xbox Series X lại là 12 teraflops. Những con số này được tính bằng cách lấy số nhân shader trong một con chip nhân với tốc độ xung nhịp cao nhất của card đồ họa, sau đó nhân kết quả với số lệnh trên mỗi xung nhịp. Trái ngược với nhiều số liệu chúng ta thấy trong PC, đó là một phép tính công bằng và minh bạch, nhưng điều đó không giúp nó trở thành một thước đo tốt về hiệu năng chơi game.
Ví dụ, GPU AMD RX580 ra mắt từ năm 2017 với 6,17 teraflop có hiệu năng tương tự RX 5500, vốn có 5,2 teraflop vừa được tung ra hồi năm ngoái. Loại cải thiện "ẩn" này có thể xuất phát từ nhiều yếu tố, từ những thay đổi về kiến trúc cho đến việc nhiều nhà phát triển game tận dụng các tính năng mới, nhưng hầu hết mọi dòng GPU đều nhận được những lợi ích về thế hệ này. Đó là lý do tại sao, Xbox Series X (chẳng hạn) lại vượt trội hơn Xbox One X bởi con số "12 teraflop lớn hơn rất nhiều so với 6 teraflop. Điều tương tự cũng xảy ra với PS5 và PS4 Pro.
Vấn đề là, ngay cả cùng 1 công ty GPU, cứ mỗi năm, các con chip và game được thiết kế để giúp chúng ta nhận thức rõ được "teraflop" có ý nghĩa gì đối với hiệu năng chơi game. So sánh giữa một card đồ họa của AMD và NVIDIA thuộc bất kỳ thế hệ nào, điều này thậm chí còn cho thấy giá trị của nó còn ít hơn.
Tất cả những điều đó đưa chúng ta đến với dòng GPU RTX 3000 mới của NVIDIA. Chúng thực sự có thông số kĩ thuật "gây sốc". RTX 3070 với giá bán 500 USD sở hữu 5.888 nhân CUDA (tên gọi nhân shader của NVIDIA), mang đến sức mạnh 20 teraflops. Còn chiếc card flagship RTX 3090 thì sao? Chính xác, nó có 10.496 nhân CUDA với 36 teraflops. Để dễ hình dung, RTX 2080 Ti, chiếc card đồ họa "tiêu dùng" tốt nhất hiện nay, được trang bị 4.352 "nhân CUDA". Rốt cuộc, NVIDIA đã tăng số lượng nhân trong flagship lên hơn 140% và 160% đối với sức mạnh teraflops.
Những chiếc card NVIDIA được cấu tạo từ nhiều "bộ đa xử lý stream" hay "streaming multiprocessors", (viết tắt là SM). Mỗi chiếc RTX 2080 Ti chứa 68 SM "Turing", cùng 64 nhân CUDA "FP32" dành riêng cho phép toán dấu chấm động và 64 nhân "INT32" dành riêng cho phép toán số nguyên.
Cải tiến lớn trong SM Turing, ngoài AI và tăng tốc dò tia (ray-tracing), đó chính là khả năng thực hiện đồng thời phép toán số nguyên và dấu chấm động. Đây là một thay đổi đáng kể so với thế hệ trước, Pascal, vốn sẽ chuyển đổi các nhân giữa số nguyên và dấm chấm động trên cơ sở một trong hai.
Những chiếc card RTX 3000 được xây dựng trên một kiến trúc mà NVIDIA gọi là "Ampere", và SM của nó tận dụng cả phương pháp Pascal lẫn Turing. Ampere vẫn giữ 64 nhân FP32 như trước đó, nhưng 64 nhân còn lại là sự kết hợp giữa "FP32 và INT32". Thế nên, một nửa các nhân Ampere được dành riêng cho dấu chấm động, nhưng nửa còn lại có thể thực hiện các phép toán dấu chấm động hoặc số nguyên, giống như trong Pascal.
Với sự thay đổi này, NVIDIA xác định mỗi SM chứa 128 nhân FP32, thay vì con số 64 có trên Turing. "5.888 nhân CUDA" của 3070 có lẽ được mô tả tốt hơn "2.944 nhân CUDA, và 2.944 nhân đó chỉ là CUDA".
Khi các tựa game ngày càng trở nên phức tạp hơn, nhiều nhà phát triển đã bắt đầu tập trung nhiều hơn vào số nguyên. Một trang trình bày của NVIDIA từ hồi ra mắt dòng RTX vào năm 2018 cho thấy, trung bình, phép toán số nguyên tạo nên khoảng 1/4 hoạt động của GPU trong game.
Nhược điểm của SM Turing là khả năng sử dụng kém. Chẳng hạn, nếu workload có 25% là phép toán số nguyên, thì khoảng 1/4 nhân của GPU có thể ngồi im đó và chẳng làm gì. Đó là ý tưởng đằng sau cấu trúc bán hợp nhất mới này. Trên lý thuyết, nó có rất nhiều ý nghĩa: bạn vẫn có thể chạy đồng thời các phép toán số nguyên và dấu chấm động, nhưng khi những nhân số nguyên đó không hoạt động, thay vì chỉ ngồi im, chúng sẽ thực hiện phép toán dấu chấm động.
Tại buổi ra mắt RTX 3000 của NVIDIA, CEO Jensen Huang cho biết rằng, RTX 3070 "mạnh hơn so với RTX 2080 Ti". Để mang lại điều đó, NVIDIA đã kết hợp thiết kế của Ampere, khả năng xử lý số nguyên, dấu chấm động, tốc độ xung nhịp và teraflops. Trong workload "25% số nguyên đó", 4.416 nhân trong số đó có thể chạy phép toán FP32, với 1.472 nhân xử lý INT32 khi cần thiết.
Cùng với tất cả những thay đổi khác mà Ampere mang lại, RTX 3070 có thể vượt trội hơn 10% so với RTX 2080 Ti, giả sử game không quan trọng 8GB VRAM thay vì 11GB trong quá trình hoạt động. Trong trường hợp xấu nhất (và rất khó xảy ra), nơi workload phụ thuộc nhiều vào số nguyên, nó có thể hoạt động tương tự RTX 2080. Mặt khác, nếu một game yêu cầu rất ít phép toán số nguyên, thì khả năng cao, RTX 3070 sẽ vượt mặt RTX 2080 Ti.
Gạt những phỏng đoán qua một bên, một video từ Digital Foundry (DF) đã cho chúng ta thấy sự khác biệt RTX 3080 và RTX 2080 to lớn như thế nào. DF đã nhận thấy mức tăng 70% - 90% thế hệ trong một số game mà NVIDIA đã thử nghiệm, và khoảng cách về hiệu năng này còn cao hơn khi các tựa game sử dụng những tính năng của RTX, chẳng hạn như dò tia. Bạn sẽ nhận thấy sự khác biệt này khi thực hiện các tác vụ nặng về đồ họa, tuy nhiên, những con số teraflops rất khó để chúng ta hình dung, khoảng cách đó như thế nào.
Khi những chiếc card đồ họa RTX 3000 đầu tiên cập bến trong vài tuần nữa, bạn sẽ thấy nhiều bài đánh giá chúng, giúp chúng ta thấy kiến trúc Ampere mạnh mẽ như thế nào so với thế hệ đàn anh. Với những thông tin từ NVIDIA như vậy, Ampere rõ ràng là một nước tiến ngoạn mục cho việc chơi game trên PC. Chiếc card RTX 3070 499 USD có hiệu năng vượt qua cả flagship RTX 2080 Ti hiện tại, và RTX 3080 799 USD lại mang đến hiệu năng quá đủ đối với những ai luôn chờ đợi phiên bản "Ti". Và một điều rõ ràng rằng, giá trị của chúng không còn có thể được biểu thị bằng một con số khó mường tượng như teraflops.
Theo Vn review