該資源由Microway根據NVIDIA和可信媒體來源提供的數據編寫。 所有NVIDIA GPU都支持通用計算(GPGPU),但并非所有GPU都提供相同的性能或支持相同的功能。GeForce GPU的消費者產品線(特別是GTX Titan)可能對那些運行GPU加速應用程序的人很有吸引力。但是,記住產品之間的差異是明智的。專業的Tesla和Quadro GPU有許多功能。
成都創新互聯公司是一家專業從事網站設計、網站制作、網頁設計的品牌網絡公司。如今是成都地區具影響力的網站設計公司,作為專業的成都網站建設公司,成都創新互聯公司依托強大的技術實力、以及多年的網站運營經驗,為您提供專業的成都網站建設、營銷型網站建設及網站設計開發服務!
許多應用需要更高精度的數學計算。在這些應用程序中,數據由兩倍大的值表示(使用64位二進制位而不是32位)。這些較大的值稱為雙精度(64位)。不太準確的值稱為單精度(32位)。雖然幾乎所有NVIDIA GPU產品都支持單精度和雙精度計算,但在大多數消費級GeForce GPU上,雙精度值的性能要低得多。以下是GeForce和Tesla / Quadro GPU之間雙精度浮點計算性能的比較:
NVIDIA GPU模型 | 雙精度(64位)浮點性能 |
---|---|
GeForce GTX Titan X Maxwell | 高達0.206 TFLOPS |
GeForce GTX 1080 Ti | 高達0.355 TFLOPS |
GeForce Titan Xp | 高達0.380 TFLOPS |
GeForce Titan V. | 高達6.875 TFLOPS |
GeForce RTX 2080 Ti | 估計~0.44 TFLOPS |
特斯拉K80 | 1.87+ TFLOPS |
特斯拉P100 * | 4.7~5.3 TFLOPS |
Quadro GP100 | 5.2 TFLOPS |
特斯拉V100 * | 7~7.8 TFLOPS |
Quadro GV100 | 7.4 TFLOPS |
Quadro RTX 6000和8000 | ~0.5 TFLOPS |
特斯拉T4 | 估計~0.25 TFLOPS |
*確切的值取決于PCI-Express或SXM2 SKU
一些應用程序不需要高精度(例如,神經網絡訓練/推理和某些HPC使用)。在“Pascal”GPU中 引入了對半精度FP16操作的支持。這是以前深度學習/人工智能計算的標準; 但是,深度學習工作負載已轉移到更復雜的操作(請參閱下面的TensorCores)。盡管所有NVIDIA“Pascal”和后來的GPU都支持FP16,但在許多以游戲為中心的GPU上,性能顯著降低。以下是GeForce和Tesla / Quadro GPU之間半精度浮點計算性能的比較:
NVIDIA GPU模型 | 半精度(16位)浮點性能 |
---|---|
GeForce GTX Titan X Maxwell | N / A |
GeForce GTX 1080 Ti | 小于0.177 TFLOPS |
GeForce Titan Xp | 小于0.190 TFLOPS |
GeForce Titan V. | ~27.5 TFLOPS |
GeForce RTX 2080 Ti | 28.5 TFLOPS |
特斯拉K80 | N / A |
特斯拉P100 * | 18.7~21.2 TFLOPS * |
Quadro GP100 | 20.7 TFLOPS |
特斯拉V100 * | 28~31.4 TFLOPS * |
Quadro GV100 | 29.6 TFLOPS |
Quadro RTX 6000和8000 | 32.6 TFLOPS |
特斯拉T4 | 16.2 TFLOPS |
*確切的值取決于PCI-Express或SXM2 SKU
一個新的專業的Tensor Core單元與“Volta”GPU一起推出。它將兩個FP16單元(轉換為全精度產品)與FP32累加運算相結合 - 這是深度學習訓練計算中使用的精確操作。NVIDIA現在通過一種新的深度學習性能指標測量Tensor Core的GPU:一個名為TensorTFLOPS的新單元。
Tensor Core僅適用于“Volta”GPU或更新版本。作為參考,如果沒有TensorFLOPS值,我們將以任何精度提供最大的已知深度學習性能。我們認為,比較不同精度之間的表現是非常差的科學方法; 然而,我們也認識到希望在不同代GPU的深度學習性能之間至少看到一個數量級的性能比較。
NVIDIA GPU模型 | TensorFLOPS (或最大DL性能) |
---|---|
GeForce GTX Titan X Maxwell | N / A TensorTFLOPS, ~6.1 TFLOPS FP32 |
GeForce GTX 1080 Ti | N / A TensorTFLOPS, ~11.3 TFLOPS FP32 |
GeForce Titan Xp | N / A TensorTFLOPS, ~12.1 TFLOPS FP32 |
GeForce Titan V. 110 | TensorTFLOPS |
GeForce RTX 2080 Ti | 56.9 TensorTFLOPS 455.4 TOPS, INT4用于推理 |
特斯拉K80 | N / A TensorTFLOPS ,5.6 TFLOPS FP32 |
特斯拉P100 * | N / A TensorTFLOPS ,18.7~21.2 TFLOPS FP16 |
Quadro GP100 | N / A TensorTFLOPS ,20.7 TFLOPS FP16 |
特斯拉V100 * | 112~125 TensorTFLOPS |
Quadro GV100 | 118.5 TensorTFLOPS |
Quadro RTX 6000和8000 | 130.5 TensorTFLOPS 522 TOPS, INT4用于推理 |
特斯拉T4 | 65 TensorTFLOPS 260 TOPS, INT4用于推理 |
*確切的值取決于PCI-Express或SXM2 SKU
在運行計算機游戲的GPU上,一個存儲器錯誤通常不會引起任何問題(例如,一幀的一個像素顏色可能不正確)。用戶甚至不太可能意識到這個問題。但是,技術計算應用程序依賴于GPU返回的數據的準確性。對于某些應用程序,單個錯誤可能導致嚴重且明顯的錯誤。對于其他人來說,單比特位錯誤可能不容易檢測(返回看似合理的錯誤結果)。Titan GPU不包括糾錯或錯誤檢測功能。如果發生錯誤,GPU和系統都不會警告用戶錯誤。用戶可以檢測錯誤(它們是否會導致應用程序崩潰,明顯錯誤的數據,或者是不明顯的錯誤數據)。這些問題并不少見 - 我們的技術人員經常在消費者游戲GPU上遇到內存錯誤。NVIDIA Tesla GPU能夠糾正單比特錯誤并檢測和警告雙比特錯誤。在最新的Tesla V100,Tesla T4,Tesla P100和Quadro GV100 / GP100 GPU上,ECC支持包含在主HBM2內存中,以及寄存器文件,共享內存,L1緩存和L2緩存中。
NVIDIA對GeForce GPU產品的保修明確規定GeForce產品不適合安裝在服務器上。在服務器系統中運行GeForce GPU將使GPU的保修失效,用戶自擔風險。來自NVIDIA的制造商保修網站:
保證產品僅供消費者最終用戶使用,不適用于數據中心使用和/或GPU集群商業部署(“企業使用”)。使用保證產品用于企業使用將使本保修失效。
NVIDIA GeForce產品驅動程序軟件附帶的許可協議聲明:
禁止數據中心部署。除了允許數據中心中的區塊鏈處理之外,該軟件未獲得數據中心部署許可。
計算密集型應用程序需要高性能計算單元,但快速訪問數據也很關鍵。對于許多HPC應用程序,除非內存性能也得到改善,否則計算性能的提高無濟于事。因此,Tesla GPU提供比GeForce GPU更好的實際性能:
NVIDIA GPU模型 | GPU內存帶寬 |
---|---|
GeForce GTX Titan X Maxwell | 336 GB / s |
GeForce GTX 1080 Ti | 484 GB / s |
GeForce Titan Xp | 548 GB / s |
GeForce Titan V. | 653 GB / s |
GeForce RTX 2080 Ti | 616 GB / s |
特斯拉K80 | 480 GB / s |
特斯拉P40 | 346 GB / s |
特斯拉P100 12GB | 549 GB / s |
特斯拉P100 16GB | 732 GB / s |
Quadro GP100 | 717 GB / s |
特斯拉V100 16GB / 32GB | 900 GB / s |
Quadro GV100 | 870 GB / s |
Quadro RTX 6000和8000 | 624 GB / s |
特斯拉T4 | 320 GB / s |
通常,系統運行的內存越多,運行的速度就越快。對于某些HPC應用程序,除非有足夠的內存,否則甚至無法執行單次運行。對于其他人來說,除非有足夠的內存,否則結果的質量和保真度會降低。Tesla GPU提供的內存是GeForce GPU的兩倍:
GPU 模型 | 內存容量 |
---|---|
GeForce GTX 1080 Ti | 11GB |
GeForce Titan Xp | 12GB |
GeForce GTX Titan V. | 12GB |
GeForce RTX 2080 Ti | 11GB |
特斯拉K80 | 24GB |
特斯拉P40 | 24GB |
特斯拉P100 | 12GB或16GB * |
Quadro GP100 | 16GB * |
特斯拉V100 | 16GB或32GB * |
Quadro GV100 | 32GB * |
Quadro RTX 6000 | 24GB * |
Quadro RTX 8000 | 48GB * |
特斯拉T4 | 16GB * |
*請注意,特斯拉/ Quadro統一內存允許GPU共享彼此的內存以加載更大的數據集
最大的潛在瓶頸之一是等待數據傳輸到GPU。當多個GPU并行運行時,存在額外的瓶頸。更快的數據傳輸直接導致更快的應用程序性能。GeForce GPU通過PCI-Express連接,其理論峰值吞吐量為16GB / s。配備NVLink的NVIDIA Tesla / Quadro GPU能夠更快地實現連接。NVIDIA的“Pascal”中的NVLink 允許每個GPU以高達80GB / s(160GB / s雙向)的速度進行通信。NVIDIA的“Volta”系列中的NVLink 2.0 允許每個GPU以高達150GB / s(300GB / s雙向)的速度進行通信。GPU之間以及支持的OpenPOWER平臺上的CPU和GPU之間支持NVLink連接。
雖然某些軟件程序能夠在支持CUDA的任何GPU上運行,但其他軟件程序則針對專業GPU系列進行了設計和優化。大多數專業軟件包僅正式支持NVIDIA Tesla和Quadro GPU。使用GeForce GPU是可能的,但軟件供應商不會支持。在其他情況下,在GeForce GPU(例如,Schr?dinger,LLC的軟件產品)上啟動時,應用程序根本不起作用。
雖然NVIDIA的GPU驅動程序非常靈活,但是沒有適用于Windows Server操作系統的GeForce驅動程序。GeForce GPU僅在Windows 7,Windows 8和Windows 10上受支持。使用Windows Server的組應該使用NVIDIA專業的Tesla和Quadro GPU產品。另一方面,Linux驅動程序支持所有NVIDIA GPU。
由于消費者GPU市場的性質,GeForce產品的生命周期相對較短(產品發布和生產結束之間通常不超過一年)。需要更長產品壽命的項目(例如購買后3年以上可能需要更換部件的項目)應使用專業GPU。NVIDIA專業的Tesla和Quadro GPU產品具有延長的生命周期和制造商的長期支持(包括產品生命終結的通知以及停止生產前的最后購買機會)。此外,專業GPU在生產過程中經歷了更徹底的測試和驗證過程。
GeForce GPU適用于消費者游戲,通常不是為提高電源效率而設計的。相比之下,Tesla GPU專為大規模部署而設計,其中功率效率非常重要。這使得Tesla GPU成為大型安裝的更好選擇。例如,GeForce GTX Titan X非常適合桌面深度學習工作負載。在服務器部署中,Tesla P40 GPU提供匹配的性能和雙倍的內存容量。然而,當并排放置時,特斯拉消耗更少的電力并產生更少的熱量。
GPU的直接內存訪問(DMA)引擎允許在系統內存和GPU內存之間進行快速數據傳輸。由于此類傳輸是任何實際應用程序的一部分,因此性能對GPU加速至關重要。緩慢的傳輸導致GPU核心處于空閑狀態,直到數據到達GPU內存。同樣,慢速返回會導致CPU等待,直到GPU完成返回結果。
GeForce產品具有單個DMA引擎*,可以一次傳輸一個方向的數據。如果正在將數據上載到GPU,則在上載完成之前,無法返回由GPU計算的任何結果。同樣,從GPU返回的結果將阻止需要上傳到GPU的任何新數據。Tesla GPU產品采用雙DMA引擎來緩解這一瓶頸。數據可以同時傳輸到GPU和GPU中。
*一個GeForce GPU型號,GeForce GTX Titan X,具有雙DMA引擎
NVIDIA的GPU-Direct技術可以極大地提高GPU之間的數據傳輸速度。各種功能由GPU-Direct保護,但RDMA功能可帶來最大的性能提升。傳統上,在群集的GPU之間發送數據需要3個內存副本(一次到GPU的系統內存,一次到CPU的系統內存,一次到InfiniBand驅動程序的內存)。GPU Direct RDMA刪除系統內存副本,允許GPU直接通過InfiniBand將數據發送到遠程系統。實際上,對于小型MPI消息大小,這減少延遲高達67%,帶寬增加430%[ 1 ]。在CUDA 8.0版中,NVIDIA推出了GPU Direct RDMA ASYNC,允許GPU在不與CPU進行任何交互的情況下啟動RDMA傳輸。
GeForce GPU不支持GPU-Direct RDMA。雖然MPI調用仍將成功返回,但傳輸將通過標準內存復制路徑執行。GeForce卡支持的唯一GPU-Direct形式是GPU Direct Peer-to-Peer(P2P)。這允許在單個計算機內進行快速傳輸,但對于跨多個服務器/計算節點運行的應用程序不執行任何操作。Tesla GPU完全支持GPU Direct RDMA和各種其他GPU Direct功能。它們是這些功能的主要目標,因此在該領域經過最多的測試和使用。
用于MPI和CUDA Streams的Hyper-Q代理允許多個CPU線程或進程在單個GPU上啟動工作。這對于使用MPI編寫的現有并行應用程序尤為重要,因為這些代碼旨在利用多個CPU內核。允許GPU接受系統上運行的每個MPI線程的工作可以提供潛在的顯著性能提升。它還可以減少將GPU加速添加到現有應用程序所需的源代碼重新架構量。但是,GeForce GPU支持的唯一Hyper-Q形式是CUDA Streams的Hyper-Q。這允許GeForce有效地接受并運行來自不同CPU核心的并行計算,但是跨多臺計算機運行的應用程序將無法有效地在GPU上啟動工作。
許多運行狀況監控和GPU管理功能(對于維護多個GPU系統至關重要)僅在專業的Tesla GPU上得到支持。GeForce GPU不支持的健康功能包括:
特征 | Tesla | Geforce |
---|---|---|
產品名稱 | 是 | 是 |
顯示GPU計數 | 是 | 是 |
PCI-Express生成(例如,2.0 vs 3.0) | 是 | - |
PCI-Express鏈接寬度(例如,x4,x8,x16) | 是 | - |
當前風扇速度 | 是 | 是 |
當前溫度 | 是 | 是* |
目前的表現狀況 | 是 | - |
時鐘節流狀態 | 是 | - |
當前GPU使用率(百分比) | 是 | - |
當前內存使用率(百分比) | 是 | 是 |
GPU提升能力 | 是 | 是^ |
ECC錯誤檢測/更正支持 | 是 | - |
列出已退休的頁面 | 是 | - |
目前的權力抽獎 | 是 | - |
設置功率限制 | 是 | - |
當前GPU時鐘速度 | 是 | - |
當前內存時鐘速度 | 是 | - |
顯示可用的時鐘速度 | 是 | - |
顯示可用的內存速度 | 是 | - |
設置GPU提升速度(核心時鐘和內存時鐘) | 是 | - |
顯示當前計算過程 | 是 | - |
卡序列號 | 是 | - |
InfoROM圖像和對象 | 是 | - |
會計能力(每個流程的資源使用) | 是 | - |
PCI-Express ID | 是 | 是 |
NVIDIA驅動程序版本 | 是 | 是 |
NVIDIA VBIOS版本 | 是 | 是 |
*系統平臺無法讀取溫度,這意味著無法調整風扇速度。
^雙精度計算期間禁用GPU Boost。此外,在某些情況下,GeForce時鐘速度將自動降低。
所有最新的NVIDIA GPU產品都支持GPU Boost,但它們的實現方式因預期的使用場景而異。GeForce卡專為交互式桌面使用和游戲而設計。Tesla GPU專為密集,恒定數量的運算而設計,穩定性和可靠性非常高。鑒于這兩個用例之間的差異,GPU Boost在特斯拉上的功能與在GeForce上的不同。
在Geforce的情況下,顯卡會根據GPU的溫度自動確定時鐘速度和電壓。溫度是適當的自變量,因為發熱會影響風扇速度。對于圖形較少的游戲或一般桌面使用,最終用戶可以享受更安靜的計算體驗。然而,在玩需要嚴格GPU計算的游戲時,GPU Boost會自動提高電壓和時鐘速度(也會產生更多噪音)。
另一方面,特斯拉的GPU加速水平也可以通過電壓和溫度來確定,但不總是以這種方式運行。
如果愿意,可以由系統管理員或計算用戶指定增強 - 可以將所需的時鐘速度設置為特定頻率。除了將時鐘速度浮動到各種電平之外,可以靜態地保持期望的時鐘速度,除非達到功耗閾值(TDP)。這是一個重要的考慮因素,因為HPC環境中的加速器通常需要彼此同步。特斯拉GPU增強的可選確定性方面允許系統管理員確定最佳時鐘速度并將其鎖定在所有GPU中。
對于需要額外性能和確定性的應用,可以將最新的Tesla GPU設置為同步升壓組內的自動升壓。啟用組啟用自動增強功能后,每組GPU將在凈空允許時提高時鐘速度。該小組將保持時鐘彼此同步,以確保整個組的匹配性能??梢栽贜VIDIA DCGM工具中設置組。
https://www.microway.com/knowledge-center-articles/comparison-of-nvidia-geforce-gpus-and-nvidia-tesla-gpus/
本文題目:NVIDIATesla/Quadro和GeForceGPU的比較
文章源于:http://vcdvsql.cn/article18/pphhdp.html
成都網站建設公司_創新互聯,為您提供標簽優化、App設計、網站維護、面包屑導航、服務器托管、虛擬主機
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯