Inizio / Confronto GPU / NVIDIA Tesla K80 o NVIDIA Tesla P40: Cosa c'è di meglio?

NVIDIA Tesla K80

vs

NVIDIA Tesla P40

Confronto tra schede video NVIDIA Tesla K80 vs NVIDIA Tesla P40

Risultato del confronto GPU

NVIDIA Tesla K80 vs Tesla P40: 24 GB identici, ma possibilità diverse

NVIDIA Tesla K80 e Tesla P40 possono facilmente essere scambiate per acceleratori simili: entrambe le schede sono dotate di 24 GB di memoria GDDR5, utilizzano un raffreddamento passivo e sono progettate per l'installazione nei server. Tuttavia, la K80 è un modello dual-GPU dell'epoca Kepler, progettato principalmente per calcoli scientifici, mentre la più recente P40 è orientata verso FP32 e inferenza di reti neurali. Nella maggior parte dei compiti moderni, la P40 è più veloce e comoda, tuttavia la K80 conserva un importante vantaggio: le prestazioni FP64.

La principale differenza è nella memoria

La Tesla K80 combina due processori grafici GK210. Ogni GPU ha accesso a 12 GB di memoria e funziona come un dispositivo CUDA separato. I 24 GB di cui si parla nelle specifiche non possono essere utilizzati come un unico framebuffer video: un'attività di solito è limitata a 12 GB, a meno che il programma non sia in grado di distribuire i dati tra più GPU.

Anche con il supporto di due acceleratori, alcune informazioni possono essere duplicate nella memoria di entrambi i chip. Pertanto, la configurazione K80 non è adatta a tutti i carichi di lavoro computazionali.

La Tesla P40 è più semplice: un processore GP102 ha accesso a tutti i 24 GB. Questo è più significativo della differenza formale nel numero di core CUDA. Un modello di grandi dimensioni o un set di dati possono adattarsi interamente nella memoria di una singola GPU senza dover dividere manualmente l'attività.

Differenza chiave	Tesla K80	Tesla P40
Architettura	Kepler	Pascal
Configurazione	2 × GK210	1 × GP102
Memoria	2 × 12 GB GDDR5	24 GB GDDR5
CUDA-core	4992 in totale	3840
FP32	fino a 8,73 Tflops	fino a 12 Tflops
FP64	fino a 2,91 Tflops	circa 0,37 Tflops
INT8	Senza modalità specializzata	fino a 47 TOPS
Larghezza di banda della memoria	480 GB/s in totale	346 GB/s
Consumo energetico	300 W	250 W

I valori totali della K80 richiedono anche un'interpretazione attenta. I suoi 4992 core CUDA, 480 GB/s di larghezza di banda e i picchi di teraflops sono divisi tra le due GPU. Se un'applicazione utilizza solo un GK210, le risorse effettive si riducono quasi della metà.

FP32 e reti neurali: vittoria sicura per la P40

Nei calcoli a precisione singola, la Tesla P40 raggiunge i 12 Tflops, mentre i massimi 8,73 Tflops della K80 sono il risultato della somma di due processori e dipendono dalla modalità GPU Boost.

Nella pratica, il vantaggio della P40 risulta spesso ancora più evidente. Il programma non deve sincronizzare due GPU, scambiarsi dati tra di loro e gestire matrici di memoria separate. Se l'applicazione non si scalda bene su più acceleratori, alcune risorse della K80 resteranno non utilizzate.

Per l'inferenza, la P40 ha un ulteriore argomento serio: la modalità INT8 con prestazioni fino a 47 TOPS. NVIDIA ha posizionato questa scheda come acceleratore di inferenza server, progettato per lavorare con TensorRT. La K80 è comparsa prima della transizione di massa delle reti neurali ai calcoli a bassa precisione e non offre un corrispondente regime INT8.

La P40 non ha core tensor, e quindi, in termini di velocità dei modelli moderni, risulta notevolmente inferiore agli acceleratori delle generazioni Volta, Turing e successive. Tuttavia, all'interno di questa coppia, la P40 è migliore per l'inferenza locale e altri compiti di machine learning.

FP64: principale vantaggio della K80

La Tesla K80 è stata progettata per calcoli scientifici ad alte prestazioni, quindi l'architettura GK210 ha ottenuto blocchi avanzati di precisione doppia. Con entrambi i processori attivi, la scheda offre fino a 2,91 Tflops FP64 - quasi quanto i sistemi server moderni si aspettavano da un acceleratore HPC specializzato.

Il GP102 in uso nella P40 è stato progettato con un'altra priorità. Il suo punto forte sono le operazioni FP32 e intere, e le prestazioni FP64 ammontano a solo circa un trentesimo rispetto a FP32, cioè circa 0,37 Tflops. Architettonicamente, il GP102 è simile al GP104, e non al GP100 computazionale con blocchi potenziati di precisione doppia.

Pertanto, la K80 può ancora risultare più interessante in compiti in cui l'FP64 è realmente necessario:

modellazione numerica;
dinamica molecolare;
idrodinamica computazionale;
applicazioni ingegneristiche e scientifiche CUDA;
progetti più vecchi ottimizzati per più GPU Kepler.

Ma questo vantaggio funziona solo con programmi in grado di caricare entrambi i processori. Un GK210 dispone solo di 12 GB di memoria e circa la metà della potenza computazionale totale della K80.

Driver e compatibilità software

Il stack software è diventato uno dei principali limiti della K80. NVIDIA ha fissato il ramo R470 come l'ultimo a supportare gli acceleratori server Kepler. Le nuove versioni dei driver e di CUDA non sono più progettate per questa architettura, quindi per la K80 è spesso necessario utilizzare sistemi operativi obsoleti, librerie o container.

La situazione della P40 è migliore. Nel 2026 sarà ancora presente nell'elenco delle GPU supportate dai moderni driver NVIDIA Data Center, tra cui i rami R580 e R582. Questo non rende Pascal una nuova architettura, ma semplifica notevolmente l'installazione di un driver aggiornato e il lancio di un ambiente CUDA relativamente recente.

Con la virtualizzazione, la situazione è più severa: l'assistenza alla Tesla P40 come parte di NVIDIA vGPU è giunta all'ultima fase, e la fine del supporto per la manutenzione è prevista per luglio 2026. Pertanto, acquistare una P40 appositamente per un nuovo server vGPU commerciale non è più sensato, anche se i driver di calcolo normali continuano a supportarla.

Installazione nella workstation

Entrambe le schede sono dotate di dissipatori passivi e si aspettano un forte flusso d'aria diretto all'interno del server. In un case normale è necessario un ventilatore separato o un condotto: la ventilazione naturale non è sufficiente per acceleratori con un consumo energetico di 250-300 W.

La K80 e la P40 non hanno uscite video, quindi è necessario collegare il monitor alla grafica integrata o a una scheda video separata. È anche necessario verificare il tipo di connettore e il pinout di alimentazione: le Tesla server non possono essere collegate senza verifica con un normale cavo di una scheda video da gioco.

La P40 qui è più pratica non solo per via delle prestazioni, ma anche grazie a un minore consumo energetico: 250 W contro 300 W della K80.

Conclusione: Tesla K80 o Tesla P40

La Tesla P40 è la scelta preferita per la maggior parte dei compiti. Offre 24 GB di memoria unici, una velocità FP32 più elevata, supporto INT8, un minor consumo energetico e una compatibilità software notevolmente più moderna. La P40 è più adatta per inferenza, rendering CUDA e applicazioni che richiedono più di 12 GB di memoria su una singola GPU.

La Tesla K80 ha senso solo in una ristretta nicchia FP64. È in grado di superare significativamente la P40 in calcoli scientifici a doppia precisione, ma richiede software che supporti due GPU, un vecchio ramo di driver e un raffreddamento più complesso.

Non ha senso acquistare la K80 per i formali 24 GB o un gran numero di core CUDA. Se il compito non si basa su FP64 e non è ottimizzato per due processori Kepler, la Tesla P40 risulterà più veloce, più semplice e più pratica.

Vantaggi

NVIDIA Tesla P40

Più alto Boost Clock: 1531MHz (824MHz vs 1531MHz)
Più grandi Dimensione memoria: 24GB (12GB vs 24GB)
Più alto Larghezza di banda: 694.3 GB/s (240.6 GB/s vs 694.3 GB/s)
Più Unità di ombreggiatura: 3840 (2496 vs 3840)
Più nuovo Data di rilascio: September 2016 (November 2014 vs September 2016)

Di base

NVIDIA

Nome dell'etichetta

NVIDIA

November 2014

Data di rilascio

September 2016

Professional

Piattaforma

Professional

Tesla K80

Nome del modello

Tesla P40

Tesla

Generazione

Tesla Pascal

562MHz

Clock base

1303MHz

824MHz

Boost Clock

1531MHz

PCIe 3.0 x16

Interfaccia bus

PCIe 3.0 x16

7,100 million

Transistor

11,800 million

208

TMUs

Le unità di mappatura texture (TMUs) servono come componenti della GPU, in grado di ruotare, scalare, distorcere immagini binarie e poi posizionarle come texture su qualsiasi piano di un dato modello 3D. Questo processo è chiamato mappatura texture.

240

TSMC

Fonderia

TSMC

28 nm

Dimensione del processo

16 nm

Kepler 2.0

Architettura

Pascal

Specifiche della memoria

12GB

Dimensione memoria

24GB

GDDR5

Tipo di memoria

GDDR5X

384bit

Bus memoria

La larghezza del bus di memoria si riferisce al numero di bit di dati che la memoria video può trasferire in un singolo ciclo di clock. Maggiore è la larghezza del bus, maggiore è la quantità di dati che può essere trasmessa istantaneamente. La larghezza del bus di memoria è un parametro cruciale della memoria video. La larghezza di banda della memoria si calcola così: Larghezza di banda della memoria = Frequenza della memoria x Larghezza del bus di memoria / 8.

384bit

1253MHz

Clock memoria

1808MHz

240.6 GB/s

Larghezza di banda

La larghezza di banda della memoria si riferisce alla velocità di trasferimento dati tra il chip grafico e la memoria video. Si misura in byte al secondo e la formula per calcolarla è: larghezza di banda della memoria = frequenza di lavoro × larghezza del bus di memoria / 8 bit.

694.3 GB/s

Display e multimedia

No outputs

Uscite

No outputs

Prestazioni teoriche

42.85 GPixel/s

Tasso di pixel

Il tasso di riempimento dei pixel si riferisce al numero di pixel che una unità di elaborazione grafica (GPU) può renderizzare al secondo, misurato in MPixel/s o GPixel/s. È la metrica più comunemente usata per valutare le prestazioni di elaborazione dei pixel di una scheda grafica.

147.0 GPixel/s

171.4 GTexel/s

Tasso di texture

Il tasso di riempimento della texture si riferisce al numero di elementi di mappa texture (texel) che una GPU può mappare su pixel in un secondo.

367.4 GTexel/s

FP16 (metà)

Una metrica importante per misurare le prestazioni della GPU è la capacità di calcolo in virgola mobile. I numeri in virgola mobile a metà precisione (16 bit) vengono utilizzati per applicazioni come l'apprendimento automatico, dove è accettabile una precisione inferiore.

183.7 GFLOPS

1371 GFLOPS

FP64 (doppio)

Una metrica importante per misurare le prestazioni della GPU è la capacità di calcolo in virgola mobile. I numeri in virgola mobile a doppia precisione (64 bit) sono richiesti per il calcolo scientifico che richiede un'ampia gamma numerica e un'alta precisione.

367.4 GFLOPS

4.195 TFLOPS

FP32 (virgola mobile)

Una metrica importante per misurare le prestazioni della GPU è la capacità di calcolo in virgola mobile. I numeri a virgola mobile a precisione singola (32 bit) vengono utilizzati per attività comuni di elaborazione grafica e multimediale, mentre i numeri a virgola mobile a precisione doppia (64 bit) sono necessari per il calcolo scientifico che richiede un'ampia gamma numerica e un'elevata precisione. I numeri a virgola mobile a mezza precisione (16 bit) vengono utilizzati per applicazioni come l'apprendimento automatico, dove è accettabile una precisione inferiore.

11.995 TFLOPS

Varie

Conteggio SM

Più processori di streaming (SP), insieme ad altre risorse, formano un multiprocessore di streaming (SM), che è anche considerato come il nucleo principale di una GPU. Queste risorse aggiuntive includono componenti come i programmi di schedulazione warp, i registri e la memoria condivisa.

2496

Unità di ombreggiatura

L'unità di elaborazione più fondamentale è il processore di streaming (SP), dove vengono eseguite istruzioni e compiti specifici. Le GPU eseguono il calcolo parallelo, il che significa che più SP lavorano contemporaneamente per elaborare i compiti.

3840

16 KB (per SMX)

Cache L1

48 KB (per SM)

1536KB

Cache L2

3MB

300W

TDP

250W

1.1

Versione Vulkan

Vulkan è un'API di grafica e calcolo multipiattaforma di Khronos Group, che offre prestazioni elevate e un basso sovraccarico della CPU. Consente agli sviluppatori di controllare direttamente la GPU, riduce il sovraccarico del rendering e supporta processori multi-threading e multi-core.

1.3

3.0

Versione OpenCL

3.0

4.6

OpenGL

4.6

3.7

CUDA

6.1

12 (11_1)

DirectX

12 (12_1)

1x 8-pin

Connettori di alimentazione

8-pin EPS

ROPs

Il raster operations pipeline (ROPs) si occupa principalmente di gestire i calcoli di illuminazione e riflessione nei giochi, così come gestire effetti come l'anti-aliasing (AA), l'alta risoluzione, il fumo e il fuoco. Più esigenti sono gli effetti di anti-aliasing e illuminazione in un gioco, più alte sono le prestazioni richieste per i ROPs.

5.1

Modello Shader

6.7

700W

PSU suggerito

600W