Startseite / GPU-Vergleich / NVIDIA Tesla K80 oder NVIDIA Tesla P40: Was ist besser?

NVIDIA Tesla K80

vs

NVIDIA Tesla P40

Grafikkartenvergleich NVIDIA Tesla K80 vs NVIDIA Tesla P40

GPU-Vergleichsergebnis

NVIDIA Tesla K80 vs Tesla P40: gleiche 24 GB, aber unterschiedliche Möglichkeiten

NVIDIA Tesla K80 und Tesla P40 lassen sich leicht als nahe verwandte Beschleuniger identifizieren: Beide Karten sind mit 24 GB GDDR5-Speicher ausgestattet, verwenden passive Kühlung und sind für den Servereinsatz konzipiert. Der K80 ist jedoch ein Dual-GPU-Modell der Kepler-Generation, das in erster Linie für wissenschaftliche Berechnungen entwickelt wurde, während das neuere P40 auf FP32 und die Inferenz von Neuronalen Netzen ausgerichtet ist. In den meisten modernen Anwendungen ist das P40 schneller und praktischer, aber der K80 behält einen wichtigen Vorteil - die FP64-Leistung.

Der Hauptunterschied liegt im Speicher

Der Tesla K80 vereint zwei GK210-Grafikprozessoren. Jeder GPU verfügt über eigene 12 GB Speicher und funktioniert wie ein separates CUDA-Gerät. Die im Datenblatt angegebenen 24 GB können nicht als ein einziger Video-Buffer verwendet werden: Eine Aufgabe ist normalerweise auf 12 GB begrenzt, es sei denn, das Programm kann die Daten auf mehrere GPUs verteilen.

Selbst bei Unterstützung von zwei Beschleunigern kann ein Teil der Informationen im Speicher beider Chips dupliziert werden. Daher eignet sich die K80-Konfiguration nicht für jede Rechenlast.

Die Tesla P40 ist einfacher aufgebaut: Ein GP102-Prozessor hat Zugriff auf alle 24 GB. Das ist wichtiger als die formale Differenz in der Anzahl der CUDA-Kerne. Größere Modelle oder Datensätze können vollständig im Speicher eines einzelnen GPUs untergebracht werden, ohne dass eine manuelle Aufteilung der Aufgabe erforderlich ist.

Schlüsselunterschied	Tesla K80	Tesla P40
Architektur	Kepler	Pascal
Konfiguration	2 × GK210	1 × GP102
Speicher	2 × 12 GB GDDR5	24 GB GDDR5
CUDA-Kerne	4992 insgesamt	3840
FP32	bis zu 8,73 TFlops	bis zu 12 TFlops
FP64	bis zu 2,91 TFlops	etwa 0,37 TFlops
INT8	Ohne speziellen Modus	bis zu 47 TOPS
Speicherbandbreite	480 GB/s insgesamt	346 GB/s
Energieverbrauch	300 W	250 W

Die Gesamtzahlen des K80 erfordern ebenfalls eine vorsichtige Interpretation. Ihre 4992 CUDA-Kerne, 480 GB/s Speicherbandbreite und Spitzen-TFlops verteilen sich auf zwei GPUs. Wenn eine Anwendung nur einen GK210 verwendet, reduzieren sich die verfügbaren Ressourcen um fast die Hälfte.

FP32 und Neuronale Netze: klarer Sieg für P40

In Berechnungen mit einfacher Genauigkeit erreicht die Tesla P40 12 TFlops, während die maximalen 8,73 TFlops des K80 eine Summe der beiden Prozessoren darstellen und vom GPU Boost-Modus abhängen.

In der Praxis erweist sich der Vorteil der P40 oft als noch deutlicher. Das Programm muss nicht zwei GPUs synchronisieren, Daten zwischen ihnen austauschen und separate Speicherarrays berücksichtigen. Wenn die Anwendung nicht gut auf mehrere Beschleuniger skalierbar ist, bleiben Teile der K80-Ressourcen ungenutzt.

Für die Inferenz hat die P40 ein weiteres überzeugendes Argument - den INT8-Modus mit einer Leistung von bis zu 47 TOPS. NVIDIA hat diese Karte als Beschleuniger für Serverinferenz positioniert, der für die Nutzung mit TensorRT ausgelegt ist. K80 kam vor dem massenhaften Wechsel von Neuronalen Netzen zu Berechnungen mit reduzierter Genauigkeit heraus und bietet keinen vergleichbaren INT8-Modus an.

Die P40 hat keine Tensor-Kerne, weshalb sie bei der Geschwindigkeit moderner Modelle deutlich hinter den Beschleunigern der Volta-, Turing-Generation und neuer zurückliegt. Dennoch ist die P40 innerhalb dieses Paares besser für lokale Inferenz und andere Aufgaben des maschinellen Lernens geeignet.

FP64: Hauptvorteil des K80

Die Tesla K80 wurde für hochleistungsfähige wissenschaftliche Berechnungen entwickelt, weshalb die GK210-Architektur über ausgeprägte Blöcke für doppelte Genauigkeit verfügt. Bei Auslastung beider Prozessoren liefert die Karte bis zu 2,91 TFlops FP64 - fast so viel, wie moderne Server-Systeme von einem spezialisierten HPC-Beschleuniger erwarteten.

Der GP102 in der P40 wurde mit einem anderen Fokus entworfen. Seine Stärke liegt im FP32 und in ganzzahligen Operationen, während die Leistung im FP64 nur etwa ein dreißigstel der FP32-Leistung beträgt, also ungefähr 0,37 TFlops. Architektonisch ist der GP102 dem GP104 näher, nicht dem kernoptimierten GP100 mit verstärkten Doppeltreueblöcken.

Daher könnte der K80 immer noch interessanter sein, wenn FP64 tatsächlich erforderlich ist:

numerische Simulation;
molekulare Dynamik;
computergestützte Strömungsmechanik;
technische und wissenschaftliche CUDA-Anwendungen;
alte Projekte, die für mehrere GPU Kepler optimiert wurden.

Dieser Vorteil funktioniert jedoch nur in Programmen, die beide Prozessoren auslasten können. Ein GK210 hat nur 12 GB Speicher und etwa die Hälfte der gesamten Rechenleistung des K80.

Treiber und Softwarekompatibilität

Der Software-Stack stellt eines der Hauptbeschränkungen der K80 dar. NVIDIA hat den R470-Zweig als den letzten festgelegt, der Serverbeschleuniger von Kepler unterstützt. Neuere Treiberversionen und CUDA sind nicht mehr für diese Architektur ausgelegt, weshalb für die K80 häufig veraltete Betriebssysteme, Bibliotheken oder Container verwendet werden müssen.

Die Situation bei der P40 ist besser. Im Jahr 2026 wird sie immer noch in den Listen der unterstützten GPUs moderner NVIDIA-Datenzentren-Treiber erscheinen, einschließlich der Zweige R580 und R582. Das macht Pascal zwar nicht zur neuen Architektur, erleichtert jedoch die Installation aktueller Treiber und den Start einer relativ frischen CUDA-Umgebung erheblich.

Im Bereich Virtualisierung ist die Situation strenger: Der Support für die Tesla P40 im Rahmen von NVIDIA vGPU hat die abschließende Phase erreicht, und das Ende des Wartungs-Supports ist auf Juli 2026 festgelegt. Daher ist es nicht mehr sinnvoll, die P40 speziell für einen neuen kommerziellen vGPU-Server zu kaufen, selbst wenn die normalen Berechnungstreiber sie weiterhin unterstützen.

Installation im Workstation

Beide Karten sind mit passiven Kühlern ausgestattet und erfordern einen starken gerichteten Luftstrom im Inneren des Servers. In einem herkömmlichen Gehäuse ist ein separater Lüfter oder Luftkanal notwendig: Für Beschleuniger mit einem Energieverbrauch von 250-300 W reicht die natürliche Belüftung nicht aus.

Die K80 und P40 haben keine Videoausgänge, weshalb ein Monitor an die integrierte Grafik oder eine separate Grafikkarte angeschlossen werden muss. Es muss auch der Typ des Anschlusses und die Pinbelegung der Stromversorgung überprüft werden: Server-Tesla dürfen nicht ohne Überprüfung mit einem normalen Kabel von einer Gaming-Grafikkarte verbunden werden.

Hier ist die P40 nicht nur wegen der Leistung praktischer, sondern auch aufgrund des geringeren Energieverbrauchs - 250 W gegenüber 300 W beim K80.

Fazit: Tesla K80 oder Tesla P40

Die Tesla P40 ist die bevorzugte Wahl für die meisten Aufgaben. Sie bietet einheitliche 24 GB Speicher, höhere FP32-Geschwindigkeit, INT8-Unterstützung, geringeren Energieverbrauch und eine bedeutend modernere Software-Kompatibilität. Die P40 eignet sich besser für Inferenz, CUDA-Rendering und Anwendungen, die mehr als 12 GB Speicher auf einem GPU benötigen.

Die Tesla K80 macht nur in einem engen Nischenmarkt für FP64 Sinn. Sie kann im Bereich wissenschaftlicher Berechnungen mit doppelter Genauigkeit deutlich schneller sein als die P40, erfordert jedoch Software, die zwei GPUs unterstützt, eine alte Treiberreihe und eine kompliziertere Kühlung.

Es lohnt sich nicht, die K80 wegen der formalen 24 GB oder der großen Anzahl an CUDA-Kernen zu kaufen. Wenn die Aufgabe nicht auf FP64 basiert und nicht für zwei Kepler-Prozessoren optimiert ist, wird sich die Tesla P40 als schneller, einfacher und praktischer erweisen.

Vorteile

NVIDIA Tesla P40

Höher Boost-Takt: 1531MHz (824MHz vs 1531MHz)
Größer Speichergröße: 24GB (12GB vs 24GB)
Höher Bandbreite: 694.3 GB/s (240.6 GB/s vs 694.3 GB/s)
Mehr Shading-Einheiten: 3840 (2496 vs 3840)
Neuer Erscheinungsdatum: September 2016 (November 2014 vs September 2016)

Basic

NVIDIA

Markenname

NVIDIA

November 2014

Erscheinungsdatum

September 2016

Professional

Plattform

Professional

Tesla K80

Modellname

Tesla P40

Tesla

Generation

Tesla Pascal

562MHz

Basis-Takt

1303MHz

824MHz

Boost-Takt

1531MHz

PCIe 3.0 x16

Bus-Schnittstelle

PCIe 3.0 x16

7,100 million

Transistoren

11,800 million

208

TMUs

Textur-Mapping-Einheiten (TMUs) sind Komponenten der GPU, die in der Lage sind, Binärbilder zu drehen, zu skalieren und zu verzerren und sie dann als Texturen auf jede Ebene eines gegebenen 3D-Modells zu platzieren. Dieser Prozess wird als Textur-Mapping bezeichnet.

240

TSMC

Foundry

TSMC

28 nm

Prozessgröße

16 nm

Kepler 2.0

Architektur

Pascal

Speicherspezifikationen

12GB

Speichergröße

24GB

GDDR5

Speichertyp

GDDR5X

384bit

Speicherbus

Der Speicherbus bezieht sich auf die Anzahl der Bits, die das Videomemory innerhalb eines einzelnen Taktzyklus übertragen kann. Je größer die Busbreite, desto mehr Daten können gleichzeitig übertragen werden, was sie zu einem der entscheidenden Parameter des Videomemory macht. Die Speicherbandbreite wird wie folgt berechnet: Speicherbandbreite = Speicherfrequenz x Speicherbusbreite / 8. Wenn also die Speicherfrequenzen ähnlich sind, bestimmt die Speicherbusbreite die Größe der Speicherbandbreite.

384bit

1253MHz

Speichertakt

1808MHz

240.6 GB/s

Bandbreite

Die Speicherbandbreite bezieht sich auf die Datenübertragungsrate zwischen dem Grafikchip und dem Videomemory. Sie wird in Bytes pro Sekunde gemessen, und die Formel zur Berechnung lautet: Speicherbandbreite = Arbeitsfrequenz × Speicherbusbreite / 8 Bit.

694.3 GB/s

Anzeige und Medien

No outputs

Ausgänge

No outputs

Theoretische Leistung

42.85 GPixel/s

Pixeltakt

Die Pixel-Füllrate bezieht sich auf die Anzahl der Pixel, die eine Grafikverarbeitungseinheit (GPU) pro Sekunde rendern kann, gemessen in MPixel/s (Millionen Pixel pro Sekunde) oder GPixel/s (Milliarden Pixel pro Sekunde). Es handelt sich dabei um die am häufigsten verwendete Kennzahl zur Bewertung der Pixelverarbeitungsleistung einer Grafikkarte.

147.0 GPixel/s

171.4 GTexel/s

Texture-Takt

Die Textur-Füllrate bezieht sich auf die Anzahl der Textur-Map-Elemente (Texel), die eine GPU in einer Sekunde auf Pixel abbilden kann.

367.4 GTexel/s

FP16 (halbe Genauigkeit)

Eine wichtige Kennzahl zur Messung der GPU-Leistung ist die Gleitkomma-Rechenleistung. Halbgenaue Gleitkommazahlen (16 Bit) werden für Anwendungen wie maschinelles Lernen verwendet, bei denen eine geringere Genauigkeit akzeptabel ist. Einfach genaue Gleitkommazahlen (32 Bit) werden für übliche Multimedia- und Grafikverarbeitungsaufgaben verwendet, während doppelt genaue Gleitkommazahlen (64 Bit) für wissenschaftliches Rechnen erforderlich sind, das einen großen Zahlenbereich und hohe Genauigkeit erfordert.

183.7 GFLOPS

1371 GFLOPS

FP64 (Doppelte Gleitkommazahl)

Eine wichtige Kennzahl zur Messung der GPU-Leistung ist die Gleitkomma-Rechenleistung. Doppelt genaue Gleitkommazahlen (64 Bit) sind für wissenschaftliches Rechnen erforderlich, das einen großen Zahlenbereich und hohe Genauigkeit erfordert, während einfach genaue Gleitkommazahlen (32 Bit) für übliche Multimedia- und Grafikverarbeitungsaufgaben verwendet werden. Halbgenaue Gleitkommazahlen (16 Bit) werden für Anwendungen wie maschinelles Lernen verwendet, bei denen eine geringere Genauigkeit akzeptabel ist.

367.4 GFLOPS

4.195 TFLOPS

FP32 (float)

Eine wichtige Kennzahl zur Messung der GPU-Leistung ist die Gleitkomma-Rechenfähigkeit. Gleitkommazahlen mit einfacher Genauigkeit (32 Bit) werden für allgemeine Multimedia- und Grafikverarbeitungsaufgaben verwendet, während Gleitkommazahlen mit doppelter Genauigkeit (64 Bit) für wissenschaftliche Berechnungen erforderlich sind, die einen großen Zahlenbereich und hohe Genauigkeit erfordern. Gleitkommazahlen mit halber Genauigkeit (16 Bit) werden für Anwendungen wie maschinelles Lernen verwendet, bei denen eine geringere Genauigkeit akzeptabel ist.

11.995 TFLOPS

Verschiedenes

SM-Anzahl

Mehrere Streaming-Prozessoren (SPs) bilden zusammen mit anderen Ressourcen einen Streaming-Multiprozessor (SM), der auch als Hauptkern einer GPU bezeichnet wird. Zu diesen zusätzlichen Ressourcen gehören Komponenten wie Warp-Scheduler, Register und gemeinsamer Speicher. Der SM kann als Herz der GPU betrachtet werden, ähnlich wie ein CPU-Kern, wobei Register und gemeinsamer Speicher knappe Ressourcen innerhalb des SM sind.

2496

Shading-Einheiten

Die grundlegendste Verarbeitungseinheit ist der Streaming-Prozessor (SP), in dem spezifische Anweisungen und Aufgaben ausgeführt werden. GPUs führen paralleles Rechnen durch, was bedeutet, dass mehrere SPs gleichzeitig arbeiten, um Aufgaben zu verarbeiten.

3840

16 KB (per SMX)

L1-Cache

48 KB (per SM)

1536KB

L2-Cache

3MB

300W

TDP (Thermal Design Power)

250W

1.1

Vulkan-Version

Vulkan ist eine plattformübergreifende Grafik- und Rechen-API der Khronos Group, die hohe Leistung und geringen CPU-Overhead bietet. Es ermöglicht Entwicklern die direkte Steuerung der GPU, reduziert den Rendering-Overhead und unterstützt Multi-Threading und Multi-Core-Prozessoren.

1.3

3.0

OpenCL-Version

3.0

4.6

OpenGL

4.6

3.7

CUDA

6.1

12 (11_1)

DirectX

12 (12_1)

1x 8-pin

Stromanschlüsse

8-pin EPS

ROPs

Die Raster-Operations-Pipeline (ROPs) ist hauptsächlich für die Handhabung von Licht- und Reflexionsberechnungen in Spielen verantwortlich, sowie für die Verwaltung von Effekten wie Kantenglättung (AA), hoher Auflösung, Rauch und Feuer. Je anspruchsvoller die Kantenglättung und Lichteffekte in einem Spiel sind, desto höher sind die Leistungsanforderungen für die ROPs. Andernfalls kann es zu einem starken Einbruch der Bildrate kommen.

5.1

Shader-Modell

6.7

700W

Empfohlene PSU (Stromversorgung)

600W

Benchmarks

FP32 (float) / TFLOPS

Tesla K80

4.195

Tesla P40

11.995 +186%

Blender

Tesla K80

258

Tesla P40

802 +211%

OctaneBench

Tesla K80

Tesla P40

163 +167%

NVIDIA Tesla K80 vs NVIDIA Tesla P40

GPU-Vergleichsergebnis

NVIDIA Tesla K80 vs Tesla P40: gleiche 24 GB, aber unterschiedliche Möglichkeiten

Der Hauptunterschied liegt im Speicher

FP32 und Neuronale Netze: klarer Sieg für P40

FP64: Hauptvorteil des K80

Treiber und Softwarekompatibilität

Installation im Workstation

Fazit: Tesla K80 oder Tesla P40

Vorteile

Basic

Speicherspezifikationen

Anzeige und Medien

Theoretische Leistung

Verschiedenes

Benchmarks

Verwandte GPU-Vergleiche

In sozialen Medien teilen

NVIDIA Tesla K80

vs

NVIDIA Tesla P40