Startseite / GPU-Vergleich / NVIDIA RTX PRO 5000 Blackwell oder NVIDIA GeForce RTX 5090: Was ist besser?

NVIDIA RTX PRO 5000 Blackwell

vs

NVIDIA GeForce RTX 5090

Grafikkartenvergleich NVIDIA RTX PRO 5000 Blackwell vs NVIDIA GeForce RTX 5090

GPU-Vergleichsergebnis

NVIDIA RTX PRO 5000 Blackwell vs GeForce RTX 5090: mehr Speicher oder höhere Leistung?

NVIDIA RTX PRO 5000 Blackwell und GeForce RTX 5090 basieren auf derselben Architektur, konkurrieren jedoch nur formal. Die RTX 5090 ist für maximale Geschwindigkeit bei Spielen, Rendering, Bildgenerierung und lokalen KI-Aufgaben konzipiert. Die RTX PRO 5000 hingegen ist für Arbeitsstationen ausgelegt, wo großes Speichervolumen, Fehlerkorrektur, zertifizierte Treiber und eine vorhersehbare Leistung professioneller Software wichtig sind.

Deshalb geht es hier nicht darum, welche Karte stärker ist. Die RTX 5090 ist in nahezu allen Rechenparametern schneller. Der entscheidende Punkt tritt später auf: Passt das Arbeitsprojekt in ihren 32 GB Videospeicher?

Merkmal	RTX PRO 5000 Blackwell	GeForce RTX 5090
CUDA-Kerne	14 080	21 760
Videospeicher	48 oder 72 GB GDDR7 ECC	32 GB GDDR7
Speicherbandbreite	1 344 GB/s	1 792 GB/s
KI-Leistung	2 064 TOPS	3 352 TOPS
Leistung RT-Kerne	196 TFLOPS	318 TFLOPS
Energieverbrauch	300 W	575 W
Videocodecs	3 NVENC, 3 NVDEC	3 NVENC, 2 NVDEC

RTX 5090 deutlich schneller

Die GeForce RTX 5090 hat etwa 55% mehr CUDA-Kerne, leistungsstärkere Tensor- und RT-Blöcke sowie eine höhere Speicherbandbreite erhalten. In Aufgaben, die nicht durch das VRAM-Limit eingeschränkt sind, ist dieser Vorteil normalerweise wichtiger als alle professionellen Funktionen der RTX PRO 5000.

Im Gaming-Bereich ist die Wahl nahezu eindeutig. Die RTX 5090 eignet sich besser für 4K, Raytracing, hohe Bildwiederholraten und Bildskalierungstechnologien. Fehlerkorrektur im Speicher und Zertifizierung für professionelle Software bringen keinen nennenswerten FPS-Zuwachs, weshalb es fast sinnlos ist, die RTX PRO 5000 als teure Gaming-Karte zu verwenden.

Eine ähnliche Situation ist in Blender, Octane, Redshift, Stable Diffusion und anderen GPU-Anwendungen zu beobachten. Solange die Szene, das Modell oder der Datensatz weniger als 32 GB verbraucht, kann die RTX 5090 schneller arbeiten, dank des größeren Rechenblocks.

Wenn man beispielsweise eine vergleichsweise kompakte Szene rendert, können beide Karten die Daten im Videospeicher halten, aber die RTX 5090 erledigt die Aufgabe schneller. Gleiches gilt für die Bildgenerierung und den Betrieb moderat großer Sprachmodelle.

RTX PRO 5000 wird für Aufgaben gewählt, die nicht in die GeForce passen

Die RTX PRO 5000 wird mit 48 oder 72 GB GDDR7 ausgeliefert. Dies ist nicht nur ein Puffer für die Zukunft, sondern ermöglicht die Verarbeitung von Projekten, die die RTX 5090 physisch nicht vollständig im Videospeicher halten kann.

In einer größeren Blender-Szene können komplexe Geometrien, hochauflösende Texturen und anspruchsvolle Simulationen viel Speicher beanspruchen. Bei KI-Aufgaben handelt es sich um größere Modelle, erweiterten Kontext oder größere Stapelgrößen. In der Videobearbeitung und Farbkorrektur sind es mehrschichtige Projekte mit hoher Auflösung, Effekten und Rauschunterdrückung.

Wenn die Datenmenge größer wird als der verfügbare VRAM, muss die Anwendung Teile der Last in den Systemspeicher auslagern oder verweigert ganz die Ausführung der Aufgabe. In solchen Situationen verliert der Rechenleistungsvorteil der RTX 5090 an Bedeutung. Eine schnelle Karte nützt nichts, wenn das Projekt nicht hineinpasst.

Genau deshalb kann die RTX PRO 5000 praktischer sein, auch wenn ihr GPU deutlich schwächer ist.

Wofür man in der professionellen Reihe noch bezahlt

Der Speicher der RTX PRO 5000 unterstützt ECC. Diese Technologie ermöglicht das Erkennen und Korrigieren von Einzel-Speicherfehlern bei langwierigen Berechnungen. Für Spiele ist dies kaum erforderlich, in technischen Berechnungen, Simulationen und umfangreichen KI-Aufgaben erhöht es jedoch die Systemzuverlässigkeit.

Zertifizierte Profitreiber machen das Gerät an sich nicht schneller. Ihre Aufgabe ist es, eine vorhersehbare Leistung in CAD, DCC, Ingenieur- und wissenschaftlichen Anwendungen sicherzustellen. Für ein Studio oder Unternehmen ist die Stabilität einer bestimmten Programmversion oft wichtiger als ein paar Prozent zusätzliche Leistung.

Die Unterstützung von Multi-Instance GPU erlaubt es, den Beschleuniger zwischen mehreren isolierten Arbeitsumgebungen zu teilen. In einem Heim-PC ist diese Funktion nahezu nutzlos, aber sie ist in virtuellen Arbeitsstationen, Serversystemen und Mehrbenutzerinfrastrukturen gefragt.

Die RTX PRO 5000 ist auch wesentlich energieeffizienter: Sie hat einen Energieverbrauch von etwa 300 W im Vergleich zu 575 W bei der RTX 5090. Dies erleichtert die Kühlung und den Einbau der Karte in eine Arbeitsstation, die Stunden unter Volllast läuft.

Professionelle Vorteile haben jedoch ihren Preis. Die RTX PRO 5000 gehört einer anderen Preisklasse an, und ein Aufpreis ist nur dann gerechtfertigt, wenn das Fehlen von Speicher, Softwareinstabilität oder Ausfallzeiten für Mitarbeiter teurer sind als die Karte selbst.

Was wählen

Die GeForce RTX 5090 ist zu kaufen, wenn:

Das Hauptszenario Spiele in 4K ist;
maximale Rendering-Geschwindigkeit wichtig ist;
KI-Modelle und Arbeitsprojekte in 32 GB passen;
ECC, MIG und zertifizierte Treiber nicht erforderlich sind.

Die RTX PRO 5000 Blackwell ist sinnvoll, wenn:

32 GB Videospeicher bereits nicht ausreichen;
große Szenen, Modelle oder Datensätze verwendet werden;
Stabilität, ECC und Zertifizierung für professionelle Software wichtig sind;
die Karte unter längeren konstanten Belastungen laufen soll;
48 oder 72 GB VRAM benötigt wird, aber die RTX PRO 6000 überdimensioniert ist.

Fazit

Die GeForce RTX 5090 ist die schnellere und rationalere Wahl für Spiele, Heimrendering, Content-Generierung und die meisten lokalen KI-Aufgaben. Wenn das Projekt in 32 GB passt, wird die RTX PRO 5000 in der Regel ihre höhere Kosten nur mit der Leistung nicht rechtfertigen können.

Die RTX PRO 5000 ist in einem anderen Fall notwendig: wenn nicht die Geschwindigkeit eines einzelnen Tests, sondern die Möglichkeit, ein Projekt überhaupt zu laden und abzuschließen, wichtiger ist. Sie wird wegen ihrer 48 oder 72 GB Speicher, ECC, professionellen Treibern und einer besseren Integration in die Arbeitsinfrastruktur gewählt.

Die RTX 5090 gewinnt das Rennen. Die RTX PRO 5000 wird dann gewählt, wenn man sicher zum Ziel gelangen möchte.

Vorteile

NVIDIA RTX PRO 5000 Blackwell

Höher Boost-Takt: 2617 MHz (2617 MHz vs 2520 MHz)
Größer Speichergröße: 48GB (48GB vs 28GB)
Neuer Erscheinungsdatum: March 2025 (March 2025 vs January 2025)

NVIDIA GeForce RTX 5090

Höher Bandbreite: 280.0GB/s (1.34TB/s vs 280.0GB/s)
Mehr Shading-Einheiten: 20480 (14080 vs 20480)

Basic

NVIDIA

Markenname

NVIDIA

March 2025

Erscheinungsdatum

January 2025

Desktop

Plattform

Desktop

RTX PRO 5000 Blackwell

Modellname

GeForce RTX 5090

Blackwell PRO W

Generation

GeForce 50

1590 MHz

Basis-Takt

2235 MHz

2617 MHz

Boost-Takt

2520 MHz

PCIe 5.0 x16

Bus-Schnittstelle

PCIe 5.0 x16

92.2 billion

Transistoren

Unknown

110

RT-Kerne

160

440

Tensor-Kerne

Tensor-Kerne sind spezialisierte Verarbeitungseinheiten, die speziell für das Deep Learning entwickelt wurden und im Vergleich zum FP32-Training eine höhere Trainings- und Inferenzleistung bieten. Sie ermöglichen schnelle Berechnungen in Bereichen wie Computer Vision, Natural Language Processing, Spracherkennung, Text-zu-Sprache-Konvertierung und personalisierteEmpfehlungen. Die beiden bekanntesten Anwendungen von Tensor-Kernen sind DLSS (Deep Learning Super Sampling) und AI Denoiser zur Rauschreduzierung.

640

440

TMUs

Textur-Mapping-Einheiten (TMUs) sind Komponenten der GPU, die in der Lage sind, Binärbilder zu drehen, zu skalieren und zu verzerren und sie dann als Texturen auf jede Ebene eines gegebenen 3D-Modells zu platzieren. Dieser Prozess wird als Textur-Mapping bezeichnet.

640

TSMC

Foundry

TSMC

5 nm

Prozessgröße

Blackwell 2.0

Architektur

Blackwell 2.0

Speicherspezifikationen

48GB

Speichergröße

28GB

GDDR7

Speichertyp

GDDR7

384bit

Speicherbus

Der Speicherbus bezieht sich auf die Anzahl der Bits, die das Videomemory innerhalb eines einzelnen Taktzyklus übertragen kann. Je größer die Busbreite, desto mehr Daten können gleichzeitig übertragen werden, was sie zu einem der entscheidenden Parameter des Videomemory macht. Die Speicherbandbreite wird wie folgt berechnet: Speicherbandbreite = Speicherfrequenz x Speicherbusbreite / 8. Wenn also die Speicherfrequenzen ähnlich sind, bestimmt die Speicherbusbreite die Größe der Speicherbandbreite.

448bit

1750 MHz

Speichertakt

2500 MHz

1.34TB/s

Bandbreite

Die Speicherbandbreite bezieht sich auf die Datenübertragungsrate zwischen dem Grafikchip und dem Videomemory. Sie wird in Bytes pro Sekunde gemessen, und die Formel zur Berechnung lautet: Speicherbandbreite = Arbeitsfrequenz × Speicherbusbreite / 8 Bit.

280.0GB/s

Anzeige und Medien

4x DisplayPort 2.1b

Ausgänge

1x HDMI 2.1
3x DisplayPort 1.4a

Theoretische Leistung

460.6 GPixel/s

Pixeltakt

Die Pixel-Füllrate bezieht sich auf die Anzahl der Pixel, die eine Grafikverarbeitungseinheit (GPU) pro Sekunde rendern kann, gemessen in MPixel/s (Millionen Pixel pro Sekunde) oder GPixel/s (Milliarden Pixel pro Sekunde). Es handelt sich dabei um die am häufigsten verwendete Kennzahl zur Bewertung der Pixelverarbeitungsleistung einer Grafikkarte.

483.8 GPixel/s

1151 GTexel/s

Texture-Takt

Die Textur-Füllrate bezieht sich auf die Anzahl der Textur-Map-Elemente (Texel), die eine GPU in einer Sekunde auf Pixel abbilden kann.

1613 GTexel/s

73.69 TFLOPS

FP16 (halbe Genauigkeit)

Eine wichtige Kennzahl zur Messung der GPU-Leistung ist die Gleitkomma-Rechenleistung. Halbgenaue Gleitkommazahlen (16 Bit) werden für Anwendungen wie maschinelles Lernen verwendet, bei denen eine geringere Genauigkeit akzeptabel ist. Einfach genaue Gleitkommazahlen (32 Bit) werden für übliche Multimedia- und Grafikverarbeitungsaufgaben verwendet, während doppelt genaue Gleitkommazahlen (64 Bit) für wissenschaftliches Rechnen erforderlich sind, das einen großen Zahlenbereich und hohe Genauigkeit erfordert.

103.2 TFLOPS

1151 GFLOPS

FP64 (Doppelte Gleitkommazahl)

Eine wichtige Kennzahl zur Messung der GPU-Leistung ist die Gleitkomma-Rechenleistung. Doppelt genaue Gleitkommazahlen (64 Bit) sind für wissenschaftliches Rechnen erforderlich, das einen großen Zahlenbereich und hohe Genauigkeit erfordert, während einfach genaue Gleitkommazahlen (32 Bit) für übliche Multimedia- und Grafikverarbeitungsaufgaben verwendet werden. Halbgenaue Gleitkommazahlen (16 Bit) werden für Anwendungen wie maschinelles Lernen verwendet, bei denen eine geringere Genauigkeit akzeptabel ist.

1.613 TFLOPS

72.216 TFLOPS

FP32 (float)

Eine wichtige Kennzahl zur Messung der GPU-Leistung ist die Gleitkomma-Rechenfähigkeit. Gleitkommazahlen mit einfacher Genauigkeit (32 Bit) werden für allgemeine Multimedia- und Grafikverarbeitungsaufgaben verwendet, während Gleitkommazahlen mit doppelter Genauigkeit (64 Bit) für wissenschaftliche Berechnungen erforderlich sind, die einen großen Zahlenbereich und hohe Genauigkeit erfordern. Gleitkommazahlen mit halber Genauigkeit (16 Bit) werden für Anwendungen wie maschinelles Lernen verwendet, bei denen eine geringere Genauigkeit akzeptabel ist.

101.136 TFLOPS

Verschiedenes

110

SM-Anzahl

Mehrere Streaming-Prozessoren (SPs) bilden zusammen mit anderen Ressourcen einen Streaming-Multiprozessor (SM), der auch als Hauptkern einer GPU bezeichnet wird. Zu diesen zusätzlichen Ressourcen gehören Komponenten wie Warp-Scheduler, Register und gemeinsamer Speicher. Der SM kann als Herz der GPU betrachtet werden, ähnlich wie ein CPU-Kern, wobei Register und gemeinsamer Speicher knappe Ressourcen innerhalb des SM sind.

160

14080

Shading-Einheiten

Die grundlegendste Verarbeitungseinheit ist der Streaming-Prozessor (SP), in dem spezifische Anweisungen und Aufgaben ausgeführt werden. GPUs führen paralleles Rechnen durch, was bedeutet, dass mehrere SPs gleichzeitig arbeiten, um Aufgaben zu verarbeiten.

20480

128 KB (per SM)

L1-Cache

128 KB (per SM)

96 MB

L2-Cache

88 MB

300W

TDP (Thermal Design Power)

500W

1.4

Vulkan-Version

Vulkan ist eine plattformübergreifende Grafik- und Rechen-API der Khronos Group, die hohe Leistung und geringen CPU-Overhead bietet. Es ermöglicht Entwicklern die direkte Steuerung der GPU, reduziert den Rendering-Overhead und unterstützt Multi-Threading und Multi-Core-Prozessoren.

1.3

3.0

OpenCL-Version

3.0

4.6

OpenGL

4.6

10.1

CUDA

9.1

12 Ultimate (12_2)

DirectX

12 Ultimate (12_2)

1x 16-pin

Stromanschlüsse

1x 16-pin

176

ROPs

Die Raster-Operations-Pipeline (ROPs) ist hauptsächlich für die Handhabung von Licht- und Reflexionsberechnungen in Spielen verantwortlich, sowie für die Verwaltung von Effekten wie Kantenglättung (AA), hoher Auflösung, Rauch und Feuer. Je anspruchsvoller die Kantenglättung und Lichteffekte in einem Spiel sind, desto höher sind die Leistungsanforderungen für die ROPs. Andernfalls kann es zu einem starken Einbruch der Bildrate kommen.

192

6.8

Shader-Modell

6.7

700 W

Empfohlene PSU (Stromversorgung)

900 W

Benchmarks

FP32 (float) / TFLOPS

RTX PRO 5000 Blackwell

72.216

GeForce RTX 5090

101.136 +40%

Vulkan

RTX PRO 5000 Blackwell

286510

GeForce RTX 5090

366095 +28%

OpenCL

RTX PRO 5000 Blackwell

309802

GeForce RTX 5090

368974 +19%

NVIDIA RTX PRO 5000 Blackwell vs NVIDIA GeForce RTX 5090

GPU-Vergleichsergebnis

NVIDIA RTX PRO 5000 Blackwell vs GeForce RTX 5090: mehr Speicher oder höhere Leistung?

RTX 5090 deutlich schneller

RTX PRO 5000 wird für Aufgaben gewählt, die nicht in die GeForce passen

Wofür man in der professionellen Reihe noch bezahlt

Was wählen

Fazit

Vorteile

Basic

Speicherspezifikationen

Anzeige und Medien

Theoretische Leistung

Verschiedenes

Benchmarks

Verwandte GPU-Vergleiche

In sozialen Medien teilen

NVIDIA RTX PRO 5000 Blackwell

vs

NVIDIA GeForce RTX 5090