ホーム / GPUの比較 / NVIDIA Tesla K80 または NVIDIA Tesla P40: 何が良いでしょうか？

NVIDIA Tesla K80

vs

NVIDIA Tesla P40

NVIDIA Tesla K80 vs NVIDIA Tesla P40 グラフィックカード比較

GPU比較結果

NVIDIA Tesla K80とTesla P40：同じ24GBだが異なる可能性

NVIDIA Tesla K80とTesla P40は、どちらも24GBのGDDR5メモリを搭載し、パッシブ冷却を使用し、サーバー設置を目的に設計されたため、近いアクセラレーターと見なされることがあります。しかし、K80はKepler世代の二重プロセッサモデルであり、主に科学計算用に作られた一方、より新しいP40はFP32とニューラルネットワークの推論に特化しています。ほとんどの現代のタスクではP40の方が速く、扱いやすいですが、K80はFP64の性能という重要な利点を持っています。

メモリに隠された主な違い

Tesla K80は、二つのGK210グラフィックプロセッサを統合しています。各GPUは独自の12GBのメモリを持ち、個別のCUDAデバイスとして機能します。仕様に示されている24GBは、単一のビデオバッファとして使用することはできません。プログラムが複数のGPU間でデータを配分できない限り、通常1つのタスクは12GBに制限されます。

二つのアクセラレーターをサポートしていても、情報の一部は両方のチップのメモリに重複している可能性があります。このため、K80の構成はすべての計算負荷に適しているわけではありません。

Tesla P40は構造がシンプルで、1つのGP102プロセッサがすべての24GBのメモリにアクセスできます。これはCUDAコアの数の形式的な違いよりも重要です。大きなモデルやデータセットは、手動でタスクを分けることなく、単一のGPUのメモリに収まります。

主な違い	Tesla K80	Tesla P40
アーキテクチャ	Kepler	Pascal
構成	2 × GK210	1 × GP102
メモリ	2 × 12 GB GDDR5	24 GB GDDR5
CUDAコア	4992 合計	3840
FP32	最大 8.73 テラフロップス	最大 12 テラフロップス
FP64	最大 2.91 テラフロップス	約 0.37 テラフロップス
INT8	専門モードなし	最大 47 TOPS
メモリ帯域幅	480 GB/s 合計	346 GB/s
消費電力	300 W	250 W

K80の合計スペックも慎重に解釈する必要があります。4992のCUDAコア、480 GB/sの帯域幅、ピークテラフロップスは、2つのGPUの間で分かれています。アプリケーションが単一のGK210のみを使用する場合、実際のリソースは約半分に減少します。

FP32とニューラルネットワーク：P40の確実な勝利

単精度計算において、Tesla P40は12テラフロップスを達成しますが、K80の最大8.73テラフロップスは、二つのプロセッサの合計であり、GPUブーストモードに依存します。

実際には、P40の優位性はさらに顕著に表れることがよくあります。プログラムは二つのGPUを同期させたり、相互にデータを交換したり、個別のメモリ配列を考慮する必要がありません。アプリケーションが複数のアクセラレーターにうまくスケールしない場合、K80の一部リソースは未使用のまま残ることになります。

推論において、P40には47 TOPSまでのINT8パフォーマンスというもう一つの重要な利点があります。NVIDIAはこのカードをTensorRTを使用したサーバー推論のアクセラレーターとして位置づけました。K80は神経ネットワークが低精度計算に移行する前に登場したため、同等のINT8モードは提供されていません。

P40にはテンソルコアがありませんが、最新モデルの速度においてはVolta、Turing世代以降のアクセラレーターに明らかに劣ります。それでも、この二つの中ではP40がローカル推論や他の機械学習タスクにより適しています。

FP64：K80の主な利点

Tesla K80は、高性能科学計算のために設計されたため、GK210アーキテクチャは高度な倍精度ブロックを備えています。両プロセッサをフルに使用した場合、カードは最大2.91テラフロップスのFP64性能を発揮し、これにより、現代のサーバーシステムが専門的なHPCアクセラレーターから期待していた性能に達しています。

P40に組み込まれたGP102は異なる優先順位で設計されています。彼の強みはFP32と整数操作にあり、FP64の性能はFP32の約32分の1、つまり約0.37テラフロップスです。アーキテクチャ的にGP102はGP104に近く、強化された倍精度ブロックを持つGP100の計算用とは異なります。

そのため、K80はFP64が本当に必要なタスクにおいて、依然として魅力的であり続けるのです：

数値シミュレーション；
分子動力学；
計算流体力学；
エンジニアリングと科学のCUDAアプリケーション；
複数のGPU Kepler向けに最適化された古いプロジェクト。

しかし、この利点は両方のプロセッサをフルに活用できるプログラムでのみ機能します。単一のGK210は12GBのメモリとK80の約半分の総計算能力しか持っていません。

ドライバーとソフトウェアの互換性

ソフトウェアスタックはK80の主要な制限の一つとなっています。NVIDIAはR470ブランチをKeplerサーバーアクセラレーターをサポートする最後のものとして固定しました。新しいドライバーやCUDAのバージョンはこのアーキテクチャを対象にしていないため、K80では旧バージョンのオペレーティングシステム、ライブラリ、またはコンテナを使用する必要があります。

P40は状況が改善されています。2026年の時点で、彼女はNVIDIAデータセンターの最新ドライバーのサポートされているGPUリストにまだ存在しており、R580およびR582ブランチを含みます。これにより、Pascalが新しいアーキテクチャであるわけではありませんが、最新のドライバーをインストールし、比較的新しいCUDA環境を実行するのがずっと簡単になります。

仮想化の状況は厳しいです：NVIDIA vGPUの一環としてのTesla P40のサポートは最終段階に達しており、メンテナンスサポートの終了は2026年7月に予定されています。したがって、、新しい商業vGPUサーバーのためにP40を購入することは非合理的です。通常の計算ドライバーは今でも彼女をサポートしていますが。

ワークステーションへの設置

両方のカードはパッシブヒートシンクを装備しており、サーバー内の強力な方向性のあるエアフローを期待しています。通常のケースの場合、別のファンやエアダクトが必要です：250-300Wの消費電力を持つアクセラレーターには自然換気は不十分です。

K80とP40にはビデオ出力がありませんので、モニターを内蔵グラフィックまたは別のビデオカードに接続する必要があります。また、電源のコネクタタイプとピン配置を確認する必要があります。サーバー用Teslaは、ゲーム用ビデオカードの通常のケーブルで接続することはできません。

P40は性能だけでなく、250W対K80の300Wという低消費電力のおかげで、ここでも実用的です。

結論：Tesla K80またはTesla P40

Tesla P40はほとんどのタスクに対して好ましい選択です。 彼女は統一された24GBのメモリ、より高いFP32速度、INT8のサポート、低い消費電力、そしてはるかに現代的なソフトウェア互換性を提供します。P40は推論、CUDAレンダリング、および一つのGPUで12GBを超えるメモリを必要とするアプリケーションにより適しています。

Tesla K80はFP64の狭いニッチでのみ意味があります。 彼女は倍精度計算においてP40を大きくリードする能力を持っていますが、二つのGPUをサポートするソフトウェア、古いドライバーブランチ、そしてより複雑な冷却が必要です。

K80を形式的な24GBや多数のCUDAコアのために購入する価値はありません。もしタスクがFP64に基づいておらず、二つのKeplerプロセッサに最適化されていない場合、Tesla P40はより速く、簡単で、実用的です。

利点

NVIDIA Tesla P40

より高いブーストクロック: 1531MHz (824MHz vs 1531MHz)
より大きなメモリサイズ: 24GB (12GB vs 24GB)
より高い帯域幅: 694.3 GB/s (240.6 GB/s vs 694.3 GB/s)
もっとシェーディングユニット: 3840 (2496 vs 3840)
もっと新しい発売日: September 2016 (November 2014 vs September 2016)

基本

NVIDIA

レーベル名

NVIDIA

November 2014

発売日

September 2016

Professional

プラットホーム

Professional

Tesla K80

モデル名

Tesla P40

Tesla

世代

Tesla Pascal

562MHz

ベースクロック

1303MHz

824MHz

ブーストクロック

1531MHz

PCIe 3.0 x16

バスインターフェース

PCIe 3.0 x16

7,100 million

トランジスタ

11,800 million

208

TMU

テクスチャマッピングユニット（TMUs）は、二進画像を回転、スケーリング、歪曲して、それを3Dモデルの任意の平面にテクスチャとして配置することができるGPUのコンポーネントです。このプロセスはテクスチャマッピングと呼ばれます。

240

TSMC

ファウンドリ

TSMC

28 nm

プロセスサイズ

16 nm

Kepler 2.0

アーキテクチャ

Pascal

メモリ仕様

12GB

メモリサイズ

24GB

GDDR5

メモリタイプ

GDDR5X

384bit

メモリバス

メモリバス幅とは、1クロックサイクル内にビデオメモリが転送できるデータのビット数を指します。バス幅が大きいほど、一度に転送できるデータ量が多くなります。メモリバンド幅の計算式は次の通りです：メモリバンド幅 = メモリ周波数 x メモリバス幅 / 8。

384bit

1253MHz

メモリクロック

1808MHz

240.6 GB/s

帯域幅

メモリバンド幅は、グラフィックチップとビデオメモリ間のデータ転送速度を指します。単位はバイト/秒で、計算式は次の通りです：メモリバンド幅 = 動作周波数 × メモリバス幅 / 8ビット。

694.3 GB/s

ディスプレイとメディア

No outputs

出力

No outputs

理論上の性能

42.85 GPixel/s

ピクセルレート

ピクセル塗りつぶし率は、グラフィックスプロセッシングユニット（GPU）が1秒あたりにレンダリングできるピクセル数を指します。これは、MPixels/s（百万ピクセル/秒）またはGPixels/s（十億ピクセル/秒）で測定されます。これはグラフィックスカードのピクセル処理性能を評価するために最も一般的に使用される指標です。

147.0 GPixel/s

171.4 GTexel/s

テクスチャレート

テクスチャ塗りつぶし率は、GPUが1秒間にピクセルにマッピングできるテクスチャマップ要素（テクセル）の数を指します。

367.4 GTexel/s

FP16 (半精度)

GPUパフォーマンスを測定する重要な指標は浮動小数点計算能力です。半精度浮動小数点数（16ビット）は、精度が低くても許容可能な機械学習のようなアプリケーションで使用されます。単精度浮動小数点数（32ビット）は、一般的なマルチメディアやグラフィックス処理のタスクで使用され、倍精度浮動小数点数（64ビット）は、広範で高精度が求められる科学計算に必要です。

183.7 GFLOPS

1371 GFLOPS

FP64 (倍精度)

GPUパフォーマンスを測定する重要な指標は浮動小数点計算能力です。倍精度浮動小数点数（64ビット）は、広範で高精度が求められる科学計算に必要です。単精度浮動小数点数（32ビット）は、一般的なマルチメディアやグラフィックス処理のタスクで使用されます。半精度浮動小数点数（16ビット）は、精度が低くても許容可能な機械学習のようなアプリケーションで使用されます。

367.4 GFLOPS

4.195 TFLOPS

FP32 (浮動小数点)

GPU のパフォーマンスを測定するための重要な指標は、浮動小数点コンピューティング能力です。単精度浮動小数点数 (32 ビット) は一般的なマルチメディアおよびグラフィックス処理タスクに使用されますが、倍精度浮動小数点数 (64 ビット) は広い数値範囲と高精度が要求される科学計算に必要です。半精度浮動小数点数 (16 ビット) は、精度が低くても許容される機械学習などのアプリケーションに使用されます。

11.995 TFLOPS

その他

SM数

ストリーミングプロセッサ（SP）は他のリソースとともに、ストリーミングマルチプロセッサ（SM）を形成し、これはGPUの主要コアとも呼ばれます。これらの追加リソースには、ワープスケジューラ、レジスタ、共有メモリなどのコンポーネントが含まれます。SMは、レジスタや共有メモリが希少なリソースであるGPUの中心部と考えることができます。

2496

シェーディングユニット

最も基本的な処理単位はストリーミングプロセッサ（SP）で、特定の指示とタスクが実行されます。GPUは並行計算を行い、複数のSPが同時にタスクを処理します。

3840

16 KB (per SMX)

L1キャッシュ

48 KB (per SM)

1536KB

L2キャッシュ

3MB

300W

TDP

250W

1.1

Vulkanのバージョン

Vulkanは、Khronos Groupによるクロスプラットフォームのグラフィックスおよび計算APIで、高性能と低CPU負荷を提供します。開発者がGPUを直接制御し、レンダリングのオーバーヘッドを減らし、マルチスレッドとマルチコアプロセッサをサポートします。

1.3

3.0

OpenCLのバージョン

3.0

4.6

OpenGL

4.6

3.7

CUDA

6.1

12 (11_1)

DirectX

12 (12_1)

1x 8-pin

電源コネクタ

8-pin EPS

ROP

ラスタオペレーションパイプライン（ROPs）は、ゲーム内の照明や反射計算を主に取り扱い、アンチエイリアシング（AA）、高解像度、煙、火などの効果を管理します。ゲームのAAと照明効果が高いほど、ROPsの性能要求が高くなります。

5.1

シェーダモデル

6.7

700W

推奨PSU

600W

ベンチマーク

FP32 (浮動小数点) / TFLOPS

Tesla K80

4.195

Tesla P40

11.995 +186%

Blender

Tesla K80

258

Tesla P40

802 +211%

OctaneBench

Tesla K80

Tesla P40

163 +167%

NVIDIA Tesla K80 vs NVIDIA Tesla P40

GPU比較結果

NVIDIA Tesla K80とTesla P40：同じ24GBだが異なる可能性

メモリに隠された主な違い

FP32とニューラルネットワーク：P40の確実な勝利

FP64：K80の主な利点

ドライバーとソフトウェアの互換性

ワークステーションへの設置

結論：Tesla K80またはTesla P40

利点

基本

メモリ仕様

ディスプレイとメディア

理論上の性能

その他

ベンチマーク

関連する GPU の比較

ソーシャルメディアで共有する

NVIDIA Tesla K80

vs

NVIDIA Tesla P40