「同一の」GPU 間の驚くべきパフォーマンスのギャップの内部。

ある GPU が別の GPU に似すぎていると思いませんか?もう一度考えてみましょう。同じモデルのチップによってもたらされるパフォーマンスには驚くべきばらつきがあることが判明しました。ウィリアム & メアリー大学、ジェファーソン研究所、シリコンデータの調査によると、これにより、クラウドプロバイダーから GPU の時間をレンタルするときに、お金の価値を得ることが本当に簡単になります。

「これはシリコン宝くじと呼ばれています」と、GPU のレンタル価格を追跡し、クラウドコンピューティングのパフォーマンスを比較するシリコンデータの創設者兼 CEO のカルメンリー氏は言います。

シリコン宝くじの存在は、ウィスコンシン大学の研究者らがそれを GPU に依存するスーパーコンピューターのパフォーマンスの変動と関連付けた、少なくとも 2022 年以来知られていました。リー氏と同僚らは、AIクラウド顧客にとってその影響はさらに顕著になるだろうと考えた。

クラウド GPU モデルによってパフォーマンスが異なる

「同一の」GPU 間の驚くべきパフォーマンスのギャップの内部。

そこで、クラウドコンピューティングベンダー 11 社が運用するランダムに選択した 3,500 個の GPU で、インデックス署名ベンチマークテストの 6,800 インスタンスを実行しました。 3,500 個の GPU は 11 の Nvidia GPU モデルで構成されており、最も先進的なのは Nvidia H200 SXM です。 (チームは Nvidia だけを選んだわけではありません。この GPU 巨人はレンタルクラウド市場の大部分を占めています。)

SiliconMark と呼ばれるこのベンチマークは、大規模な言語モデル (LLM) を実行する GPU の能力のスナップショットを提供することを目的としています。 1 秒あたり数兆回の演算で測定される 16 ビット浮動小数点コンピューティングのパフォーマンスと、1 秒あたりギガバイトで測定される GPU の内部メモリ帯域幅をテストします。その結果、コンピューティングパフォーマンスはすべてのモデルで異なりますが、259 個の H100 PCIe GPU では最大 34.5 パーセントの差があり、253 個の H200 SXM GPU のメモリ帯域幅では最大 38 パーセントの差があったことがわかりました。

Tesla T4 から H200 SXM までのモデルごとの内部 GPU メモリ帯域幅を比較したグラフ。

出典: シリコンデータ

GPU の冷却方法、クラウドオペレーターによるコンピューターの構成方法、チップの使用状況の違いはすべて、同一のチップのパフォーマンスのばらつきに寄与する可能性があります。しかし、シリコンデータの分析によると、真の原因はおそらく製造上の問題によるチップ自体のばらつきであることが判明した。

研究者らは、より高価で高度な GPU が古いモデルのチップよりもパフォーマンスが良くない可能性があるため、このようなランダム性は実際に多大な影響を与えると主張しています。

それでは、GPU をレンタルする人は何をすべきでしょうか? 「最も現実的なアプローチは、彼らが受け取る実際の家賃を比較することです」と、シリコンデータのインフラストラクチャ責任者、ジェイソンコーニック氏は言います。「紹介ツールを実行する [such as SiliconMark] これにより、特定のインスタンスのパフォーマンスをより大きなデータコーパスと比較できるようになります。」

あなたのサイトの記事から

RJ・バレット

「同一の」GPU 間の驚くべきパフォーマンスのギャップの内部。

クラウド GPU モデルによってパフォーマンスが異なる

You may also like...

Leave a Reply Cancel reply

Recent Posts

Recent Comments