「同一の」GPU 間の驚くべきパフォーマンスのギャップの内部。
ある GPU が別の GPU に似すぎていると思いませんか?もう一度考えてみましょう。同じモデルのチップによってもたらされるパフォーマンスには驚くべきばらつきがあることが判明しました。ウィリアム & メアリー大学、ジェファーソン研究所、シリコン データの調査によると、これにより、クラウド プロバイダーから GPU の時間をレンタルするときに、お金の価値を得ることが本当に簡単になります。
「これはシリコン宝くじと呼ばれています」と、GPU のレンタル価格を追跡し、クラウド コンピューティングのパフォーマンスを比較するシリコン データの創設者兼 CEO のカルメン リー氏は言います。
シリコン宝くじの存在は、ウィスコンシン大学の研究者らがそれを GPU に依存するスーパーコンピューターのパフォーマンスの変動と関連付けた、少なくとも 2022 年以来知られていました。リー氏と同僚らは、AIクラウド顧客にとってその影響はさらに顕著になるだろうと考えた。
クラウド GPU モデルによってパフォーマンスが異なる

そこで、クラウド コンピューティング ベンダー 11 社が運用するランダムに選択した 3,500 個の GPU で、インデックス署名ベンチマーク テストの 6,800 インスタンスを実行しました。 3,500 個の GPU は 11 の Nvidia GPU モデルで構成されており、最も先進的なのは Nvidia H200 SXM です。 (チームは Nvidia だけを選んだわけではありません。この GPU 巨人はレンタル クラウド市場の大部分を占めています。)
SiliconMark と呼ばれるこのベンチマークは、大規模な言語モデル (LLM) を実行する GPU の能力のスナップショットを提供することを目的としています。 1 秒あたり数兆回の演算で測定される 16 ビット浮動小数点コンピューティングのパフォーマンスと、1 秒あたりギガバイトで測定される GPU の内部メモリ帯域幅をテストします。その結果、コンピューティング パフォーマンスはすべてのモデルで異なりますが、259 個の H100 PCIe GPU では最大 34.5 パーセントの差があり、253 個の H200 SXM GPU のメモリ帯域幅では最大 38 パーセントの差があったことがわかりました。
出典: シリコンデータ
GPU の冷却方法、クラウド オペレーターによるコンピューターの構成方法、チップの使用状況の違いはすべて、同一のチップのパフォーマンスのばらつきに寄与する可能性があります。しかし、シリコンデータの分析によると、真の原因はおそらく製造上の問題によるチップ自体のばらつきであることが判明した。
研究者らは、より高価で高度な GPU が古いモデルのチップよりもパフォーマンスが良くない可能性があるため、このようなランダム性は実際に多大な影響を与えると主張しています。
それでは、GPU をレンタルする人は何をすべきでしょうか? 「最も現実的なアプローチは、彼らが受け取る実際の家賃を比較することです」と、シリコン データのインフラストラクチャ責任者、ジェイソン コーニック氏は言います。 「紹介ツールを実行する [such as SiliconMark] これにより、特定のインスタンスのパフォーマンスをより大きなデータ コーパスと比較できるようになります。」
あなたのサイトの記事から
ウェブ上の関連記事