エヌビディア「ブラックウェル」GPUに異変、発熱問題でビッグテックが悲鳴

NVIDIAの最新のデータセンター用グラフィック処理装置（GPU）である「Blackwell」が供給過程で発熱による誤作動問題を引き起こし、主要ビッグテック企業が昨年かなりの困難を経験していた事実が遅れて明らかになった。OpenAIとMetaなど人工知能（AI）分野を先導する企業は、BlackwellベースのAIサーバーを構築し最適化する過程で技術的難関に直面したと、米IT専門メディア「ジ・インフォメーション」が内部情報筋を引用して最近報じた。

従来のNVIDIA GPUとは異なり、Blackwellはチップを大規模に接続して、一つの巨大なシステムのように動作させる過程が複雑で、技術的問題の発生頻度が高かったという。半導体業界で発熱はシステムの誤作動及びデータ損失の主要な原因とされ、「最大の敵」と呼ばれている。ジ・インフォメーションによると、数千個のチップで構成された全クラスターで単一のチップでも誤作動を起こすと、全システムが障害を起こしたり停止したりする事態が発生したという。

このような障害により中断された作業を最後の保存時点に戻して再開するのに数千万ドルに達する巨額の費用がかかったと伝えられている。AIデータセンター構築業者のOracleは、Blackwellチップ構築の技術的困難により約1億ドル（約156億8,246万円）の損失を被った。これは主要顧客のOpenAIがテキサス州データセンターのBlackwellサーバーの承認を遅らせたためだ。

これに対しNVIDIAは昨年、不満を申し立てた顧客をなだめるために部分的な返金や割引などの措置を講じたという。この問題は昨年第3四半期に関連問題を改善した新バージョン「NVIDIA GB300」が発売された後、徐々に収束し始めた。OpenAIを含む顧客は、まだ出荷されていない従来型チップの注文を改良版の新モデルへ切り替える作業を進めていると情報筋は伝えた。NVIDIAは発売予定の新型「Vera Rubin」チップにも今回の改善事項を適用する方針だ。