80億パラメータのAIモデル「R1-0528-Qwen3-8B」公開…数学コンテストで高性能を実証
高いコストパフォーマンスを誇るAIで話題を呼んだ中国のスタートアップ企業「ディープシーク(DeepSeek)」が、高性能を維持しつつ単一のグラフィック処理装置(GPU)で実行可能な新型の推論モデルを発表し、注目を浴びている。
今月30日、「TechCrunch」など海外メディアの報道によると、ディープシークは同社の代表的なAIモデル「R1」のパラメーターサイズを縮小した新モデル「DeepSeek-R1-0528-Qwen3-8B」を公開したという。

このモデルは、80億規模のパラメーターを持つ推論モデルであり、今月アリババが発表した「Qwen3」モデルをベースに、独自に生成した合成事前学習データと高度な推論アルゴリズムをさらに最適化して開発された。
ディープシークによれば、本モデルは論理的推論や数学的思考といった高度な問題解決の分野において、グーグルやマイクロソフトの同クラスのモデルを上回る性能を発揮したという。
今回公開された「DeepSeek-R1-0528-Qwen3-8B」は、数学オリンピックのAIME 2025でグーグルの「Gemini 2.5 Flash」よりも高い問題解決能力を示した。また、別の数学技術テストであるHMMTでも、マイクロソフトが最近発表した小型モデル「Phi-4 Plus」と同等の性能を発揮したという。
特に注目すべき点は、DeepSeek-R1-0528-Qwen3-8Bが、一般的なモデルと比べて必要なコンピュータの計算量がとても少ないという点である。アリババの「Qwen」モデルが稼働に多数のNVIDIA H100 GPUを必要とするのに対し、今回発表されたディープシークのモデルは単一のGPU環境でも動作するとされている。
現在はオープンソースとして公開されており、誰でも制限なく商用利用が可能となっている。デスクトップアプリケーション「LM Studio」でも、このモデルがAPIを通じて提供されている。
ディープシークは、オープンソースAIプラットフォーム「Hugging Face」を通じて、「DeepSeek-R1-0528-Qwen3-8Bは、推論モデルに関する学術研究や、小型モデルを活用して産業を発展させようとするすべての人々のためのAIモデルだ」と説明している。