読み方 : スケーリングそく

スケーリング則【scaling law】

スケーリング則とは?

機械学習モデルの規模、学習データ量計算量を増やしたとき、性能がどのように変化するかを示す経験則。理論的に厳密に導かれたものではなく、多数のモデルを異なる条件で学習させた実験結果を統計的に分析して得られたものである。
スケーリング則のイメージ画像

性能に影響する要素は主に三つある。モデルのパラメータ数、学習データ量、そして学習に投じる計算量FLOPS)である。これらを増やすほど、モデルの予測誤差(AIの性能を表す指標)が冪乗則に従って減少することが2020年の米オープンAIOpenAI)社による研究で示された。これにより、規模を拡大したときの性能向上をある程度事前に見積もることができるようになった。

この知見が注目されたのは、開発に現実的な見通しを与えたからである。それまでは、モデルを大きくすれば性能が上がるという保証はなく、実験を積み重ねながら手探りで進めるしかなかった。スケーリング則によって、投じる資源と得られる性能の関係をあらかじめ試算できるようになり、開発計画の立て方が変わった。

自然言語処理画像認識など複数の分野で類似した傾向が確認されており、大規模モデルの開発において計算資源やデータをどう配分するかの判断材料として参照される。なお、冪乗則の性質上、資源を倍増させても性能が倍になるわけではなく、一定の向上を得るためには資源を指数的に増やす必要がある。

2022年には米グーグル(Google)社のDeepMind部門が大規模言語モデルLLM)「Chinchilla」について規模と性能の関係を研究した結果を発表し、従来の理解を修正した。それまではパラメータ数の拡大が優先される傾向にあったが、モデルサイズとデータ量を同じ比率で増やすことが効率的だと示された。三つの要素のうち一つだけを増やしても十分な効果は得られず、バランスよく拡張することが性能向上の効率を左右する。

一方、スケーリング則には限界もある。冪乗則による改善は無限に続くわけではなく、規模を増やしても性能の伸びが鈍くなる事例が報告されている。また、スケーリング則が示す「性能」は損失値という数値指標であり、人間が感じる使いやすさや品質と完全には対応しない。推論能力や常識的判断など、規模の拡大だけでは改善しにくい領域があることも分かってきており、適用範囲や条件についての研究は現在も続いている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。