-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[2001.08361] Scaling Laws for Neural Language Models [paper-reading] #74
Comments
OpenAI が出した scaling law に関する論文。 原論文をちゃんと読んだことがなかったので読んでみる。 ちなみに OpenAI が出している scaling law に関する論文は以下。
上二つが特に有名で、scaling law 自体の研究を熱心にやっているのは Google という印象。 |
論文の最初の方に主要な結果のサマリが並べられている。
|
計算量、データセットサイズ、モデルパラメタ数の scaling law の結果はこれ。 モデルサイズを変えた時に、処理したトークン数もしくは費やした計算量でテストの損失がどのように変化するかをプロットしたものがこれ。 次は計算量を横軸に取り、性能に関する寄与を縦軸に取ったときに、モデルやバッチサイズをどのような割合で増やしていけば最適になるかという結果。serial step は学習ステップをどれだけ回すか。 最後にデータサイズやモデルサイズで損失を予測する |
詳細に入る前に、このような scaling law が 6 桁とか 7 桁異なるスケールで成立する、というのは真に驚くべきことと思う。 この scaling law に最初に気づいたのは誰か知らないけど、きっとこれに気づいた時はかなり興奮しただろうな。 |
既にグラフの方にも記載があるが、数式で scaling law を表現すると以下のようになる。
損失が 1 程度になる場合のパラメタ数とトークン数が同じようなオーダーなのは偶然とは思うけど、面白い偶然ではある。 この scaling law を また、データパラレルな学習で速度と学習効率の trade-off を定める critical なバッチサイズに関しては損失を引数とした以下の scaling raw が大まかには成り立つことを発見したと言っている。 ここで、 |
また、N と D を両方変数とした場合は以下のように fitting できることも発見したと述べている。 この関数形が他の生成モデリングタスクにおける訓練された対数尤度も表現できるのではないかと推測している。 データが無限大にあるという近似のもとでパラメタのアップデートの回数 ここで、 |
論文リンク
https://arxiv.org/abs/2001.08361
公開日(yyyy/mm/dd)
2020/01/23
概要
TBW.
The text was updated successfully, but these errors were encountered: