棋譜からの学習は何日で収束するのか

Bonanzaで1ヶ月+α*1と保木さんに教えてもらいましたが、当時のPCでBonanzaは1コア当たり250knpsぐらいしか出ませんでした。いまのPCでいまどきの作り(Stockfish風の探索部)であれば、1Mnpsぐらい出ます。


ということは探索速度は4倍になっていることになります。また、コア数も当時はXeonで4コア×dual = 8コアでしたが、いまはAWSなどでは16コア環境を使うことは容易です。ということは、ボナメソでやっても4倍×2倍 = 8倍早く収束するわけで1から学習させても4,5日+αがあれば収束することになります。


ここに相対KPP/KPAなどによる次元下げを併用した場合、さらに短い時間で収束することが予想されます。AWAKEの例でPC 6コア×1台+4コア×2台の3台構成で3日という話がありました。だいたい上記の計算と辻褄が合うように思います。


これくらい短かい期間で収束するのであれば、評価関数の形をいろいろ変えて実験したり、次元の下げ方を工夫してみたり、棋譜の数を増やしたりと夢広がりングですね。


そういう意味では、PC環境と探索部の高速化によって、コンピューター将棋の開発は新たな時代に突入したと言えそうです。