3駒関係のパラメーターを計算式で割り出す実験

Bonanzaの3駒関係ですが、このパラメーターを棋譜から学習させたこと、すなわちボナメソがコンピューター将棋のブレークスルーであるように言われていますが、まあ、実際にもBonanzaに関してはその通りなのですが、私は、それより3駒関係という評価関数というシンプルながらそこそこ有効に機能する評価関数を設計したこと自体が偉大なる発明だと思っています。


3駒関係でそこそこ強いということが証明されているわけですから、あとはどうやってこのパラメーターを学習させるのかという話になります。


fv.binのパラメーターを隈無く観察すれば、3駒関係で(大きな)評価点がつくポイントというのは、実はいくつかの法則があることに気づきます。


その法則を分類するとだいたい10個ぐらいの評価因子から成ることがわかります。

その10個の評価因子からfv.binを再構成して、fv.binとの二乗誤差が最小になるようにします。
どれくらい二乗誤差が小さくできるかによって、それらの人間が恣意的に選んだ評価因子が適切に選ばれているのか、評価因子の正当性が証明できるという仕組みになっています。

棋譜からの学習と違い、パラメータ自体は10個程度しかないのですぐに結果が出るところが面白いです。

まあ、そうやってfv.binを全く新たに再構成しようといま私は思っていまして、これが成功すれば棋譜からの学習自体が不要になり、かつ、現状のfv.binでは実践例が少なすぎて点数がついていないようなところにも適切な点数がつきます。

まあ、それでいまのfv.binと比べて強くなるのかどうかはわかりませんが。

というか、いまのfv.bin相当のものが棋譜からの学習以外によって作れたなら、それはそれでボナメソ級の発明ではあると思います。


そういう実験をいま、ビール片手に枝豆をつまみながらやっています。←全然期待できない


そんなわけで、このブログはしばらくお休みします。