ディープラーニングのハイパーパラメータ自動調整の概要

はじめに
ハイパーパラメータ自動調整の概要
まとめ
- ライブラリ

はじめに

ディープラーニングのハイパーパラメータ調整がとんでもなく退屈なことは周知の事実（？）です。一度学習を回すとその経過が気になってログを眺めてしまう人も多いのではないでしょうか。どうも望みがなさそうならさっさと次の値を試したいという思いもあることでしょう。そして、なるべく数を打ちながら良さげなハイパーパラメータの範囲を早く絞り込みたいと思うのではないでしょうか。

こういうこと自体を上手く自動化するような試みが欲しくなります。古典的な方法ではグリッドサーチで、とにかく考えうるパターン全部試してやれ！というものがあります。しかしこの方法はディープラーニングのように一回の学習に時間が掛かる場合には有効ではありません。

今回は上手いハイパーパラメータの選び方をしてくれて、勝手に実験を進めてくれる便利な手法たちの概要について説明します。

ハイパーパラメータ自動調整の概要

学習という関数

まずハイパーパラメータの自動調整について概要を抑えるために、「ニューラルネットの学習」という関数を考えましょう。例として、「２つのハイパーパラメータを入力してやると、その結果Lossという評価指標を返す関数」という設定で行きます。

f:id:s0sem0y:20180210072145p:plain

私たちが知りたいのは「どのようなハイパーパラメータ $\alpha, \beta$ を使ってやると小さなLossになるのか」ということです。これは未知の $Training(\alpha,\beta)$ という関数の最小値が知りたいということに相当します。

グリッドサーチ

さて、上記で考えた $Training(\alpha,\beta)$ という関数をグリッドサーチによって総当たりに調べることは、ひたすら( $\alpha,\beta$ )の組を関数に代入して、その出力を記録することで関数の形状を知ろうという試みになります。

関数の形状を調べつくせば、当然最小値がどこかもわかります。上手いハイパーパラメータが見つかってめでたしめだたしというわけです。

さて、関数が直ちに値を返してくれるのならばこのような方法でも構いません。しかし、今考えている関数は引数を受け取ってから値を返すまでに1時間掛かるかもしれません。こんな方法はとてもとっていられないのです。

関数近似器（ガウス過程）による方法

時間の都合上、私たちが試すことのできる( $\alpha,\beta$ )には限りがあります。ならば、既に試したハイパーパラメータの値から他の組ではどうなっていそうかを予測しながら選んでいくしかありません。

f:id:s0sem0y:20180210075729p:plain

すなわち、ここで考えられるのは $Training(\alpha,\beta)$ という関数それ自体を関数近似器で予測してしまうという方法です。

１．少数の( $\alpha,\beta$ )を使ってその出力 $Training(\alpha,\beta)$ を観測し、関数がどんな形をしていそうかを関数近似器で表現する（つまり未観測の( $\alpha,\beta$ )ではどうなっていそうかを予測させる）。

２．関数近似器による予測から、更に良い値を示しそうな( $\alpha,\beta$ )を使って実際に出力を観測する。この時、「１．」の関数近似器での予測は外れているかもしれない。

３．「２．」の結果を新たな観測データとして関数近似器の情報を更新し、再度良さそうな $(\alpha,\beta)$ を試す。

４．良さそうな $Training(\alpha,\beta)$ を試し切るまで「２．」と「３．」ループさせる（あるいは適当な回数を指定して止める）。

という方法がとれます。ではどんな関数近似器を使えば良いのか？というところですが、どうやら、ガウス過程がよく用いられるようです。

ガウス過程は万能な近似器ですからなんだかよくわからん学習なる関数を近似「１．」することに使えそうです（いや、本当は入力が近ければ、出力値も近いことが期待される）。またベイズ更新で関数の近似をデータが観測されるごとに更新していくことができます。つまり「２．」「３．」のことができます。

更に観測データが少ない段階ではベイズ的手法では強い確信を持って関数の形状を決定しません。従って最初は良いところ（ $Training(\alpha,\beta)$ の値が小さくなるような $(\alpha,\beta)$ ）がどこかほとんどわからない（つまり関数の形状が全く分からない）という予測をします。なので割と幅広く $(\alpha,\beta)$ を試していくことができます。データが増えてくれば、だいたい $Training(\alpha,\beta)$ の予測に自信が持てるようなっていき、値を小さくしそうな $(\alpha,\beta)$ については全て試し切っただろうということで「４．」の判断を下すことができます。

最適化って言っていますが、基本的にはガウス過程自体は関数近似器であって近似に基づいて予測を行いながら探す場所を決めていくという方法になります（ベイズによる関数近似の特性を上手に使った最適化ということです）。

ちなみにガウス過程の予測結果に基づいて、どのように次の探索場所を決めるのかということに関しては幾つか方法があります。

以下がとても分かりやすいです。

機械学習のためのベイズ最適化入門 from hoxo_m

www.slideshare.net

メタヒューリスティック最適化

これはある意味当然の発想かな？と私もずっと思っていましたが、計算コストは馬鹿高いこと間違いなしです。俗にいう遺伝的アルゴリズムや群知能（粒子群最適化）、進化計算の類を用いて、 $Training(\alpha,\beta)$ という関数の最小値を見つける方法です。

遺伝的アルゴリズムも群知能も進化計算も、要するに上手く試すべき $(\alpha,\beta)$ を絞り込んでいく方法ですから、ガウス過程を用いた方法よりも発想としては直感的です。

ちなみに遺伝的アルゴリズムや群知能などはメタヒューリスティック最適化と呼ばれる、問題の形式によらず何にでも使える（良い結果が出るとは言っていない）タイプの最適化法で、だいたいノーフリーランチ定理なんてのは（ディープラーニングの批判でも見かけるけど）本来はこの手の最適化手法に対して言及されているものです。

s0sem0y.hatenablog.com