【書評】速習強化学習-基礎理論とアルゴリズム-

はじめに
本書の概要
本の対象者

はじめに

今回は2017/9/21に出版された「速習強化学習-基礎理論とアルゴリズム」についてザッと読んだ感想などを述べていきます。

速習強化学習 ―基礎理論とアルゴリズム―

作者: Csaba Szepesvari,小山田創哲,前田新一,小山雅典,池田春之介,大渡勝己,芝慎太朗,関根嵩之,高山晃一,田中一樹,西村直樹,藤田康博,望月駿一
出版社/メーカー: 共立出版
発売日: 2017/09/21
メディア: 単行本
この商品を含むブログを見る

本書の概要

マルコフ決定過程
価値推定問題
制御
さらなる勉強のために
割引マルコフ決定過程の理論
TD法の前方観測的な見方と後方観測的な見方について
深層強化学習を含む最近の発展

となっています。

特筆すべきなのは、問題を数式で定式化してから解説するということを一貫して行っている点です。

また技術書にしてはかなりページ数が少ないです。１１０ページの解説と、１８ページの参考文献リスト、索引という作りになっています(全体で約１3０ページ)。この薄さの理由は前書きにも書いてありますが、

・研究者が分野の視座を広げる

・初学者が最先端の感覚を養う

・最新のコンテンツを含む（ただし、本書の英版は2010年に出版されているものである）

・短くまとまり、自己完結している

という要件を満たすように執筆されたためです。強化学習の本として素晴らしい物は他にもあるので、「本」として未だ無かったタイプのものを提供したかったというのが意図のようです。

本の対象者

必要な前提知識

前提知識として

微分積分
線形代数
確率論

の基本が要求されます。これらがない場合は、まず読むのは無理だと思っていいでしょう（本書の中でこれらについて少しでも振り返って詳しく書いてくれるようなことは無い）。逆に、出てくる数式それ自体は、上記のような知識があれば十分わかるということになります。

おすすめの人

この本を手に取ることで恩恵を受ける人というのは、おすすめできない人に該当しておらず、かつ強化学習の理論の（主要な部分の）全体像を短ページで身につけたい方です（こりゃまあ前書きの通りです）。手短に学びたいというのを前提とすれば、状態空間モデル（特に確率的な動的システム）の基礎知識を持っていたりするとハイペースで読むことができるのではないかと思われます。

より具体的に挙げてみると

・普通の機械学習は学んできたが、強化学習にも興味が出てきた人

・強化学習を動かしてみたことはあるけども、理論を勉強していなかった人

・強化学習を学びたいが以下の書籍が分厚く、説明が冗長に感じられた人

強化学習

作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
出版社/メーカー: 森北出版
発売日: 2000/12/01
メディア: 単行本（ソフトカバー）
購入: 5人クリック: 76回
この商品を含むブログ (29件) を見る

・最適制御は学んできたが、学習制御にも興味が出てきた人（以下の記事のような繋がりに関して興味を持った人）

s0sem0y.hatenablog.com

と言ったところであり、この本書が想定している「初学者」というのは「強化学習」という枠組みの初学者のことであり、学習や制御（その他周辺の応用数学的な話）など自体に触れるのが初めてという意味ではないと思われます。主に周辺の基本知識を有する学部上級生以上からという雰囲気です。

HELLO CYBERNETICS

深層学習、機械学習、強化学習、信号処理、制御工学、量子計算などをテーマに扱っていきます