Going Faraway

渡辺遼遠の雑記帳。技術ネタと読んだ本の紹介。

『The Master Algorithm』Pedro Domingos の読書メモ

今読書中のこの本ですが、理解を進めるためにも読書メモを書いておきます。

The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World

The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World

 

著者のペドロ・ドミンゴス氏は、ワシントン大学教授の機械学習人工知能研究で長いキャリアを持つ研究者です。本書は、機械学習における大きな目標となる「マスターアルゴリズム」というコンセプトを打ち出し、その目標を達成するための道程として、既存の機械学習アルゴリズムの歴史と意味を、俯瞰的な視点から描き出した本です。

 

機械学習には、歴史的経緯も存在してさまざまなアルゴリズムがあります。それぞれのアルゴリズムは、固有の領域においてデータから知識を得ることができますが、さらにそれを拡張・統合し、いろいろなデータから帰納的に知識を得られる汎用的な学習アルゴリズム、「マスターアルゴリズム」を作ることができるはずだ、と著者は主張しています。「マスターアルゴリズム」の存在は、原理的に不可能ことではなく、人間の脳はまさに汎用的な学習をしており、それと同様のことはできるはずだ、と言うのです。

実際に、著者はいくつか「マスターアルゴリズム」が存在しうるという傍証を挙げています。個人的に興味深く感じたのは、生後間もないフェレットの視神経と聴覚神経を入れ替え、視神経を聴覚野に、聴覚神経を視覚野に繋ぎ替えても、フェレットは正常な視覚と聴覚を得ることができる、という実験の事例です。このことから、生物の脳は個別の機能に特化しているわけではなく、ある程度汎用的な学習機能を元にして、後生的に知覚情報の処理を学んでいるということが分かります。チューリングマシンが「演繹」ができる万能機械であるように、帰納的な学習のための万能機械である「マスターアルゴリズム」の作成は不可能ではないはずです。

 

そして、「マスターアルゴリズム」という大目標を描き出した後で、そのマスターアルゴリズムの候補あるいは構成要素となる可能性がある、既存の機械学習アルゴリズムを説明しています。ここで著者は、既存の機械学習アルゴリズムを5つの流派に分類しています。

  • symbolist シンボリスト (記号主義者)
  • connectionist コネクショニスト(ニューラルネットワーク主義者)
  • evolutionary 進化主義者
  • Bayesian ベイズ主義者
  • analogizer アナロジー主義者

f:id:liaoyuan:20170826175510p:plain

図:5つの学習アルゴリズムにおける知識の表現方法、評価法、最適化手法を表す

 

まず、3章の前半部では機械学習における「学習」とは何であるかを説明しています。デイヴィッド・ヒューム帰納法に対する懐疑論、あるいはその数学的表現である「ノーフリーランチ定理」(可能なありうる全ての状況において、他のアルゴリズムの性能を凌駕するアルゴリズムは存在しえない) を説明しています。機械学習とは「過去のデータを元にして未来の (まだ見ぬ) データを予測する」ものです。これはつまり、汎化誤差 (generalization error) を小さくすることを目的としますが、未来の (未入力の) データはそもそも存在しないため、工学的には不良設定問題 (解が複数存在しうる問題) となります。しかし、これは「機械学習は不可能である」ということを述べているわけではなく、学習には偏見 (バイアス)、あるいは問題に対する前提知識や条件が必要となるということを意味しています。そして、過去のあらゆるデータを記録でき、過去のデータを説明できるだけでは不十分であり、学習にはある程度の一般化が必要となります。(そうでなければ過学習 (overfitting) に陥ってしまいます)

 

3章の後半部分は、シンボリスト (記号主義者) に関しての説明です。シンボリストは、知能を記号操作として捉える流派です。この流派のアルゴリズムとしては決定木の学習が挙げられます。決定木は広範に応用されているアルゴリズムであり、例えばしばらく前に話題になったアキネーター (「20の質問」と呼ばれるゲーム) や電話の自動応答の選択肢などがあります。

シンボリストのアプローチは、シンプルで人間にとっても分かりやすいものですが、欠点としては、確率的なグレーゾーンが存在する問題 (メールがスパムであるか? 病気の症状からあり得る原因を推定し診断する、など) がうまく扱えないこと、扱うべき知識が増えると機能しないこと (知識獲得のボトルネック knowledge acquisition bottleneck) がなどがあります。

 

4章は、近年大きく注目を集めているコネクショニスト(ニューラルネットワーク) に関する話題です。脳のニューロンシナプス結合に着想を得たパーセプトロンのモデルは、1950年代に開発されました。マーヴィン・ミンスキーが、1層パーセプトロン排他的論理和 (XOR) など線形分離不可能な問題を学習できないことを指摘し、一時期注目が低下しました。パーセプトロンの層を重ねることにより、この問題が解決できることは知られていましたが、重なった層 (隠れ層) で効率的に学習をすることが不可能だったのです。バックプロパゲーション (誤差逆伝播、バックプロップ) やオートエンコーダなどの手法により、隠れ層でも効率的な学習ができるようになったことが、今日のディープラーニングの隆盛の裏にあります。ちなみに、バックプロパゲーションは、複数の研究者によって何度か独立に発見・発表されており、日本では、計算神経科学者の甘利俊一氏が類似のアルゴリズムを発見していたと言われています。
近年のディープラーニングの成功を見ても分かる通り、コネクショニズムは強力な方法ですが、欠点もあります。シンボリストであれば簡単に扱える論理的な判断、構成的 (compositional) な概念を扱えないこと、ニューラルネット内部の判断が人間に理解できないことです。

 

5章では、「遺伝」あるいは「進化」の考え方を取り入れたアルゴリズムを取り上げています。

(以下続く。随時更新予定)