ニューラルネットワークと深層学習

Nielsen, Michael A.

ニューラルネットワークと深層学習

What this book is about

On the exercises and problems

ニューラルネットワークを用いた手書き文字認識

逆伝播の仕組み

ニューラルネットワークの学習の改善

ニューラルネットワークが任意の関数を表現できることの視覚的証明

ニューラルネットワークを訓練するのはなぜ難しいのか

深層学習

Appendix: 知性のある シンプルな アルゴリズムはあるか?

Acknowledgements

Frequently Asked Questions

Sponsors

Resources

この書籍の中ではこれまで、ニューラルネットワークのいろはを学んできました。例えば、それがどうやって動くのかや、パターン認識問題に対してどのように用いることができるのかについてです。これらは、より直近で実用的に応用するための材料になります。といってももちろん、ニューラルネットワークに興味を抱く理由はそれだけではありません。ニューラルネットワークはいつか、基本的なパターン認識問題などは軽く超えた先に到達してくれるような気がします。もしかしたら、ニューラルネットワークやそれに変わる他のデジタルコンピューティングの手法が、考える機械や、人間の知性を凌駕するものを産むことになるかもしれません。そういった考えは、この書籍の範囲をゆうに超えるでしょう。まあ世界で誰かは知っているかもしれませんし、考えるのは面白そうですよね。

コンピュータが人間の知性に匹敵するものになり得るかどうかについては、これまで非常によく議論されてきました。といっても私はその問いについて考えるつもりはありません。議論は進行中ではありますが、知性あるコンピュータは作れるだろうと私は信じています（それは非常に込み入っていて、もしかしたら今の技術とは全く違ったものになるかもしれませんが）。それにそのうち、今の否定論者はかつての生気論者のように見えることになるでしょう。

むしろ、知能を説明することのできる一連のシンプルな原理があるかどうかについて、ここでは取り組もうと思います。具体的には特に、知性のあるシンプルなアルゴリズムはあるかどうか考えましょう。

正しく知性のあるシンプルなアルゴリズムがあるというアイデアは、少々大胆です。それが本当だと思うのは、楽観的すぎるように聞こえます。大抵の人はおそらく、感覚的に、知性とは相当複雑で割り切れないものだと感じるのではないでしょうか。人間の思考が驚くほどバラエティに富んでいて、柔軟であることを思えば、知性のあるアルゴリズムなど不可能だろうと結論づけるでしょう。しかし直感には反するものの、私はそれは早計だと考えます。科学の歴史では、始めは考えられないほど複雑であったものが、後にシンプルで強力なアイデアのおかけで説明できるようになるなんてことは日常茶飯事なのです。

例えば、黎明期の天文学を考えてみてください。いにしえより人類は、空には動物のような物体の群れがあるのだと考えてきました。太陽に月、惑星や彗星、そして星々のことです。これらの物体は、それぞれ非常に異なった振る舞いを示します。例えば、星はゆったりと定期的に空を横切って行くのに対し、彗星はまるで何もないところから現れたように見え、空に一筋の光を残して消えていきます。これら全ての物体の動きを一連のシンプルな原理で説明できる、などと想像するのは、16世紀においては、愚かな楽観主義者だけでした。ところが、17世紀になってNewtonが万有引力の法則を定式化しました。この理論は星々の動きの全てを説明しただけでなく、波や打ち出された砲弾の振る舞いなどの、地上で起こる現象すらも説明してしまいました。振り返ってみれば、適用範囲を小さく見積もった16世紀の愚かな楽観主義者たちは、むしろ悲観的ですらあったように見えます。

もちろん、科学はそういったことで溢れています。この世界を作り上げている無数の化学物質は、Mendeleevの考えた周期表によって見事に説明されていますが、さらに言えばそれは、量子力学から得られるほんの少しのシンプルな規則で説明できるのです。あるいは、生物学的世界が何故こんなにも複雑で多様なのかという謎がありますが、その答えは後に自然淘汰による進化という原理の中にあると分かりました。これら（他にもありますが）たくさんの例が示唆するに、人間の脳 - 現状でもっとも良い知性の例ですが - が非常に複雑に 見える というただその理由だけで、知性をシンプルに説明することを認めない、というのはあまり賢いとは言えないでしょう*。 *このAppendixでは一貫して、知性があるコンピュータというのは人間が考える能力に匹敵するか、もしくは超える力を持っていると仮定しています。そしてそれ故、「知性のあるシンプルなアルゴリズムはあるか」という問いは「人間の脳と本質的に同じように考えるアルゴリズムはあるか」という問いと等価であると見なしています。といっても、人間の思考をサブセットに持たないような知性の形もありうるし、それはきっと興味深い点で人間の思考よりも優れているのかもしれない、とは言っておきましょう。

一方でこれら楽観的な例にもかかわらず、たくさんの別個の基礎的な仕組みだけで知性が説明できるという可能性は、論理的には残されています。我々の脳の場合、そう言った仕組みは、我々の種の進化の歴史において様々な選択圧に応答してきた結果生まれたものであるでしょう。さて、この視点がもし正しいのであれば、知性は割り切れない相当な複雑さを含み、知性をもつシンプルなアルゴリズムなど存在し得ないでしょう。

一体どちらの視点が正しいのでしょうか？

この問題について洞察を得るために、非常に近しい問題を探ってみましょう。つまり、人間の脳がどのように働くのか、シンプルに説明することはできるか、という問題です。特に脳の複雑さを測る方法に注目してみましょう。始めに、コネクトミクスに基づいた脳の見方を考えてみます。コネクトームとは、配線そのもののことです。つまり、脳の中にどれだけニューロンやグリア細胞がいるのかや、ニューロン同士の結合はどの程度あるのかといったことに相当します。聞いたことがあるかもしれませんが、脳は1000億ものニューロンと、1000億のグリア細胞、そして10兆ものニューロン同士の結合から成っています。数字を見て唖然とするでしょうか。怖いほど多いでしょう？もし、脳がどのように働くのか知るために、これら全ての結合（ニューロンやグリア細胞のことではありませんよ）の詳細を理解する必要があるとしたら、知性のあるシンプルなアルゴリズムには到底たどり着けないで終わるでしょう。

<> もっと希望のありそうな視点があります。この二つ目の視点は、分子生物学に基づいたものです。それは、どれだけ多くの遺伝情報が脳のアーキテクチャを記述するのに必要なのか、を探るものです。この問題に着手するために、人間とチンパンジーの遺伝的差異について考えるところから始めましょう。「人間とチンパンジーは、98％は同じである」と、ニュース番組か何かで聞いたことがあるでしょうか。この数字は結構ばらつくのですが、だいたい95~99%だと言われます。ばらつきは、ゲノム全体を比べているのではなく、そ子からサンプリングしたものを比べているためです。しかし、2007年にチンパンジーのゲノム全てが解読 (あるいはこちら)され、今では大体1億2500万塩基対が異なっていることが知られています。ところで、我々もチンパンジーも概ね30億塩基対のDNAを持っています。つまり、98％同じであるというのは正しくありません。 ---- 96%チンパンジーである、というわけです。

1億2500万塩基対の中に、どれだけの情報があるというのでしょうか？それぞれの塩基対には、４つの可能性のうち一つのラベルがつきます - つまり、遺伝暗号の「文字」、アデニン(adenine), シトシン(cytosine), グアニン(guanine), そしてチミン(thymine)のうちどれかです。ということは、各塩基対は2ビットの情報　-これでちょうど4つのラベルを示すことができます- を表現できる、ということになります。ゆえに、1億2500万塩基対は2億5000万ビットの情報に相当するわけです。これこそが人間とチンパンジーの違いなわけであります。

当然、人間とチンパンジーの遺伝的違い全てが2億5000万ビットで説明されます。その中でも我々が気になるのは、脳に関連する違いだけです。といっても残念なことに、どの遺伝子の違いが脳の違いを表すのかは誰も知りません。そこで、2億5000万ビットのうち半分の、1億2500万ビットが脳の違いに寄与すると仮定しましょう。

1億2500万ビットというのはちょっと大きすぎる数値です。もっと人の言葉らしく翻訳したら、どのくらいの量になるのか考えてみましょう。等価な分量の英語の文章はどのくらいなのでしょうか？英語の文章における情報量は、1文字あたりおおよそ1ビットであることが知られています。アルファベットは26文字なので、その値は少なく思われますが、英文には非常に大きな冗長性があります。もちろんヒトゲノムも冗長性を持つため、塩基対一つあたり2ビットというのは過大評価であると思うでしょうが、ここでは無視しましょう。無視したとしても、脳の遺伝的複雑性を過大評価するだけだから問題ないでしょう。この仮定の元では、人間とチンパンジーの脳の遺伝的差異は 1億2500万文字、ないし2億5000万の英単語に相当すると言えます。これはだいたい、欽定訳聖書の30倍にあたります。

大量の情報です。しかし、理解できないほど多いというわけではありません。ヒトの理解できる程度です。この暗号に書かれたこと全てを一人で理解できる人間はいないでしょうが、チームを組んで適切に調べれば、正確に理解できるでしょう。それに、大量の情報とは言え、脳内の1000億ものニューロン、1000億のグリア細胞、そして10兆ものニューロン同士の結合と比べたらずっと小さいものですよね。たとえもしシンプルで大雑把な記述を用いたとして（例えば、10進浮動小数点数で、全ての結合を表すとすると）、だいたい7京ビット($7 \times 10^{16}$ bit)必要になるでしょう。つまり、遺伝的表現においては、人間の脳のコネクトーム全体よりも大体5億くらい複雑でない、ということになります。

ここから、ヒトゲノムは神経結合の詳細な記述を含み得ない、ということがわかります。むしろ、脳に潜む広範なアーキテクチャや、基本原理を特定しなければならないでしょう。また、そのようなアーキテクチャや原理によって、ヒトが知性を持つようになることが保証されていなければなりません。もちろん、子供が成長して知性を獲得するには、健康と、刺激のある環境、そして十分な栄養もなければなりません。そのような環境であるならば、健康なヒトは驚くほど知性的になるでしょう。ある意味で、遺伝子がもつ情報は我々が考える方法の本質を含んでいると言えます。さらに言えば、遺伝情報に潜む原理は、我々がまとめて獲得できる能力の範囲内にありそうだ、とも言えるでしょう。

これまでに議論した数字はどれも、非常に大雑把に見積もりました。 1億2500万ビットという数字はとんでもなく過大に見積もっていて、ヒトの思考にはもっと小柄な中核となる原理が潜んでいる可能性もあります。もしかしたら、1億2500万ビットのうち殆どは、比較的規模の小さい部分の細かいチューニングに使われているのかもしれません。あるいは我々は、数字を計算するのに保守的になりすぎているのかもしれません。これがもし本当だとしたなら、間違いなくそれは素晴らしいことでしょう！要するに、脳のアーキテクチャは複雑であるが、脳内にある結合の数から考えられるほど複雑ではないことが重要です。分子生物学の観点から言うと、まず間違いなく、いつか脳アーキテクチャに潜む基本原理は解明されるらしいのです。

ここいくつかの段落では、ヒトとチンパンジーの脳の遺伝的違いを単に数量で表すと1億2500万ビットである、という事実を無視して議論してきました。我々の脳機能の全部がその1億2500万ビットによってもたらされるわけではないでしょう。チンパンジーは彼らの権利に基づいて見事に考えているはずです。恐らく、知性を探すための鍵は、チンパンジーとヒトが共通して持っている心理的能力（ないし遺伝情報）にあるでしょう。もしそうだとしたら、少なくとも背後にある原理の複雑性の点で、ヒトの脳はチンパンジーのそれをちょっとばかりアップグレードしたものに過ぎないと言えるでしょう。ヒト特有の能力に基づいたヒト至上主義にもかかわらず、上述のことが信じがたいことであるとも言えません。チンパンジーとヒトの遺伝的系列は、たった500万年前に分岐したに過ぎず、それは進化の歴史から考えてほんの一瞬であるからです。といっても、私はヒト至上主義にはちょっと共感しています。というのも、ヒトとチンパンジーが遺伝的に共有する部分ではなく、むしろその1億2500万ビットにこそ、最も興味深い原理が隠されているのだと思うからです。

脳に関する分子生物学の観点を取り入れると、複雑性を記述するのに、大体9桁くらい削減できます。これは非常に心強いですが、知性のあるシンプルなアルゴリズムがあるかどうかについては何も教えてはくれません。複雑性をもっと減らすことはできないでしょうか？そしてもっと重要なのは、知性のあるシンプルなアルゴリスムが可能かどうかという問題を解決できるのでしょうか？

残念なことに、この問題をきっぱりと解決するに十分な証拠はまだありません。証拠を説明してみてください、警告とても単純で大まかな概要、つまり包括的な調査ではなく、最近の研究の特色を説明しましょう。

知性をもつシンプルなアルゴリズムが存在することを示す証拠の中に、2000年4月にNature誌で発表されたある実験があります。 Mriganka Sur教授率いる科学者チームは、生まれたてのフェレットの脳を"繋ぎ直し"ました。一般的に、フェレットの目から送られる信号は、脳の中の視覚野という部分に送られます。科学者たちは、このフェレットの目の信号が別のルートを通るようにして、視覚野の代わりに聴覚野に至るようにしました。聴覚野というのはつまり、脳の中で耳で聴くのに使われる領域のことです。

ここで、どういった現象が生じるのかを理解するために、少し視覚野について知る必要があります。視覚野は、多くの方位選択性コラムから成ります。これは、小さなニューロンの塊であり、それぞれがある特定の方向を向いた視覚刺激に反応します。方位選択性コラムは、小型の方向センサだと見なせます。例えば、ある特定の方角から光を当てたとき、その方角に関係する方位選択性コラムが励起します。光が動けば、また異なる方位選択性コラムが励起されます。視覚野の中の最も重要な高次構造の一つに、方向マップというものがあります。方向マップとは、方位選択性コラムがどのように配置されているのかをマッピングしたものです。

科学者たちは、フェレットの目からやってきた視覚刺激が聴覚野にたどり着いた時、聴覚野が変化するということを見つけました。方位選択性コラムと方向マップが聴覚野で生まれ始めたのです。視覚野で通常見られるような方向マップとは異なり、綺麗に並んではいないのですが、間違いなく似たものでした。さらに科学者たちはフェレットが視覚刺激に対してどのように反応するのかについて、ある簡単なテスト（光を異なる方向から当てた時に異なる反応を返すように訓練する）を行いました。このテストの結果、少なくとも原始的には、聴覚野を用いてフェレットが”見る”ことを学習していることが分かりました。

これは驚くべき結果です。感覚データに対して、脳の各部位がどのように学習するのか、その根底にある共通原理があることを示しています。この共通性は、知性を成す一連のシンプルな原理があるというアイデアを少なくとも支持しているでしょう。しかしながら、この実験のフェレットの視覚はなんて素晴らしいのか、などと甘く考えてはいけません。この行動試験は、視覚の全体的な様子を試したものに過ぎません。さらに当然のことながら、フェレットに”お前は見ることを学んだのか”と尋ねる事もできません。ゆえにこの実験は、聴覚野を再配線する事で、信頼性の高いの視覚経験を得られる、などとは言っていません。要するにこの実験によって、脳の各部位が学習する方法に共通原理があるというアイデアがどうやら正しそうだという、ごく限定された証拠がもたらされたに過ぎないのです。

知性を持つシンプルなアルゴリズム、というアイデアを否定するような証拠はどんなものがあるでしょうか？とある証拠が、進化心理学と神経解剖学の領域からもたらされています。 1960年代から、進化心理学者によって多くのヒューマン・ユニバーサル（普遍文化）が発見されました。ヒューマン・ユニバーサルとは、文化や教育にも現れる、全ての人間に共通する複雑な習性のことです。これらヒューマン・ユニバーサルには、母と息子との近親相姦のタブーや、音楽とダンスの用い方、それに複雑な言語の構造すら含まれています（罵倒表現の使い方（タブーとされる言葉とか）・代名詞・動詞のような基本的な構造すらも）。この結果を補うにあたり、神経解剖学がもたらした大量の証拠が次のことを示しています。つまり、人の行動は特定の局所的な脳の領域によって制御されていて、かつその領域はどうやら全ての人間に共通であるようだ、ということです。これらの発見から推察するに、たくさんのごく特徴的な行動が、我々の脳の特定の部位にシステム的に組み込まれていると言えそうです。

上述の結果から、「たくさんある脳機能を説明するにはそれぞれ異なった説明が必要で、結果として脳機能の複雑性は分割不可能である。その複雑性のために、脳の動作をシンプルに説明すること（それに恐らく、知性のあるシンプルなアルゴリズムも）は不可能である」という結論を導き出す人もいるでしょう。例えば、この視点を持ったある有名な人工知能研究者がいます。Marvin Minskyという人です。彼は、1970, 80年代に「心の社会」という理論を生み出しました。それによれば、ヒトの知性は、Minskyの言う所のエージェントという、個々に独立したシンプルな（そして非常に異なった）数値計算的プロセスの巨大な集合がもたらした結果である、と言います。 Minsky氏は自身の書籍の中で、この視点の何が強力であるかをまとめています：

What magical trick makes us intelligent? The trick is that there is no trick. The power of intelligence stems from our vast diversity, not from any single, perfect principle.

どんな魔法のような手品を使ったら我々は知性を持つだろうか？私は、タネが無いのがこの手品の真相だと思う。知性という力は、広範な多様性にこそその由来を持ち、一つの完璧な原理など存在しないのだ。

彼の書籍についたレビューに対する回答*の中で、 *In "Contemplating Minds: A Forum for Artificial Intelligence", edited by William J. Clancey, Stephen W. Smoliar, and Mark Stefik (MIT Press, 1994). Minsky氏は心の社会を謳う動機についてより詳しく述べ、上述したものと同じような、神経解剖学と進化心理学に基づく主張を展開しています：

We now know that the brain itself is composed of hundreds of different regions and nuclei, each with significantly different architectural elements and arrangements, and that many of them are involved with demonstrably different aspects of our mental activities. This modern mass of knowledge shows that many phenomena traditionally described by commonsense terms like "intelligence" or "understanding" actually involve complex assemblies of machinery.

既に脳それ自体が、何百もの個々の領域や神経核から構成されることは分かっている。それぞれが素晴らしく独特なアーキテクチャの要素・配列であり、さらにその多くが心理的行動のうち明らかに異なる側面に関係していることも知られている。現代にもたらされたこの大量の知識によって、「知性」や「理解」のような共通感覚として説明される多くの現象は、実際には機械的な要素の複雑な組み立てに関係しているとわかるのだ。

もちろん、こういった主張に沿った視点を持つのは、Minsky氏だけというわけではありません。単にその中の一人としてMinsky氏を挙げたに過ぎませんから。さて、この主張は面白いと思いますが、証拠が抗いがたく十分であるとは思えません。脳がたくさんの異なる領域から構成されていて、それぞれ異なる機能を持つことは間違いありませんが、それゆえに脳機能のシンプルな記述が不可能であるというわけでは無いでしょう。恐らくこういったアーキテクチャにおける違いは、共通原理から生まれたものであり、それはちょうど彗星、惑星、太陽や星々が単なる重力によって生まれたものであるのと同じだと思います。 Minsky氏も誰も、そのような共通原理を否定する確かな主張をしているわけではないのです。

これは私個人の見解でありますが、知性のあるシンプルなアルゴリズムはある、という主張を好ましく感じています。そしてその主な理由は、上述の（決定的ではない）主張と比べ、こちらの方が楽観的であるからです。研究の場合、正当な理由のない楽観主義の方が、一見正当な理由のある悲観主義よりもずっと生産的であることが多いのです。なればこそ、楽観主義者は新しいことを始めようと決心するのです。たとえ発見されたものが当初期待されていたものでなかったにせよ、それこそが発見の道筋であるのです。悲観主義者はとても狭い意味で「正しい」かもしれませんが、楽観主義者ほど多くのことは発見できないでしょう。

この視点は、我々が普段モノを決める（正しいのかどうかをはっきりさせようと試みる）のとは全く逆のやり方です。さっきのは、日々の研究における些細なルーティンをこなすための、思慮深い戦略であります。でも、研究計画全体を決めるといった類の、巨大で大雑把なアイデアを判断する方法としては間違っています。時に我々には、アイデアが合っているのかどうか判断する証拠に足りていないことがあります。大人しくアイデアを放棄する代わりに、何が正しいのか見極めようと、手元にある証拠を目を凝らして見ることに全精力を注ぐこともできるでしょう。あるいは、誰も知らないのだからと諦めてしまう代わりに、成功の保証はなくとも、増えていく知識を頼りに、巨大で大雑把なアイデアを発展させようと頑張ることもできるでしょう。

そうは言うものの、最大限に楽観的に捉えたとしても、知性をもつシンプルなアルゴリズムを見つけられると断言することはできません。もっと具体的に言えば、人工知能として動くような、Python(ないしC、Lisp、あるいはなんでも）で本当に端的なプログラム（まあ云千行のでもいいけれど)が書けるだろう、とか、人工知能を実装した、本当に簡単に表現されたニューラルネットワークを見つけられる、などと断じることはできないのです。しかし、そういったプログラムやネットワークを見つけられるものとして行動するのには意味があると信じています。それが洞察を得る近道であり、そんな近道を追い求めることで、いつの日かきっと、もっと精巧になったネットワーク知性を持つ圧倒的にシンプルなアルゴリズムが存在するものとして行動するのは意味があるのだと思います。

1980年代において、非常に傑出した数学・コンピュータ科学者であった Jack Schwartzは、人工知能を支持する人と、懐疑的な人を招いて議論しました。支持者たちが、驚嘆すべきものはすぐそこまで来ているのだ、という内容の度の過ぎた主張を繰り出す一方で、懐疑論者たちは、人工知能などはっきり不可能だと彼らのペシミズムを倍賭けしていって、この議論は手に負えないものになっていきました。 Schwartz氏は議論に参加せず、話し合いに熱が入って来ても黙ったままでした。議論に小休止入った際に彼は、声を上げてもいいかと尋ね、協議中の問題に対する彼の考えを述べ始めました。「恐らくこれの開発までに、ノーベル賞が100個必要になるだろう(ref, page 22)」完璧な回答ではないでしょうか？人工知能を紐解く鍵はシンプルで強力なアイデアであり、そんなアイデアを探すことは可能であり、楽観的になってすべきことなのです。そんなアイデアはもっともっとたくさん必要で、我々はまだまだ道半ばなのですから。

Appendix: 知性のある シンプルな アルゴリズムはあるか

Appendix: 知性のあるシンプルなアルゴリズムはあるか