D.Q.N.の報酬　そして　弥勒菩薩へ

Deep-Q-Network　だよっ

大人になんてなりたくない！

『アルファ碁(1)』ですっかり流通した　ディープラーニング。「速さ」の次は「深さ」ってんで、この名称を冠した「ナンチャッテ深層強化ニューラルネットワーク(2)(3)学習教材」が、雨後の筍状態だね。でも、モドキなんでしょう？　だって、実はとっても地味な　tries & errors　なんですよね。それに、先生がいちゃ駄目なんだ。既存のカテゴリーに縛られた大人になんてなりたくないっ！！！

お仕着せなんて大嫌い！

　小さい頃から、ダンス、そろばん、ピアノ、英語、絵画、リトミック、書道、手芸、料理、卓球、プログラミング、児童心理学、奇術など様々な経験をつませてくれた(4)、お父さんお母さんありがとう。これも経済的余裕あってこそだね。

良心回路　

　型に嵌める事無く、子供の自主性と好奇心のままに、あらゆる時と場所に出向いて。何事も経験にまさる学習なし。その道のプロ、であるだけではなく、あらゆる分野を横断的に関連付け、これまで誰も指摘したことの無い新たなパラダイム！の開拓者となるべし。（その時、道徳も変わっていくだろう(5)）

野生の呼び声(6)

　ところで、そのモチベーション、その目的意識、その使命感、その焦燥感は、いったいどこから来たものなの？

　「お姉ちゃんが毎週スケートリンクに通っているのについていって、綺麗なお衣装を着てくるくるまわっているのがかっこよくて、私もやりたいって思ってやったら、日本代表」（人工知能の「個性」とか、「天賦の才」とかも気になるから検索しよう）　

　これ、動機は、姉への羨望と、自己顕示欲。その後の頑張りは、「自分に負けないこと」「自分で決めたこと」「夢をかなえるため」「きっとできるはず」などの、外から与えられた規範と、「達成感」「充実感」という、脳内物質(7)中毒といえよう。

あちらのお客様からです

　緊張と弛緩、痛みと鎮痛。などを繰り返すと、脳内物質のカクテルが振舞われて、継続する（達成感）、中断する（罪悪感）、放棄する（解放感）、新たに始める（期待と不安）、再起にかける（喜びとファン離れへの不安）などを感じる。

　脳は、自らの好まないことはしたくない。「快－不快」の原理(8)が絶対！

　それは、一個一個の細胞が呟き、それらがワンワン反響するなかで、おおまかには７：３くらいで「快」「不快」が決まってくるけれど、その過程での反対意見をも反映した複雑な「快」「不快」であって、その場合のカクテルの配合も千差万別なわけ。

一人の人間＝一つのエージェント換算だったり？

　人間の思考を模すモデルは、「深層強化ニューラルネットワーク」でもいいんだと思う。結果出してるし。だけど、例えばそれを具現するアルゴリズムＤ.Ｑ.Ｎにおいてエージェントは自分の行動について「快ー不快」を評価してないと思う。（自らの判断が上位エージェントに採用された度合いによって「快ー不快」をカウントしているのかもしれないけど、よく分らなくて……）

　その行動は「報酬(9)」によって評価される。その「報酬」を最大化することが、エージェントの目的とされる。らしいよ。

　つまり、あらかじめ、ノルアドレナリンカクテルが出るか、ワンフィンガーのドーパミンがロックで出るかを、プログラマーが決めてしまっている。これは、なぜか？