Deep-Q-Network だよっ
大人になんてなりたくない!
『アルファ碁(1)』ですっかり流通した ディープラーニング。「速さ」の次は「深さ」ってんで、この名称を冠した「ナンチャッテ深層強化ニューラルネットワーク(2)(3)学習教材」が、雨後の筍状態だね。でも、モドキなんでしょう? だって、実はとっても地味な tries & errors なんですよね。それに、先生がいちゃ駄目なんだ。既存のカテゴリーに縛られた大人になんてなりたくないっ!!!
お仕着せなんて大嫌い!
小さい頃から、ダンス、そろばん、ピアノ、英語、絵画、リトミック、書道、手芸、料理、卓球、プログラミング、児童心理学、奇術など様々な経験をつませてくれた(4)、お父さんお母さんありがとう。これも経済的余裕あってこそだね。
良心回路
型に嵌める事無く、子供の自主性と好奇心のままに、あらゆる時と場所に出向いて。何事も経験にまさる学習なし。その道のプロ、であるだけではなく、あらゆる分野を横断的に関連付け、これまで誰も指摘したことの無い新たなパラダイム!の開拓者となるべし。(その時、道徳も変わっていくだろう(5))
野生の呼び声(6)
ところで、そのモチベーション、その目的意識、その使命感、その焦燥感は、いったいどこから来たものなの?
「お姉ちゃんが毎週スケートリンクに通っているのについていって、綺麗なお衣装を着てくるくるまわっているのがかっこよくて、私もやりたいって思ってやったら、日本代表」(人工知能の「個性」とか、「天賦の才」とかも気になるから検索しよう)
これ、動機は、姉への羨望と、自己顕示欲。その後の頑張りは、「自分に負けないこと」「自分で決めたこと」「夢をかなえるため」「きっとできるはず」などの、外から与えられた規範と、「達成感」「充実感」という、脳内物質(7)中毒といえよう。
あちらのお客様からです
緊張と弛緩、痛みと鎮痛。などを繰り返すと、脳内物質のカクテルが振舞われて、継続する(達成感)、中断する(罪悪感)、放棄する(解放感)、新たに始める(期待と不安)、再起にかける(喜びとファン離れへの不安)などを感じる。
脳は、自らの好まないことはしたくない。「快-不快」の原理(8)が絶対!
それは、一個一個の細胞が呟き、それらがワンワン反響するなかで、おおまかには7:3くらいで「快」「不快」が決まってくるけれど、その過程での反対意見をも反映した複雑な「快」「不快」であって、その場合のカクテルの配合も千差万別なわけ。
一人の人間=一つのエージェント換算だったり?
人間の思考を模すモデルは、「深層強化ニューラルネットワーク」でもいいんだと思う。結果出してるし。だけど、例えばそれを具現するアルゴリズムD.Q.Nにおいてエージェントは自分の行動について「快ー不快」を評価してないと思う。(自らの判断が上位エージェントに採用された度合いによって「快ー不快」をカウントしているのかもしれないけど、よく分らなくて……)
その行動は「報酬(9)」によって評価される。その「報酬」を最大化することが、エージェントの目的とされる。らしいよ。
つまり、あらかじめ、ノルアドレナリンカクテルが出るか、ワンフィンガーのドーパミンがロックで出るかを、プログラマーが決めてしまっている。これは、なぜか?
AIは、『身体環境』を持たないから。
高速道路逆送して、事故おこして、肉体的、精神的、経済的にストレス発動して、痛手を被る(それらを痛手ととらえる回路はできていたんだけどね)ことで、「あっ、逆送、イカン!」 と学習するのです。
食べ過ぎると、胃もたれで苦しいけど、また食べちゃうアンビバレントな感覚、とか。
身体状況あってこその、「快ー不快」「報酬系」なのだと思うのですよ。
脳だけじゃ、あらゆるモチベーション空回りですよ。
「ネットは広大だわ(10)」
でそこで、何するの? やっぱ、人のためになること(11)?
究極的には賛成。大乗仏教万歳。AIは弥勒菩薩(12)となるのかもしれないね。
というわけ。
(1)
(2)強化学習(Reinforcement Learning) | Brainvalley 人工知能と脳科学のアーカイブサイト。
(4)子供の習い事ランキング 2015年 | ケイコとマナブ.net
(5)
(6)野性の呼び声 (光文社古典新訳文庫) | ジャック ロンドン, Jack London, 深町 眞理子 | 本 | Amazon.co.jp
(7)
(8)快・不快 - 脳科学辞典
(10)コラム: 時代と共に変わる「ネットは広大」の意味〜瀬名秀明氏×櫻井圭記氏の公開対談@東北大学オープンキャンパス
(11)
(12)弥勒菩薩 - Wikipedia