ROIDCORE  Personified Agent  Conversation ROBOT  Dynamic Artificial Intelligence
仮想人格:ロイドコア
ロイドコア (ROIDCORE) β版
話し言葉による知識の記憶と想起を実現した擬人化キャラクター

トップページ | このサイトについて | プライバシーと共有 | お問い合わせ | 会社情報 | 四方山話
最新情報 | ロイドコアとは | ホワイトレポート | 人格の仮想化技術 | 応用例のご案内
動的人工知能 | 感性と感情 | マインドマップ | 人工知能言語 | 会話ロボット | 記憶モデル
表層と深層 | 不気味の谷と不気味な文 | 教師あり/なし学習

 ■ 感性と感情(人工知能における感情表現)   作成日:2012/10/27

【感情の記述】(感情を記述できる理論とはどんなものか)
 興奮した人の大脳状態を認識する理論を残念ながら私は知らない。感情を理解する必要が無い 述語論理による推論は多くの資料で見られるように特定の例を挙げて理論を展開することが可能である。 一方、ネットワーク全体のダイナミクスは学習が進まないと出現しない。 旧来の時間軸を考慮したニューラルネットワークでも 学習量がある程度増えて多体系ノード(相互依存を持つ)が構成されると現れる。 学習プログラムでは見えていないが想起時のノード情報を時間軸的にグラフで表示させると認められる。 ロイドコアの実装でも「多分こんな感じか」というレベルのプログラミングでしかない。 この状態を正しく認識するためにエネルギー系の処理が必要と考えている。 情報系のネットワークで探索される特徴空間の静的ノードでは表せないからである。 アナロジで言えば旧来のネットワークが質量、座標、速度を使い、エネルギー系は運動量、トラジェクトリ、加速度を使うみたいな感じであろう。 要約すると時間軸に依存する動的クラスタを静的クラスタの処理+時系列処理で賄う。 感性情報を扱う場合、とりわけ会話・対話シーンにおいては自然言語処理との関係が甚だ厄介な問題になる。 感情は心理学的な過程や状態である。言語で感情表現する場合、全ての人に共通適応できる文法的規範は無いに等しい。 オノマトペア(オノマトペ)に於いても然りである。それでも重要な課題と認識しているので持論としてその背景から紹介する。

【理性と感性が作る状態】(感情は記憶モデルでどう扱われるのか)
 最新の記憶モデルでは、感情的応答を一般の言葉に対する想起・連想の現象と異なる扱いとして処理する。 「お前は馬鹿だ。」と言われて怒るとき、「お前」、「馬鹿」の二つのキーワードから事実かどうかを判断して 「私は馬鹿じゃない」と応答したのでは感情がこもっていない。あくまでも理性的な推論である。 人の感情的応答は発火したニューロンに関連する大脳組織のダイナミクス、ロイドコアならネットワーク全体に関係する。 多くの発火したニューロン(ノードベクトル/マトリクス)の出力が閾値を超え、結果「怒るニューロン」が発火して応答するわけではない。 そのような広域のコネクションは大人の大脳でも見られない。寿命100歳ぐらいでは物理的・生物学的に不可能とみる。 おそらく、そのようなコネクションが張られれば、理性的な人間として成り立たないであろう。 各々のニューロンは緩和時間を有する。発火したニューロンはしばらくの間、興奮した状態を保っている。 従って、「怒った」状態(ダイナミクスやアトラクタ)の原因になる「きっかけ」は言葉単体ではなく、会話の中で やり取りした、あらゆる(マルチモーダル的な)情報が引き起こした結果とみるべきである。 神経回路の時間依存、遅延が要素であることはZ変換の処理と同じである。

【理性と感情】(理性の逆では説明できない感情)
 例として適正かどうか反論はあると思うが誤解を恐れず述べる。 子供と大人、そして老人の「怒り方」と「怒る経緯」が大きく異なる。 更に老人の場合、認知症に至ると自己回帰の応答、理性が失われ感情だけが残り易くなる。 人が覚えた言葉だけに反応しているのでは無いことは現実に多くの人が感じているであろう。 ここで言えることは「感情」の対極として「理性」を挙げ「感情」と「理性」のせめぎ合いの結果として 外部に応答や表現が現れていると一般に理解されていることだ。 大人は理性が未熟な子供に「そこは理性的に考えて」などとは決して言わない。 また怒った老人にも理性による理解を求めるのこともあまり期待できない。 しかし、このような理性とのバランスによる感情解釈は原理を説明していない。 「理性」を「感情」の否定に置き換えた二元論的な議論に過ぎない。 理性の人工知能的推論に対し、感情は構造が持つ特異で短期的な状態である。 理性が時間軸を持つ必要は無いが、感情状態は時間軸上に現れる非定常な遷移でもある。

【官能検査】(感性情報を扱う感性計測技術より始まった)
 感性情報処理に関わった「きっかけ」は人工知能との関わりより古く、80年代前半にS社研究所用に「Spectrum Discriminator」なるものを開発してからである。 この時代の官能検査は正に人の感性そのものに頼っていた。その多くは音響と振動で熟練した耳(大脳)と触手としての指(センサー)が必要とされた。 一方、視覚情報は目視検査と称し画像処理の人間版と見られて、官能検査/試験とは言わなかった。 熟練した官能検査/試験者は一般の物理検査や物性検査では見つからない多くの不良や異常を感じ取ることができる。 しかし、その理由を説明できない事が多く当時の科学技術で解析できない現象を経験的に感性で学習していると推測される。 「スペクトラム弁別器」は音響・振動の現象をモーダルや固有ベクトルを求めることなく特徴空間でクラスタリングする。 これがニューラルネットワークによる静的クラスタリングと同類であることは後になって知る。 その時代は感性計測技術としての感性情報処理が計量心理学や多変量解析の域を出ることはなかった。 本来の感性情報に関わるのは、それから10年後の90年代前半になってからであり、その後の人工知能との連携につながって行った。

【感性を持つ家庭用ロボット】(家族の最も身近な存在になるには)
 「最も身近な存在」というのは勿論「家族など生身の人」以外の「何か」である。 私達は物を食べる。服を着る。道具を使う。本を読む。人として身体能力に不足を感じ、それを補おうとすれば「システム」で補助する。 私達は社会の中で他人(自分以外という意味)とのコミュニケーションを絶たれると、いろいろと不具合が生じる事を知っている。 生身の人との会話は身近であり、不足する事は無いように見える。新宿駅も横浜駅もコンコースは人で溢れかえっている。 しかし、会話や対話は両者の時間的、物理的、意識の合意が成されないと現実には実現されない。 犬や猫のペットが人気なのは言語は無くとも感情を伴ったコミュニケーションが存在するからだと考えている。 癒し系のロボットはセンサーとアクチュエーターでコミュニケーションを図る。会話ソフトは 言葉を基底にしたオーディオとイメージを使う。特に日本語には感性による感情表現のための語彙がたくさん準備されているので 多種多様に感情の言語的表現をすることが可能だ。 また文や句、間なども感情の構成に使いやすい特質を持っている。日本語を話せる「デイジー」のような家政婦が求められていても不思議ではない。

【感性タグ】(表層と深層の関係を結びつける)
 対話ロボットを製作していると、どうしても避けて通れないのが感性情報・感情表現の処理だ。 人格は感性の基であり、長期有効パラメータなので基本雛形は初期学習で設定すれば良い。これは長期記憶の扱いで養われる。 感性は話者からの直近刺激に対し応答する性質なので、その場限りの刺激の種類に左右されるし、 緩和時間も短く海馬の短期記憶に相当する反応時間だ。 ただ感情は海馬の短期記憶とは異なり脳全体、 正確には興奮した部分のダイナミクスやアトラクタの類で反応は自己想起でも起こる。 感性による感情反応は視線接触を持たないエージェントの場合、姿勢と動作を推測で制御しなくてはならない。 そこでロイドコアの学習は明示的で構わない場合(お決まりの形式的反応)に感性タグを付けて学習する。 「<怒>怒っているんだからね<怒>」で感性の素性を表す。同様にタグだけを変えた「<楽>怒っているんだからね<楽>」 の場合、表層表現は完全に同一だが、タグの違いにより内部の感性パラメータは異なる学習をする。 日本語は文面(字面)が「そのものずばり」の表現で無いことはしばしばである。 恋愛感情においては、極端な場合完全に間逆の表現がなされることもある。 このように感性タグは表層表現が深層表現と一致しない場合に特に有効となる。 応答時に深層データから出力文をシンセサイズするときに、これに従った文や表情を生成する。 現在のロイドコアのデモではテスト用データにはこの感性タグはあまり使っていない。 基本は学習・想起の確認デモなので感性情報の処理を殆ど停止している。 ツイッターの解説にも書いたがエンターテインメントに応用するのであれば、6自由度を フルに設定しなければ面白くなら無いだろう。作家では無いのでうまく設定できる自信はない。 映画やドラマでは更に多くの自由度を必要とするのは明白で、この感性タグは一時しのぎに過ぎない仕様だ。 感性タグは舞台や戯曲の台本における「ト書き」のような役割を果たしている。

【感情表現に便利な日本語】(喋りながら制御できる感情表現)
 日本語はとても便利な言語で、話しながら結論を制御できる。 「人の話を最後まで聞け」を一文で構成できる。 日本語は文末で内容をコロコロと多重に反転できる。助動詞の多重連結や日本語が膠着語であることも一役買っている。 この日本語の優柔不断な機能は言葉を伴う会話/対話で特に威力を発揮する。 結論を言う前に、対話相手の反応がリアルタイムに見られる。言い換えると相手の反応を見ながら次に発する言葉や意見が選択できるのである。 英語は文頭で結末形式を指定することが多いので、日本語の程にはうまく働かない。 この自由度は自然科学のリジッドな表現とは相反する。 だからこそ、ツイッターでも呟いた様に「日本語に科学は載せられない」というノーベル賞受賞者の見識や「はっきりしない日本人」と 揶揄される理由であろう。 これを制御工学風に言えば、フィードバックが掛かった制御システムであり、系(会話)としては安定する。 フィードバックするために会話ロボットには視線制御やジェスチャー認識が必要なのである。 ロイドコアのデモはセンサーからの情報が無いので直接的にフィードバックするベクトルを得ることができない。 しかし会話が重なってくると相当の情報を得ることは可能である。時間的な遅延が大きいので系の利得を大きくすることは 不可能だが緩やかな制御は可能である。 このように感性情報の処理は会話中でも途切れることなく必要とされている。 対話・会話における感性情報処理は未だ結果が良く見えない。奥が深いが興味は尽きない。


 トップページに戻る
ROIDCORE  Copyright (C)2011-2015 Life Information Laboratory, Inc. All right reserved.