新たな対話の始まり

NAISTの知能コミュニケーション研究室で、コミュニケーションに関連する様々な技術を研究しています。今回の記事では、人とコンピュータのコミュニケーションを可能とする「対話システム」の研究について紹介します。対話システムはコールセンターの自動受付や雑談などの分野で既に実用化されているが、NAISTでは、今までにできなかった応用に取り組む新しい対話システムの枠組みを目指しています。

コミュニケーションの苦手を克服する「自動ソーシャルスキルトレーナー」

(田中宏季、D3)

私たちの生活において他の人と関わる状況というのは非常に多く存在します。例えば、雑談、プレゼンテーション、友達と遊ぶ、上司への報告など。皆さんはこれらのことが得意でしょうか、それとも不安に感じてしまうでしょうか。これらのコミュニケーションスキルは人との関係作りにおいて重要であり、生活の質(QoL)とも密接に関わっていることが近年わかってきています。一方で、コミュニケーションを苦手としている人々の傾向として、コンピュータなどの社会とは無関係なところにおいて高い能力を発揮することがわかっています。この背景から、対話システムをコミュニケーション支援に応用するような研究プロジェクトを奈良教育大学と共同で本年度からスタートさせました。

コミュニケーションを支援する対話システムを作るために、従来の認知行動療法の枠組みを参考にしました。ユーザが対話システム上の仮想的なエージェントと音声対話していく中で、コミュニケーションのスキルを学習していきます。本研究では、第一段階として「上手に話を伝えるトレーニング」を対話システムに実装しました。まずユーザがエージョントに向かって、「最近あった出来事」を伝えます。その際、エージェントは聞き役として頷きなどの反応をし、同時にユーザの音声と動画も収録します。収録したデータから、ユーザの言語•非言語情報を検出し、それを標準的なモデルと比較して、良かった点と改善点をリアルタイムでユーザに提示します。ユーザはフィードバックを見ることによって、自分の話の伝え方について客観的なアドバイスを受けることが可能になります。大学院生が本システムを使用したトレーニングを受けたところ、従来の本によるトレーニングを行った群と比較して、有意に話を伝えるスキルが向上していたことを確認しました。また自閉スペクトラム症(ASD)の児童1名が本システムを使用したところ、トレーニング前後でのスキルの向上が見られました。これらの結果から、対話システムを使用したコミュニケーション支援技術が有効であることがわかりました。下のビデオで、実際にシステムを使っている様子をご覧いただけます。

今後は、エージェントの振る舞いおよびトレーニングの仕方をより人間らしくするために、実際の人間による認知行動療法をデータ収録し、システムに反映していく研究を進めていく予定です。本研究が、コミュニケーションに困っている人々の助けになれば本当に嬉しく思います。

研究の詳細については、教育工学研究会で報告しています。

人の心を動かす「説得する対話システム」

(平岡拓也、D2)

従来の対話システムは、ユーザの望み通りに、質問に答えたり、チケットを予約したり、雑談をしたりしてきました。しかし、実際に人間と話す時は、様々な意見を出し合ったり、議論したりすることもあります。我々の研究では、ユーザに合わせるだけではなく、ある目標に向かってユーザに働きかける「説得対話システム」を研究しています。実際の会話では説得が行われる状況は実に多様ですが、 本節では、相手を不快にさせずに説得を行う状況を想定した、2つのシステムについて紹介します。

研究室勧誘システム

最初に紹介するシステムの特徴は、別の話題から、システムがユーザに注目してほしい話題へと誘導を行うことです。このような誘導が必要な状況の一例として、NAISTに入学して、研究室を選ぼうとしている学生を特定の研究室へ勧誘する場面が考えられます。このような場合、研究室を探している学生はどのような研究をしたいかの大まかなイメージがあっても、具体的に各研究室でどのような研究が行われているかが分からない。その中で、システムが情報を提供し、学生のイメージとシステムの誘導したい研究室を結びつけることができれば、その学生が研究室に入る可能性が高くなります。我々は、その学生が興味の持つことと関連する別の話題を提示することで、システムが目標とする話題へと対象の興味を移す枠組みを提案しました。この枠組みの中では、会話を通して、ユーザの興味を逐次推定する手法や、話題間の関連についての知識の自動獲得に関する提案等も行われています。実際にシステムが使われている様子は下の映像にご覧いただけます。

カメラ販売システム

そして、二番目に紹介するシステムの特徴は説得のプロフェッショナルの良い点を積極的に反映していることです。 具体的には、説得のプロとして、セールスマンに着目しました。家電売店でのカメラ販売を想定して、実際に店員として働く方々に客がカメラを購入するように説得してもらいました。 そして、どの程度客を満足させつつ、カメラを販売できたかを基準に、店員の説得の上手さをスコアリングしました。この説得の分析を通して、会話中の特徴からこのスコアを予測するモデルを構築しました。この予測モデルのスコアが高くなるように会話を行えば、上手い説得が出来たといえるでしょう。我々は、強化学習と呼ばれる枠組みを使って、システムが高いスコアを出せるような会話の仕方を学習させることに成功しています。

説得対話の仕組みの詳細については、日本音響学会や自然言語処理の国際会議COLINGなどで発表しています。

ユーザの好みに合わせる「個人性を持った対話システム」

(水上雅博、D1)

Siriやしゃべってコンシェルを始めとした携帯端末向けの対話システムの普及、PepperやASIMOといった音声対話が可能なロボットの開発は、人間とコンピュータの関係を従来の「道具としてのコンピュータ」から「パートナーとしてのコンピュータ」へと変化させつつあります。ただ、今までどおりの機械的で無機質な会話をしても、対話システムが真のパートナーにはなれない。そこで我々は各ユーザに合わせるような「個人性」を持った対話システムに着目して、様々な研究を進めています。

まず、対話システムが持つ「個人性」を制御する個人性制御システムについて説明します。従来の対話システムでは、一つのシステムは、ユーザ、場所、時間、周囲の環境に関係なく単一の喋り方を行っていました。しかしながら、実際の人間同士の対話においては、人間は自分自身の固有の喋り方に加えて相手との関係や周囲の環境に合わせて喋り方を変えています。我々は、この行為が対話における関係構築に非常に重要な要素であると考え、対話システムに任意の話し方を行わせる枠組みを統計的機械翻訳の技術を用いて提案、実現しています。具体的には、実現したい喋り方のデータを用意して、このデータから個人性変換のモデルを統計的に構築します。この枠組みでは、単に話し方を制御するのみでなく、特定のキャラクタや有名人の話し方を再現することが可能です。このシステムのデモを下記の動画でご覧いただけます:

また、対話システムの応答戦略を個人に適応する研究も行っています。非タスク指向対話では「何を言われたら何と返すか」をパターン化した用例ベース対話という手法があります。この手法では、ユーザの発話に対して、最もそれらしい応答を対話システムが返します。しかしながら、「最もそれらしい応答」というのは、ユーザの好みや状況に合わせて変化するため、一意に決めることは困難です。そこで我々は、その対話で過去にユーザが行った反応とその履歴から、その時々、対話ごとに最適な応答をユーザごとに選択するという手法を提案しています。この手法は、ユーザが満足度を明示しなくても、反応の傾向からおおよその満足度を推定可能な新しい枠組みを持っています。そして、推定された満足度を用いて、ユーザが好む対話の傾向を予測し、複数の応答の中から各々のユーザに合わせて最良の応答を選ぶことに成功しました。これによって、対話システムはユーザにとって最も快適な対話を実現することができます。

これらの研究の仕組みの詳細は、情報処理学会の研究会、IWSDSを始めとする国際会議で発表しています。

言葉の壁を取り払う自動音声翻訳

世界中の人々の間に大きく立ちはだかる言葉の壁は、この10年の技術革新で低くなりつつあります。その技術の名は「機械翻訳」で、人間の言葉を翻訳し、異なる言語で綴られた言葉でも理解できるようにしてくれます。今回の記事は機械翻訳の中で特に音声を入力とする「音声翻訳」についての話です。

音声翻訳を正確に行うために、3つの技術が必要になります。話された内容を正確に読み取り、コンピュータが理解できるテキストに変換してくれる「音声認識」、その内容を異なる言語へ翻訳する「機械翻訳」、そしてテキストを再び音声へと変換する「音声合成」です。この全ての技術は計算機が開発されてすぐにコンピュータの有用な応用先として取り上げられてきましたが、人間の言葉は複雑で、なかなか現実的な精度に及びませんでした。しかし、インターネットの普及によるデータの大規模化や、統計的な処理法の発展により、この10年で精度が劇的に改善され、ようやくある程度使えるようになってきました。

NAISTの知能コミュニケーション研究室では、音声認識、機械翻訳、音声合成の基礎技術開発に取り組んでいます。例えば、音声認識では単語の発音を正確に推定して発音辞書の正確性を図る研究、機械翻訳では文の構造を考慮して日英翻訳のような語順の異なる言語の間の翻訳精度向上を図る研究、音声合成では様々な声質を生成する柔軟性を保ちながら合成音声の質向上を図る研究などが行われています。しかし、今回の記事では、精度だけでなく、音声翻訳を違う観点から見つめた研究を2つ紹介します。

同時性の高い音声翻訳

以下の動画は自動音声翻訳の一例です。

http://www.youtube.com/watch?v=0WL3KUv51t4

言葉は正確に伝えられていますが、話し始めてから実際の翻訳結果が出てくるまでに多くの時間がかかることも分かります。これを実際の人間の通訳者の様子を写した以下の動画と比べてみましょう。

ここで、顕著な違いとして見受けられるのは、実際の人間の通訳者は発話の終わりを待たずにすぐに通訳を開始していることです。しかし、これをするために高度な技術が必要となります。特に、日本語と英語のような語順の大きく異なる言語の間の翻訳なら、翻訳を開始するのが早すぎると、正確な翻訳を行うための情報を得ないうちに翻訳の精度が低下する恐れがあります。逆に、開始が遅すぎると聞いている人に取って余分な待ち時間が発生します。

そこで、我々が注目したのは、いかにこの訳出するタイミングを判定するかです。実際の翻訳データや通訳データから、どの単語が現れたら翻訳が開始できるか、どの単語が現れたら次の入力を待った方が高い精度が実現できるかを判断する仕組みを作成しました。そして、その結果を実際にシステム上に実装し、以下のように適切なタイミングを判断して翻訳を進めることのできる同時音声翻訳システムを構築しました。以下は提案してきたシステムのデモです。

仕組みの詳細について、日本音響学会の論文や音声研究で最大の国際会議InterSpeechの論文などで発表しています。また、この研究の続きで、実際の通訳者に習って翻訳システムを作成する研究も行っており、更に高性能かつ素早い訳出を極めていこうと思っています。

声質の翻訳

海外から日本へと輸入された映画を考えてみよう。その映画の内容を日本語へ翻訳する方法として、「字幕」と「吹き替え」があります。どちらを好むかは個人差がありますが、今回の話は吹き替えを考えます。吹き替えの映画を聞いた際、声優の声は映画のイメージに合わせて選ばれ、更に声優は場面に合わせて感情のこもった声で話します。しかし、吹き替えの声優の代わりに、俳優の声を従来の音声翻訳システムにかけてみたとしましょう。仮に100%の翻訳精度が実現できたとしても、出てくるのは元の俳優とは程遠い、無味乾燥な声質になります。

そこで、我々が研究で着目したのは、声の強調、感情、イントネーションなどの非言語情報を翻訳することです。手法として採用したのは、音声認識の段階で、発生された言葉自体とともに、声のさまざまな特徴量を認識し、線形回帰やニューラルネットという機械学習の技術を用いて相手言語に翻訳することです。研究はまだ初期段階ですが、以下の例のように、入力された声の強調を音声翻訳の出力に反映させるのに成功しています。

仕組みの詳細について、日本音響学会の論文や音声翻訳に関する国際会議IWSLTの論文などで発表しています。これからは、声の強調だけでなく、イントネーションや韻律、個人性まで反映して行こうと思っています。