快適なロボットとのインタラクションを目指して | インタラクティブメディア設計学研究室

インタラクティブメディア設計学研究室助教の澤邊太志です。本研究室では、コンピュタで作られた情報を実世界に重ねあわせて表示する拡張現実間(AR)技術を中心としつつ、VR(バーチャルリアリティ)、CV(コンピュータビジョン)、CG(コンピュターグラフィクス)、HCI(ヒューマンコンピュータインタラクション)、HRI(ヒューマンロボットインタラクション)について幅広く研究しています。詳しく知りたい方は、本研究室HP(https://imdl.naist.jp/ja/prospective/)をご覧ください。今回は、私が関わっているHRIのロボットと人のインタラクションに関する研究を、3つご紹介します。

1. 快適自動走行:XRモビリティープラットフォーム

一つ目の研究は、快適な自動走行車(自律移動ロボット)を実現することを目的とした、自動走行車と人のインタラクション研究です。自動走行化することによって、従来運転手だった人も、搭乗者の一人となります。自動走行レベル5では、運転手を必要とせず、走行エリアも限定されずにどんな場所の道路でも自動運転で走行が可能な状態となり、より自由な空間が生まれると考えられています。しかしその一方で、自動走行車と私たち利用者の意思疎通が難しくなり、その結果、恐怖心や不安感などの精神的なストレス増加や乗り物酔い増加につながります。そこで私たちは、快適化知能(コンフォート・インテリジェンス)という、安全性や効率性だけでなく、人の快適性をも考慮した、新しい知能を作る研究をしています。その研究では、精神的要因であるストレスや生理的要因である酔いを対象に、その不快要因の推定や解析、軽減手法などの提案を行い、より快適な自動走行車の実現を目指しています。

2. 快適なコミュニケーションパートナーロボット

二つ目の研究は、快適なコミュニケーションパートナーロボットを実現することを目的とした、ロボット(物理的ロボットやVR/ARアバタ)と人のインタラクション研究です。最近では、一人暮らしの若者や独居高齢者が増加していること、またコロナ禍ということより、以前よりも人と接することが難しくなってきています。そんな中、人との遠隔コミュニケーションや見守りという観点から、パートナーのような存在であるロボットのニーズが高まっています。パートナーになるためには、ロボットと人の信頼感が重要となってきますが、メカメカしい見た目のロボットや、カメラやセンサがいっぱい付いたロボットとのコミュニケーションは、やはり楽しさや面白さに欠け、継続的に利用するというのが難しくなります。そこで、私たちは、すでに生活の一部となっているような媒体(例えば、TVやゲームなど)を利用した対話ロボットによるインタラクション研究や、信頼感構築や継続意欲向上のための人の心理学的な知見(例、オペラント条件づけ)をもとにしたARアバタのインタラクション研究などを通して、信頼感を構築できるロボットインタラクションの研究を行なっています。

3. 快適なマルチモーダルタッチケアロボット

三つ目の研究は、快適なタッチケアロボットを実現することを目的とした、ロボットと人のインタラクション研究です。触れるということは、とても重要なことで、心を落ち着かせることができ(タッチケア)、人を幸せな気持ちにさせることができると医学的に分かっています。しかし、コロナ禍の影響で人と物理的に接することがより難しくなってきている現在、遠隔からでも人に触れて、安心感や幸福感を与えることができるケアロボットのニーズが高まっています。私たちは、快適なタッチケアのインタラクション研究を通して、触覚のインタラクショだけでなく、視覚や聴覚を含む五感に対して、マルチモーダルなインタラクションを行うことで、人の快適性を向上させるタッチケアロボットの研究を行なっています。

上記以外のテーマでも、様々な視点からロボットと人の快適なインタラクション研究を行なっています。少しでも興味がある方は、一度サイトをご覧ください。是非一緒に快適なロボットに囲まれた世界を作りましょう。

著者紹介

澤邊 太志(さわべ たいし)

大阪生まれ、オーストラリア育ち、立命館大学のロボティクス学科を卒業後、奈良先端科学技術大学院大学(NAIST)にて博士前期・後期課程を修了。博士(工学)。同大学ポスドクを経て、助教。博士課程時に大学発ベンチャーとして、㈱アミロボテック(https://www.amirobo.tech/)を大学の寮で設立し、京都のテック企業としても活動。HRIやVR分野にて、人とロボットの快適なインタラクション研究に従事し、研究基礎技術の応用化のためのアプリ開発等も行う。
🔗 Webサイト: https://drmax.mystrikingly.com/

光の投影による現実世界の拡張 | インタラクティブメディア設計学研究室

インタラクティブメディア設計学研究室の助教の藤本雄一郎です。インタラクティブメディア設計学研究室では、コンピュータで作られた情報を実世界に重ねあわせて表示する拡張現実感(AR)技術を中心としつつ、VR(バーチャルリアリティ)、CV(コンピュータビジョン)、CG(コンピュータグラフィクス)、HCI(ヒューマンコンピュータインタラクション)、HRI(ヒューマンロボットインタラクション)について広く研究しています。今回は、私の主な研究の一つである、空間型拡張現実感(Spatial Augmented Reality、SAR)の研究について、ご紹介します。

「AR」という技術はポケモンGOなどのゲーム分野で既に広く普及していますが、ご存知の通り、これらはスマートフォンやタブレットを使用しています。また、最近ではMicrosoftのHoloLensなどの頭に被る・かけるディスプレイ(ヘッドマウントディスプレイ、スマートグラス)を使用したARも実用化され始めています。しかし、これらとは別に第3のAR(?)が存在します。それが、プロジェクタを使用する「SAR」です。

SARは、対象物や環境に対してプロジェクタ光を当てることで、その見た目を変化させたり、情報を提示したりする技術の総称です。SARの最大のメリットとして、ユーザがデバイスやセンサを持ったり装着したりしなくてよいことが挙げられます。建物などに対する「プロジェクションマッピング」をご覧になったことがある方は多いかもしれませんが、これも、SARの一つであると言えます。他には、ディズニーランドなどのテーマパークのアトラクションの中でも視覚効果として数多く採用されています。

マイナーなようで、実は意外と使われているSAR、この分野で、私が行った研究を三つほど駆け足で紹介します。

1.  柔軟物体への投影

一つ目は、私が奈良先端大の博士後期課程学生だった2013、2014年ごろの少し古い研究です。当時、ほとんどのSARは、建物外壁や部屋の壁面など、動かず、かつ形が変化しない物体を対象としていました。特にプロジェクションマッピングでは、事前に対象物の形状を把握しておくことで、それにピッタリと合うように投影すべき映像を変形させる必要があります。あらかじめ、対象物の位置や形状が分かっている場合、この変形処理は、事前に一度行えば良いため、技術的には比較的容易です。

それに対し、この研究では、人が着ている衣服(布)のように位置や形状が変化する対象に対して、投影を行える技術を提案しました。まず、人の目に見えにくいインクを用いて、ドットパタンを布の全体にあらかじめ印刷しておきます。このドットパタンは一見すると、どれも同じに見えるものの、実は、微小領域単位で見ると、他の箇所には同じ配置が存在しないように、布全体に対して配置されています。そのため、赤外カメラでそれを観測することで、布の移動や形状の変化を即座に認識することができるのです。

図1:柔軟物体への投影。(上)シリコンシートの例、(下)Tシャツ型の布の例

2.  食品の見た目の変化

次に、2017、2018年頃に行った研究を紹介します。居酒屋やカフェなどで食べ物の写真を撮った際に、より美味しそうに、より魅力的に見せるために、色味や明るさをスマホのアプリなどで加工することは広く行われてますが、それを現実世界で行いたい、と考えた研究です。

まず、様々な食品(サンプル)に対し、光の当て方を変化させた様々な画像を用意し、クラウドソーシングで、人が「美味しそうだと感じる度合い」データをたくさん収集しました。そのデータをもとに、プロジェクタの光投影により、食べ物の色味や明るさ、ハイライトなどの見た目を変化させるSARシステムを作成しました。被験者実験により、通常の環境光よりも、食べ物をおいしく見せる投影光条件が多くの食べ物に存在することを示しました。

この技術は、レストランなどの店先で食品サンプルに対して使用することで、販促に利用できると考えています。ゆくゆくは、任意の料理に対して最適なパラメータを自動で算出する研究を行いたいのですが、これは道半ばで止まっています。

図2:食品の見た目の変化。(上)元の見た目、(下)より美味しそうに見えるような光を投影した見た目

3.  明所での投影

最後に 2021年に始めた最新の研究を紹介します。遅ればせながら、ようやくNAIST Edgeの本旨に沿ってきましたので、少し長めに説明します。

従来のほとんどのSARは、夜の屋外や、電気を消した屋内など、暗い場所で使用されていました。もちろん、暗い環境の方が投影光が綺麗に見える、ということが理由の一つですが、他にも、明るい領域ではプロジェクタの位置合わせ(カメラなどによる計測を伴う事前準備)が困難となる、という別の技術的問題がありました。後者を解決すれば、明るい環境でも投影が行えるようになり、SARの応用範囲が広がるのでは?と考え、この研究を始めました。

一般的に、この位置合わせには、まずプロジェクタとカメラの各画素の対応関係を高い精度で求める必要があります。しかし、環境中の光が強いと、カメラのダイナミックレンジの問題(普通のカメラは、明るい場所と暗い場所を両方一度に綺麗に撮影することが難しい)から、この対応関係取得が難しくなります。

そこで、この研究ではイベントカメラという特殊なカメラを使いました。普通のカメラでは各ピクセルにて、光の入射量に応じた値を、画像として出力しますが、イベントカメラでは「光の量が一定以上変化したピクセルの場所」と「変化の方向(明るくなった or 暗くなった)」と「変化が起きた時間」だけを出力します(つまりカメラといいつつ、いわゆる画像は出力されません)。一見するとこれは普通のカメラにも劣っているように見えますが、この特殊な構造が、実は、極めて小さな遅延、人の目とほぼ同等の広いダイナミックレンジ、小さなコントラスト変化を敏感に取得可能、などの上記の問題に適した特性を生み出しています。

この研究では、この特性を利用した対応関係取得方法を提案することで、かなり明るい屋内での安定した投影を実現しました。応用先の一例としては、テニス(屋内コート)、アイスホッケー、体操などの訓練や観客への情報提示が挙げられます。

今後は、上記の遅延が小さいという特性を活かし、非常に高速に動作する対象物に投影できるような技術を研究していきたいと考えています。

図3:明所での投影。イベントカメラを用いたSARによる明るい屋内での投影例

さて、今回は、駆け足でSARの三つの研究をご紹介しました。他のARと比較して、あまり知られていないSARについて、この記事を読んでいただいた方に少しでも興味を持っていただけたなら幸いです。一緒に研究したい、という方もお待ちしています。

著者紹介

藤本 雄一郎(ふじもと ゆういちろう)

兵庫県加古川市出身。大阪大学で学士、奈良先端科学技術大学院大学で修士・博士(工学)を取得。その後、東京農工大学の助教を経て、2019年より奈良先端科学技術大学院大学 助教。SARの他に、AR/VRによる各種作業支援・訓練の研究に従事。プロジェクタだけでなくHMD(ヘッドマウントディスプレイ)もよく使う。
🔗 Webサイト: http://yfujimoto.cfbx.jp/

常に表示されている映像から受ける影響について考える | サイバネティクス・リアリティ工学研究室

サイバネティクス・リアリティ工学研究室で助教をしております磯山直也です。サイバネティクス・リアリティ工学研究室では、バーチャルリアリティに関する研究を主軸としつつ、人とコンピューターが適切に・便利に・快適に・安全に・楽しく寄り添いつつ生活できることを目指して研究を行っています。詳しくはこちらをご覧ください。早速ですが、こちらの記事ではバーチャルリアリティではなく、ウェアラブルコンピューティングに関する研究の紹介を致します。

私はウェアラブルコンピューティングに関する研究を行っているのですが、その中でもウェアラブル機器に表示された映像が人に与える影響について着目しています。

ウェアラブルコンピューティング環境では、コンピューターやセンサーなどを人が身につけた状態で生活することで、人がシステムから様々な恩恵を受けることができます。ウェアラブルコンピューティング環境で使用される機器の代表的なものにスマートグラスというものがあります。スマートグラスには様々な種類があるのですが、本記事では、ディスプレイが使用者の目の前に配置され、使用者はいつでも・どこでも視覚的な情報を見られるものを指すこととします。実際に販売されているスマートグラスとしては、Google社のGlass Enterprise Edition 2、Vuzix社のBlade、エプソン社のMOVERIO、ウエストユニティス社のInfoLinker3などがあります。記事を書いていたら、2021年8月にdocomoがGoogle社のGlass Enterprise Edition 2を発売するというニュースが飛び込んできたので楽しみですね。下図で装着しているのはVuzix社のM300です。

Vuzix M300

スマートグラスでできること

スマートグラスにはAndroid OSが搭載されているものが多く、スマートフォンの画面が目の前に置かれているような状態になります。スマートフォンのように機器を手に持たなくても、電車や歩行中でも視覚的な情報を見ることができます(もちろん、歩きスマホのような問題について考えることも大事です!!)。満員電車でも映画を見たりすることがスマートフォンよりも容易に可能です。手に機器を持たなくてもスマートグラスを操作できる仕組みも数多く研究されていますが、この記事では触れません(操作用の機器だけで長い記事になってしまいそうなので…)。

スマートグラスには加速度センサーやジャイロセンサー、GPSなどが搭載されているため、スマートグラス上のシステムは使用者が何をしているのか、どこ居るのかなどが認識できます。そのため、使用者の状態や位置に応じた情報を提示できます。例えば、「使用者が駅に近づいてきたら今の時刻と次の電車の出発時刻を提示」「使用者が休憩を始めたら先程まで見ていた動画の続きを自動で再生開始」「ランニングやサイクリング時に現在の速度を提示」「料理中に手順に合わせて自動でレシピを遷移」などが可能になります。

以上のように、スマートグラスは様々な使用方法があります。私の研究では、スマートグラスを使用する際には、スマートフォンを使用する際とは大きく環境が異なることに着目し、その特徴を活かした新しい使用方法や問題について扱っています。

常に情報を見るということ

さて、話は少し脱線しますが、人は見たもの・意識したものから行動や思考に影響を受けることが知られています。例えば、プライミング効果は、先行する刺激が後続の刺激に対する処理を促進もしくは抑制する効果として知られています。乗り物に関する会話をしていた後に「飛ぶものといえば?」と聞かれた際に、普段であれば鳥や雲と答えていたかもしれないのに、「飛行機」と答えやすくなるような現象です。単純接触効果は、特定のものに接する回数が増えるほど、それに対して好印象をもつようになる効果です。テレビCMなどでもこの効果が利用されています。アンカリング効果は、先に与えられた数字や条件が基準となって、後の情報に対する判断や行動に影響を与えられる効果です。店舗におけるポップで安売りを表示する際に元の価格を提示するのも、この効果が使用されています。ここまでに挙げた例以外にも人は様々な影響を受けています。

スマートグラスの話に戻りますと、スマートグラスの使用者は、何気なく・無意識に近い状態で画面を見ることがあります。その他の特徴として、何度も画面を見る・長時間同じ映像を見る・他の作業をしながら見る・何かをする直前に画面を見るなどが考えられます。上述したような効果はスマートグラス上に提示された視覚情報からも、使用者に対して与えられると考えられますが、これまでに調べられてきた効果よりも、強い効果が与えられる,あるいは,効果の弱まりが早い、などの異なる効果になる可能性があります。特定の映像を見ていると、元気が出てくる良い効果もあり得ますし、元気が無くなる悪い効果もあり得ます。そこで私は、スマートグラス上に提示される情報によって人はどのような影響を受けるのか、どのように活用できるのか、に関して研究を行っています。

以降では、これまでに研究した内容を二つ紹介したいと思います。

気になるものの変化

スマートグラス上には様々な情報を表示できます。しかし、使用者にとって見た方が良い情報ばっかり表示されていると、使用者が表示される情報を「全て見ないとっ!!」ってなってしまい、疲れちゃうなーと考えました。そこで使用者が特にスマートグラスを必要としていないときに、見なくても良いけど、見たら何かしら良い効果が得られる情報を表示できると良いな、と考えました。

人は、趣味に関連するような興味ある情報でも実世界上で多くの情報を見落としています。そこで、上述したプライミング効果をスマートグラスに表示した映像によって生起させることで、使用者が実世界上にある興味対象の情報を見落としにくくなるのではないかと考えました。

かなり小規模な実験だったのですが、スマートグラス上にサッカーの映像を表示した被験者は実世界上のサッカー関連の情報に、野球の映像を表示した被験者は野球関連の情報に気づきやすくなっていました。

より詳細にこの効果を調べるために、被験者が気になるものの変化について調査を行いました。被験者には、スマートグラスを使用して、散歩中に気になったものの写真を撮ってきてもらいます。この際に、被験者を3グループに分け、それぞれのグループに対して、カメラを起動するボタンのアイコンが「建物」「自然」「乗物」のいずれかの写真が表示されるようにしました。結果として、被験者は実験の目的を知らなかったのですが、「建物」の写真を見ていたグループは建物関連の写真を多く撮影して、「自然」の写真を見ていたグループは自然関連の写真を多く撮影していました。このように、スマートグラス上に表示した映像によって、使用者が気になるものに変化があることが確認できました。

作業速度の変化

スマートグラスを利用することで、使用者は何か違う作業に入る直前まで特定の映像を見ていられます.そこで、職場へ行くまでの道中に見ていた映像によって、職場へ着いた際にスムーズに仕事を始められないか・仕事の速度が上げられないかと考えました。

実験では、スマートグラス上で再生する動画の速度を変化させたり、スマートグラス上に表示する人のアニメーションの走る速度を変化させたりしました。そして、見た後の被験者のタスクを行う速度に変化が無いか、を調査しました。実験の結果、通常より速い速度で再生されていると考えられる動画やアニメーションを見てからだとタスクを行う速度も上がり、遅い速度を見た後だとタスクを行う速度が遅くなることが確認できました。

今回の得られた結果では少し変化する程度でしたが、今後より強く影響の与えられる映像について探っていきたいと考えています。また、タスクが遅くなることにも着目し、休憩前に特定の映像を見ることでリラックスしやすくならないか、ということも調査していく予定です。

※ 本研究は2021年春に修了した長谷川くんが頑張ってくれました。長谷川くん、ありがとう。

今後の展望

今後、スマートグラスは一般に普及すると信じているのですが、その際には広告媒体として大きく注目されることが想像できます。特定の商品だけが購入されやすくなることを避けるように、使用ガイドラインを作成する必要があります。そのガイドラインのためにも多くの影響について明らかにしておくことが重要であると考えています。しかし、そのような禁止事項を増やすだけでは苦しくて、楽しくも無いので、便利な使い方に関してもどんどんと提案していきたいと考えています。まだ研究できていないので、具体的な案をここでは書きづらいですが、「初対面の人に会う前に、その人の顔を事前に表示し続けておくことで、いざ会ったときにリラックスして話せるようになる」「その日に食べた昼食を表示し続けることによって食べたことが記憶に残りやすくなり、お腹が減りにくくなる」などの利用ができたら良いなと考えています。

著者紹介

磯山 直也(いそやま なおや)

2015年に神戸大学で博士(工学)を取得後、同年に青山学院大学の助教に着任。2017年に神戸大学の特命助教に着任した後、2019年から奈良先端科学技術大学院大学にて助教として勤務。ウェアラブルコンピューティング・ユビキタスコンピューティング・エンタテインメントコンピューティング・バーチャルリアリティの研究に従事。
🔗 Webサイト: http://dr-iso.com

自然言語で対話的に画像を編集する | 知能コミュニケーション研究室

知能コミュニケーション研究室助教の品川政太朗です。知能コミュニケーション研究室では、音声機械翻訳や対話システムなど、人と人、人と機械のコミュニケーションを支援する技術についての研究を進めています。コミュニケーションを重視しているということで、話し言葉を中心とした音声処理や言語処理、表情や身振り手振りなどのパラ言語情報を扱うための画像処理など、さまざまな情報処理を扱っています。

私が注目しているのは、言葉を使って、機械が人間とコミュニケーションをとりながら問題を解決するような課題です。現在は特に新しい画像の生成を行う対話システムの研究に取り組んでいます。画像生成は、近年著しく技術が進歩している技術です。広告やイラストの作成には高い技術が求められる上に、非常に手間がかかります。このような画像を自動的に生成できれば(または、実際に商用利用できる程でないにしろ、そこそこ良い画像を思い通りに生成できるようになれば)広告やイラストなど、画像の作成を専門にしている方が補助的に利用したり、画像を作成する技術がなくても、自分の欲しい画像の大まかなイメージを専門家に伝えたりなどして、コミュニケーションの齟齬を減らすことが可能だと考えています。よりイメージしやすい身近な例としては、探し人や探し物がある場合に、言葉で伝えるよりも画像を共有しながらお互いが頭で考えているイメージを擦り合わせていくことで、探し人や探し物を効率的に見つけるといったことができると考えています(図1)。

図1:画像が対話に有効に利用される例(機械が目撃証言を元に、対話しながら画像を編集して目撃者の見た顔を生成する)

このように、画像情報と言葉(言語情報)を組合わせて問題解決をするという研究分野は、まとめてVision & Languageと呼ばれており、世界的に盛り上がりを見せている研究トピックの一つとなっています。言葉でコミュニケーションをとれる、という要素は、将来的に機械が人間の役に立てる範囲を拡大するために、重要な要素だと考えられています。人間にとって最も頻繁に用いられる情報伝達の手段は言葉(言語情報)です。機械が言葉を理解し、扱えるようになれば、様々な作業を機械に言葉で頼むだけでできるようになる利点があります。

一方で、言葉というのは多様な表現が許されます。また、個人によっても、同じ言葉でも意図が異なる場合があります。たとえば、「この画像を格好良くしてほしい」というお願いをユーザが行った時、「格好良い」に紐づいている具体的な結果のイメージは、人によって様々です。人間同士の場合は、このような場合に「あなたの言う格好良いとはこういうことですか?」などと聞き返したり、対話することによってお互いの意図の擦り合わせを行えます。私は、このような対話の能力を機械が得られるようにし、個人に合わせて問題解決を行う機械を作りたいと考えています。

深層学習による、元画像と編集要求の文から目的の画像に編集するニューラル画像編集モデル

今回は、私の博士での研究と、その展望について簡単に紹介したいと思います。私が行った研究は、まさに図1にあるような、ユーザが言葉を使って、ユーザの思い浮かべている画像に向かって、段階的に画像を編集するシステムの研究です。編集する方法には、深層学習という方法を用いています。ニューラルネットワークという用語でも有名かと思います。深層学習では、画像と言葉のように、異なる情報源をベクトルとして表現し、ニューラルネットワークと呼ばれるネットワークを利用して、画像と言葉のデータからその対応関係を結びつけることができ、これを利用して、編集元の画像(元画像)と編集要求の文から、目的の画像への編集を行っています(図2)。

具体的には、画像を編集するのに向いている、敵対的生成ネットワーク(Generative Adversarial Networks; GAN)というニューラルネットワークを利用しました。編集要求の文の情報は、時系列情報を抽出するのに向いているLong-short term memory (LSTM)、編集対象の元画像の情報は、画像情報を抽出するのに向いているConvoluation Neural Networks (CNN)というニューラルネットワークを利用しました。元画像と編集要求の文の情報を組合わせて、GANで生成するという仕組みです。

図2:元画像と編集要求の文から目的の画像に編集するニューラル画像編集モデル

このモデルを学習するには、編集前の元画像、編集後の目標画像、そして両者の変換に対応する編集要求の文の3つの組で構成されるデータが必要になります。このようなデータはこれまでに存在しなかったので、アバター画像の作成が可能なウェブサイトを利用して、少し異なる画像の組をつくり、それぞれ元画像、目標画像とし、これらの画像の組をクラウドワーカーに見せて、2つの画像の違いを言葉で表現してもらいました(実際には英語を利用しています)(図3)。

図3:学習データ(元画像、目標画像、編集要求の文)の収集方法
図4:画像編集モデルによる編集で、編集要求の文にない編集が起きてしまった例

実際に画像編集モデルを学習させてみると、面白いことが分かりました(図4)。確かに入力である編集要求の文に沿った編集はできているものの、要求していない部分まで編集されてしまいました。多様な表現が許される言葉と画像の編集操作を結びつけることは、簡単にはいかなかったのです。この新たな問題に対して、本研究ではさらに、元画像のどの部分が編集するべき領域なのかを明示的に分けるマスク機構を提案して、マスク機構なしの場合より優れた編集が可能であることを明らかにしました(図5)。

図 5:マスク機構により、編集要求にない部分が意図せず変化してしまう問題を抑制した

システムからユーザへの確認戦略の導入

もう一つの研究は、システムが自信がない時に、ユーザに対して確認を行うという対話戦略をシステムに取り入れて、対話的に画像を編集するという研究に取り組みました。ユーザの多様な要求には、システムが苦手にしている入力も当然含まれます。深層学習のモデルは、限られたデータセットを用いて学習されるため、一つのモデルで多様な入力のすべてに対応することは困難です。例えばマスクありモデルは、髪の毛など大きな領域の編集を苦手としています。そのような場合に、複数のモデル(マスクあり・なし)による出力をユーザに見せて選んでもらい、より目標を達成できそうな方の画像を選んでもらうという対応策が考えられます。かといって、毎回確認するのはユーザの負担となります。そこで本研究では、生成されたマスクのエントロピーを基準として、必要な時だけユーザに確認することで、冗長な対話を削減できることを明らかにしました(図6)。

図6:システムが編集に自信のない時には、ユーザに確認をする対話戦略を導入して効率的に対話して画像を編集できるようになった

今後の展望

本研究では、「ユーザが言葉で画像を編集できる」という点に注目して研究を進めてきましたが、現実的に役に立つものを実現するには、まだまだたくさんの課題あります。例えば、実際のユーザは、一部なら自分で絵を描いたりできるかもしれません。言葉だけでなく、他の入力方法も考慮することで、どのような時に言葉を使うのが有用であるのか、明らかにしていく必要があります。また、どの編集も気に入らなかった場合に、どのようにユーザに働きかけると、ユーザにとって好ましいのかも、明らかにしていく必要があります。そして、言葉は本来、ユーザの文化的な背景などによって、指す意味が異なることが自然です。よって、対話を通して個人に適応するといった要素も必要になってきます。これらの面白い課題を一つ一つ解決していき、機械が様々な課題で人間とコミュニケーションをとりながら、より人間にとって心地よく、問題を解決できるような方法を模索していきたいと考えています。

著者紹介

品川 政太朗(しながわ せいたろう)

札幌出身。東北大学で学士・修士を取得後、博士後期課程から奈良先端大知能コミュニケーション研究室に所属。2020年9月に博士(工学)を取得後、現在は同研究室の助教として対話班を主導している。専門は画像と言語を組合わせて問題を解決するVision & Languageという分野で、特に対話的なコミュニケーションを行えるシステムの研究に従事。
🔗 Webサイト:
https://seitaroshinagawa.github.io/

人の知覚に寄り添ったスマートシティを目指して | ユビキタスコンピューティングシステム研究室

ユビキタスコンピューティングシステム研究室(以下 ユビ研)助教の松田裕貴です。ユビ研では、人々の生活に溶け込んだ様々なコンピュータを活用することで、人や人を取り巻く環境を観測し、状況を理解し、人や環境に還元することで、人々の生活をよりスマートにすることをミッションとして研究に取り組んでいます。使用するコンピュータは多種多様で、スマートフォンやスマートウォッチといった人が身につけるモノや、スマートスピーカーやスマート家電といったモノなど、近年で「IoT(Internet of Things)」と呼ばれる機器すべてが対象となります。

今回は、科学技術振興機構の令和2年度戦略的創造研究推進事業(JSTさきがけ)に採択されたプロジェクト(採択課題名: 人の知覚を用いた参加型IoTセンサ調整基盤の創出、以下 さきがけ研究)について、これまで取り組んできた研究の説明を交えつつ紹介します。プロジェクトの肝である「人の知覚」や「IoTセンサ調整」といったキーワードが一体何なのか?ということを解説できればと思います。

# JSTさきがけとは
国の科学技術政策や社会的・経済的ニーズを踏まえ、国が定めた戦略目標の達成に向けた独創的・挑戦的かつ国際的に高水準の発展が見込まれる先駆的な目的基礎研究を推進します。科学技術イノベーションの源泉となる成果を世界に先駆けて創出することを目的とするネットワーク型研究(個人型)です。

出典: さきがけ プログラムの概要

# 採択課題の概要
IoTが都市の至る所に設置される未来のスマートシティでは、データに基づく様々なサービスが日常生活をより豊かにするでしょう。その実現には、センサデータを統合し私達の「感覚」に寄り添った情報を取り出すための持続可能な基盤が必要となります。本研究では都市IoTセンサを「人々の知覚」によって調整することで、種類・精度の異なるセンサデータを統合する「ユーザ参加型IoTセンサ調整基盤」の創出を目指します。

出典: さきがけ「IoTが拓く未来」領域 令和2年度採択課題

参加型センシングによる夜道の安全性判定

まず初めに、さきがけ研究の着想の原点となる研究を紹介します。

この研究では、夜道の安心・安全な経路を案内できるナビゲーションを実現するために、夜道がどの程度明るく安全であるかをセンシングによって明らかにすることを目的としています。しかし、街中の情報を網羅的に集めることはなかなか容易ではありません。そこで、一般市民が普段から使用しているスマートフォンのセンサでデータを収集・提供してもらうことで、集合知的に都市環境の把握を目指す「参加型センシング」という技術を活用します。具体的には下図のような手順で、街灯が設置されている位置やその明るさのデータを収集・分析し、夜道の安全性を判定します。

参加型センシングを用いた夜道の安全性推定の流れ

データ収集の結果は以下のようになります。なんとなくどの道が明るそうといったことが読み取れそうですね。このデータを元にして、道路に設置された光源(街灯など)がどこにあってどの程度の明るさであるかを推定し、それぞれの道の安全性を判定していきます(判定には日本防犯設備協会の定める基準を使用)。

一見、この研究が達成されれば、人々に安心・安全な夜道を案内するガイダンスシステムが作れそうに思えますが、人が実際に「安心」と感じるかどうかという主観的な部分がカバーできていません。

人のセンシングによる観光客の心理状態推定

つぎに、対象とする状況・内容は上記と異なりますが、人の主観的な情報(人がどう感じるのか?)を明らかにする研究として、観光中の観光客の心理状態推定に関する研究を紹介します。

この研究では、観光客が観光スポットを訪れた際にどの程度満足したのか?どういった感情を抱いたのか?という情報を元に、次に推薦するスポットを動的に調整する新しい観光ガイダンスを実現することを目的としています。しかし、観光していく中で毎回アンケートに回答するのは面倒ですよね。そこで、観光客の無意識にとる仕草や生体反応をもとに、観光客の心理状態を推定できるようにしようというのがこの研究です。下図のように、観光中の観光客の持つデバイスから情報を収集・分析することで感情や満足度を推定するモデルを構築しています。

実際に様々なセンサを装着してもらいつつ観光実験をしている様子が以下です。これによって得られたデータをつかって、心理状態推定モデルを構築します。まだまだ精度は高いとは言えませんが、7段階評価の満足度推定に関しては1段階程度の誤差で推定できるようになっています。

この研究を進めていくうちに、人の心理状態は環境にも大きく影響を受けている可能性が示唆されており、やはり「環境を対象としたセンシング」と「人がどう感じるか?」ということを繋いであげる新たな研究が必要であろうという視点が生まれてきました。

さきがけ研究で目指すこと

こうした背景から、さきがけ研究がスタートしました。

さきがけ研究では、参加型センシングの仕組みを用いて「人がどう環境を認識・解釈しているのか?(=知覚)」という情報を街中で収集し、都市環境に存在するIoTセンサから得られるデータとの関連性を見出すことによって、人がどう感じるか?を理解できる次世代のIoT(IoPT: Internet of “Perception-aware” Things)を創り出すための基盤の実現を目指しています。

一般にセンサの較正というと、より正確な測定器を使ってセンサの出力値を調整するのが一般的ですが、さきがけ研究では、人がどう感じるか?という主観的なデータ(知覚データと呼びます)を「正解データ」としてセンサの出力値を調整することに違いがあります。知覚データの収集は人間にしかできませんが、特別なセンサを必要とせず各々の感覚を正解として取り扱うことができるため、スマートフォンを用いた参加型センシングを応用することで、時空間的に網羅的なデータ収集が期待できます。

しかしながら、一般的な較正と異なり、人の知覚は個人差が存在するため、正解データは一意に定まりません。例えば、知覚データを5段階評価で集めるとすると、全ての人が「3」と答えるわけではなく「2」や「4」なども回答に含まれる(分布形状となる)ことが考えられます。そのような曖昧な「知覚」をどのように表現するのか、どのようにセンサを調整するのか、というところが研究のポイントとなります。

この研究を通じて、「機械」と「人」とのギャップを埋め、より人の知覚に寄り添ったスマートシティを実現することを目指します。

現在は、自治体や民間企業との連携体制を構築しているところで、これから実際の「街」でこの研究に関する実証実験を進めていく予定です。

著者紹介

松田裕貴(まつだ ゆうき)

明石工業高等専門学校専攻科を卒業後、奈良先端科学技術大学院大学(NAIST)にて博士前期・後期課程を修了。博士(工学)。情報科学技術と人間との協調によるヒューマン・イン・ザ・ループなシステムを中心に、IoTやAIを活用したより高度な社会を実現するための研究に取り組んでいる。研究成果を応用し開発した「夜道を安心して帰宅できるよう支援するナビゲーションシステム」は、オープンデータアプリ総務大臣奨励賞を獲得するなど高く評価された。最近では、都市環境におけるユーザ参加型センシングとスマートデバイスを用いた心理状態推定を研究テーマとして取り上げ、実環境ベースでの研究を進めている。
🔗 Webサイト: https://yukimat.jp/