脳科学者の茂木健一郎氏(ソニーコンピュータサイエンス研究所 シニアリサーチャー)が、放送メディアの人工知能AI (Artificial Intelligence)活用の最前線に迫るシリーズ企画“メディアAI探訪”。第3回は、手話のCG(Computer Graphics)に活用されるAIを深堀りします。

案内役は今回も、NHK放送技術研究所(以下、NHK技研)のAIエキスパート・河合吉彦シニア・リード、そしてNHK技研で手話CGの研究開発に携わる内田翼研究員と、NHK財団で実用化研究をしている梶山岳士研究員です。

脳科学者 茂木健一郎さん

アタマも身体もフル回転!手話通訳は重労働

NHKでは、手話を必要とする方に情報を届けるため、いくつかの番組で手話放送を行っていますが、これを拡充することは容易ではありません。特に災害など緊急時のニュースで、即座に対応するのは難しいのが現状です。
手話CGの研究開発に携わる内田翼研究員は、自ら手話の習得にも励んでいます。話題は長時間手話通訳をすることの大変さから始まりました。

※ Eテレでは手話ニュース(月~金は午後1時~1時5分/土日は午後7時55分~8時)と手話ニュース845(月~金の午後8時45分~9時)週間手話ニュース(土の午前11時40分~正午)を、NHK総合では2023年10月より日曜日夜のニュース845に手話放送を実施している。

茂木:内田さんは手話を勉強しているということですが、実際に使ってみて何が一番大変ですか?

内田:私自身は長時間、手話を使う事は少ないのですが、手話通訳者の方に伺うと、長時間、手話通訳をすると肩が上がらなくなるなどの身体的な負担と、文法も一般的な日本語とは違うので、脳が疲労して翻訳の質が下がること、2つの点で大変なようです。

河合:同時翻訳に似ていますね。日英同時翻訳などの場合は一定時間で作業を交代していると思います。
手話通訳ですと同時に腕を動かしているわけですから、単純ではないと思いますが、倍の負担があってもおかしくないですね。

茂木:確かに、我々の生活で通常はそんなに負荷が掛かることは無いですね。

内田:こういった点からも、緊急時や長時間の対応ができる手話CGへの期待が大きいと考えて、NHK技研では、CGによる手話情報提供の研究を2009年に開始しました。

NHK放送技術研究所 内田翼研究員
「私も手話を勉強しています」

NHK放送技術研究所のAIエキスパート
河合吉彦シニア・リード

まず“モーションキャプチャー”で手話の動きをデータ化

手話通訳者の動きをCGキャラクターで再現するためには「モーションキャプチャー」という技術を使っています。手話通訳者やろう者に協力していただいて、その身体に、動きを追尾できる「マーカー」をつけて、実際に手話をしているときの軌跡を記録するものです。手話動作では腕や身体の動きのほかに、手指の動きや表情による顔の動きまで細かく取得します。
モーションキャプチャースタジオも視察した茂木さんは、そのデータ取得方法についてたずねます。
手話通訳者の動きをデータ化したもの(左)から、CG(右)を作成
モーションキャプチャーではこんな白いマーカーを身体につけて手話の動きをしてもらいます
モーションキャプチャースタジオ/ 柱の上についている黒い丸いものは特殊なカメラで、その数20台以上!様々な角度から、身体に取り付けた“白い点”の動きを記録します。

茂木:技術的にはもっと精度よくデータを取る方法もあるように思いますが、拝見したマーカーデータから生成される手話CGで、ろう者の方は十分だと評価されていますか?

内田:はい、腕や身体、手指の動きのデータから生成したCGで、基本的な手話の表現は理解できるというご意見をいただいています。課題は顔の表情の部分で、当初はキャラクターによっては怖かったり、悲しげだったりしていました。ただ、最近の研究ではこの点はかなり改善されてきています。


手話には“男女差”も“方言”も!

茂木:拝見しているのは女性のキャラクターですが、手話の表現に性差はあったりするのですか?

内田:あります。男性のモーションデータを女性のキャラクターで再現してしまうと違和感が出て上手く伝わらないので、現在は同じ性別のデータを取得して使っています。

茂木:そうなんですね!じゃあ、地域性というか、方言みたいなものもあるのでは?

内田:方言もあります。手話では特定の地域だけで通じるものも多く、標準語はないと言われています。ただ、NHKでは手話ニュースで全国のろう者に伝わりやすい表現を日々検討しながら番組を制作している実績があり、そのノウハウをCG制作にも生かしています。

茂木:その点では、色々と議論はあると思いますが、NHKの放送が日本語の標準化に果たした役割と同様に、手話放送が日本語の標準手話を探索していくみたいな意義もあると思うなぁ。

河合:NHKだけで決めていけるものでもないと思うので、色々な機関の皆さんとの連携の中でできれば可能性はあるかもしれないですね。


スタートは定型文から。
さらに複雑な「任意文」に挑戦!

内田:現在、CG用に収録している手話単語は約8,000語あります。これらを活用してCG動画を制作しますが、NHKが公開している手話表現を確認するサイト「手話CG単語検索サイト」でも、この収録した手話単語を公開しており、手話の学習者などにもご利用頂いています。

また、「天気・防災手話CG」のサイトでは、気象庁から気象電文として朝昼夜の3回配信される全国142地点分の定型的な天気予報の情報をお伝えしています。「晴れ時々曇り」とか「雨」など定型的な情報は、都度、手話通訳者にお願いするのは効率的ではありませんので、手話CGで提供しています。このサイトでは、地震や津波などの警報が発出された場合に、手話CGで警戒や避難を呼びかける情報を提供します。

茂木:なるほど、これは面白い!定型文による穴埋めならば、こういった使い方ができますね。

NHKの天気・防災 手話CGのサイトでは警報・注意報が発表されると(右)自動的に切り替わる
茂木先生「なるほど定型文は可能ですね」

「この先が問題なんです」と内田研究員

日本語と文法が異なる「手話」 AIで翻訳

幅広い放送コンテンツに適用する場合、定型文の手話CGにとどまらず、任意の日本語文(以下「任意文」)を手話に翻訳する必要があります。そのために乗り越えなければならない大きな課題が「“日本語”と“手話”は文法が異なる」ということです。そこでAIの出番。話題はいよいよ手話CGで活用するAI技術へと進みます。

茂木:ろう者が使う手話は、日本語と語順が違うと言われますがどう違うのでしょう?

内田:例えば、「あなたはどこに住んでいますか?」と聞く場合、手話では「あなた/住む/場所/どこ」と言う具合に、疑問詞が最後にくる語順になります。

茂木:じゃあ、「あなた/食べる/なに」だと「あなたは何を食べていますか?」になるという事ですね。主語と動詞の結びつきが強い。英語に近い感じですね。

内田:はい、英語の語順に近いと言われることもあります。ただ、「日本語対応手話」と呼ばれる、日本語の表記に沿った語順で表現する手話もありますので、複雑です。

河合:ろう者の間では、長い年月をかけて伝わりやすいやり方として体系化されているのでしょうが、必ずしもそうはならない場合があるので、単純ではないんですね。

茂木:字幕ではどうでしょう?手話を使っている方々は、手話と字幕ではやはり手話の方が良かったりするのですか?

内田:「人による」という答えになります。中途失聴でそれまでは音声で会話ができていた人では字幕が便利、という人が多いと思いますが、先天的に耳が聞こえず、幼少期から両親と手話でコミュニケーションをとってきたような人だと、手話の方が圧倒的にわかりやすいという人も多いと思います。

茂木:そうか~、極端なことを言うと「音声による」日本語になじみがない方がいるという事ですね。そうした人達の、大河ドラマとか朝ドラとか人気のあるコンテンツを観たい、という要望に応えるために、任意文対応に取り組まれているという事ですね。

内田:はい。さらに語順以外にも、任意文対応では、CGキャラクターの表情や姿勢、口型、頭と顎の動きなどが重要になります。動作のスピードや空間的に手話を出す位置、前後の単語の関係で変化することも必要になって、そこが難しいところです。また、同時性という特徴を持つ手話には助詞に相当する単語がなく、抽象的な表現を避けながら、視覚的にわかりやすい形で情報を一度に伝える感じです。

茂木:という事は、手話は情報の圧縮密度が高いのですね。手話で書いた小説とか、あれば見てみたいなぁ…、ヘミングウェイみたいな、研ぎ澄まされた感じだったりして(笑)。面白いですね。こうしてお話しを聞いていると、勉強したくなりますね、手話。改めて、ネイティブの人達の会話も見たくなってきました。

梶山:任意文を対象とした手話CGでは、日本語を手話翻訳する際にAI技術を使っています。ここでは、翻訳用の対訳コーパス(日本語のテキストと手話動作を表すテキストのペアを集めたデータベース)を大量に用意してAIに学習させて、任意の文を手話CG化するための翻訳をしていることになります。
AIが翻訳した手話単語を単純につなぎ合わせるとディテールが失われてしまうのでCGを作る過程でテンポ調整なども行っています。

​NHK財団 梶山岳士研究員
「翻訳でAIが活躍するんです」

「うなずき」も重要な情報

任意文を翻訳するシステム(右)【 】でくくられた手話単語列で表示される

茂木:単語が並んでいるなかで、この、先頭と最後にある“N”は何を表していますか?

梶山:“N”は、うなずきの動作です。うなずきは句読点や助動詞的な役割などを持つと考えられています。

茂木:うなずき方に種類はあるのですか?

「うなずきも翻訳していくんです」内田研究員(左)と梶山研究員(右)

内田:実はうなずき方も文脈次第で何種類もあって、言語学的にも十分には解明されていません。バリエーションが決まればそれに沿ってやれるのですが、今はまだ手探りで決めている感じです。

茂木:手話は時空間動作だから大変ですね。こうして聞いているとグランドチャレンジだなぁ…

“任意文を手話CGで表現させる”デモを見る茂木さん

― 手話CGの奥深さに触れた茂木さんは、このあと最新の任意文手話CGを視察して、動きの自然さに驚いていました。

手話CGの未来に期待するもの

いつものように、最後に茂木さんの手話CGへの期待を2つご紹介します。

潜在的な手話ニーズに応える
首相会見やフォーラム、シンポジウムなどの公共的な場で手話を付ける機会が多くなってきていますよね。潜在的な需要は多くて、それに応える形で増えてきていると思います。
そういった機会にも、手話CGがその一端を担う可能性は高いし、NHKが開発してサービスとして提供するとインパクトはありますね。テレビでも、字幕ボタンの次は手話ボタンが付くようになって欲しいなぁ。

手話言語の価値拡大
フォトジャーナリストの渡部陽一さんは、身振り手振りを加えながらゆっくりとお話しされます。実はあれ、世界各国を巡られて現地の人たちとコミュニケーションを取るための手段として習得されたもので、手話に近い気がします。
日本語と英語だと明らかに言語体系が違いますが、ジェスチャーを起源としている手話は万国共通になる可能性を秘めていますね。NHKの手話CG検索サイトで学習して習得した手話が、グローバルなコミュニケーションツールになるかもしれません。
脳トレ的な観点では、我々のような高齢者のアンチエイジングのツールとしても有望だなぁと感じました。

第3回の探訪では、手話CG制作に活用されるAI技術に迫りました。
奥深い手話CGの世界を探訪した茂木さんは、手話の社会的ニーズと言語学的な価値を改めて認識しながら、今回の探訪を終えました。

最終回となる次回は、画像認識で活用されるAI技術を深堀りします。
次回もお楽しみに!

今回探訪した手話CG技術のお問い合わせ先↓
https://www.nhk-fdn.or.jp/es/contact/index.html

(取材・文/NHK財団 社会貢献事業本部 石井 啓二)