脳科学者の茂木健一郎氏(ソニーコンピュータサイエンス研究所 シニアリサーチャー)が、放送メディアの人工知能AI (Artificial Intelligence)活用の最前線に迫るシリーズ企画“メディアAI探訪”。

最終回は、本企画の案内役、NHK放送技術研究所(以下、NHK技研)のAIエキスパート・河合吉彦シニア・リードが、自身の専門である画像認識で活用されるAIを、茂木さんと一緒に深堀りしていきます。

茂木健一郎さんの探訪をお迎えするのは、NHK技研で河合さんと研究開発に携わる望月貴裕チーフ・リードと遠藤伶研究員、NHK財団で実用化開発を推進する苗村昌秀上級研究員、しゅ牟田むた肇職員です。

今回は、番組制作の現場でその活用が浸透しつつある白黒映像の自動カラー化システムと顔認識技術、映像要約システムの奥技を茂木さんに紹介しました。


処理時間は従来比60分の1!?

写真や映像の色は、情景を鮮明に表現して臨場感を高める効果があります。カラーテレビが標準となった現在、過去の白黒写真やフィルムをカラー化して番組素材に活用することが良くあります。ところがこのカラー化の作業、1枚1枚の絵(画像)を人の手で色付けしていくので、膨大な作業量になっていました。そこで開発されたのがAIによる白黒映像の自動カラー化システムです。学習に利用された白黒画像は約800万枚。システムの心臓部ではAIがフル活用されています。

遠藤研究員が手掛けて、この技術が脚光を浴びるきっかけとなった「NHKスペシャル ノモンハン 責任なき戦い 」(2018年8月15日放送)のカラー化映像の紹介から、探訪はスタートしました。

遠藤 「NHKスペシャル」のカラー化映像は反響が大きく、視聴者からは「その時代にカラーカメラがあったのか?」といった問い合わせもありました。

茂木 肌に色が着いているだけでも印象がガラッと変わりますよね。白黒の映像とカラー映像で視聴時間に差が出るとか、そういった研究はされていますか?

遠藤 研究としての取組みはありませんが、放送後のSNSの反響を見ていると、若者には分かりやすい印象として捉えられているようです。

茂木 脳の認識という観点では、同時代性というか、同じ時代に感じて理解が深まる効果はあるでしょうね。

NHK技研の遠藤伶研究員

遠藤 AIを使った自動カラー化はとにかく工数を大幅に減らすことができるのが特徴です。人の手で作業していた時に比べるとおおよそ60分の1の処理時間になっています。

茂木 それは破壊的な数字ですね。計算は1枚のフレーム画像毎(フレーム:動画を構成する1コマ1コマのこと。テレビは一般的に1秒間に60フレーム)にやっているのですか?

遠藤 フレームごとに色が変わるとおかしな映像になるので、時間的な処理にも配慮しています。例えば、最初に人が出てきたところの肌の色で決めて、それを引き継いで時間的な連続性を担保していきます。この効用による処理時間の節約も大きいですね。

茂木 そうすると極端な話、1枚の色が決まってしまうと全部の色が決まってしまうという事になりますね。

自動カラー化システムの仕組み

望月 一律にそうとは言えず、途中でオブジェクトのサイズが変わったり、向きが変わったりすると違和感の原因に繋がるので、色付けが必要になるキーフレームの数を増やす必要があります。ですから、動きが激しくなると作業は大変にはなりますね。

河合 照明の具合でも変わってきますしね。長いインタビューとか、最近取り組んだ例では落語とかはキーフレームは少なかったですね。将棋とかも少なそうな気がします(笑)。

NHK技研の望月貴裕チーフ・リード
NHK技研のAIエキスパート、河合吉彦シニア・リード

遠藤 この技術の使い始めの頃は関係者もピリピリしていて、「間違った色は絶対ダメだ」という意識がありました。でも、AIは完全ではないので、最後は時代考証の専門家などの監修を受けて色を決めていきます。

茂木 時代が古くなると監修も大変でしょうし、公開してしまうとカラー警察みたいに異論を唱える人もあるかもしれませんね。

遠藤 色が違うなどと言われるのではないかと危惧しましたが、意外と苦情はなかったですね。

茂木 例えば、犯罪が起きた時の目撃者証言とかって、意外と色のところはテキトウだったりしますよね。ポストの色が赤いのは明らかですけど、服の色とかは案外曖昧なんですよね。

遠藤 今は、地域局からも引き合いがあります。その地域のイベントのモノクロ映像が残っていて、1人でも1週間ぐらいでカラー化ができるという事で利用してもらっています。

河合 地域局ではカラー化して使用するまでの時間に限りがあることもあり、よく見ると白黒映像のところが残っていたりしますけど、あまり気にならないですね。

茂木 色合いが彩色絵葉書に似ていたりして特長がありますよね。そこはそれで味わいがあって見入っちゃいます。脳の中で世界の色はこんなもんだと記憶している色があるから、違和感がなければ許容されるかもしれないですね。NHKオンデマンドとかでモノクロの良いコンテンツをカラー化して公開すれば、きっと有料でも見たいという人があるかもしれないですよ。

マスク顔の次に挑むのはサングラス顔!?

次に説明を受けるのは顔認識技術です。この技術は、番組取材をした映像素材に人物のメタデータ(映像の内容を記述する情報)を付与するために利用されています。開発のきっかけは、コロナ禍にマスク顔の人物を特定できないかという番組制作現場の要望から始まりました。この要望に応えるためNHK技研の河合さんがAIの学習に工夫を凝らします。NHK財団で実用化を進める苗村さんと朱牟田さんにその現状を紹介頂きました。

茂木 この顔認識技術は、既にNHKの番組制作で活用されているものですか?

苗村 実際に使用されていて、動画編集時に顔認識による人物のメタデータが活用されています。

茂木 帽子を被っていたり、サングラスやマスクしていても認識できるのですか?

苗村 帽子やマスクはうまく認識できます。河合さんの発案で、マスクを疑似的に付けた顔画像をたくさん学習して認識精度を上げていきました。サングラスは学習データが圧倒的に少なくて、まだ十分には認識できていません。ブラタモリのタモリさんも難しいのです(笑)。

NHK財団で実用化開発を推進する苗村昌秀上級研究員

茂木:なるほど、個人の認識精度が高まる感じがしますが、そうなると今は著名人の認識に特化した使われ方でしょうか?

苗村 はい、システムで対象となる人物のデータベースがあるので、そこにある約1万7千人の中から認識結果として選ぶようになっています。

どのようにして顔認識をしているかを茂木さんに解説する研究員たち。

茂木 例えば組閣の時の記念撮影のように1枚の画像に複数人がいても大丈夫ですか?

苗村 はい、複数人の場合でもおおよそ0.1秒ぐらいで顔認識できます。実際の映像では、横や下を向いている方がいらっしゃるので、正解率としては7、8割です。ただ、映像だと動きの中で顔の領域を追跡しますので、1枚の画像で認識があいまいであっても、継続して追跡するうちに正解率が上がれば、映像をさかのぼって認識決定していきます。これは映像ならではの利点ですね。

茂木 さすがだなぁ、国会中継の委員会室とかでも使えそうですね。ところで放送番組映像自体には、メタデータは付いていないのですか?

河合 今は素材映像にだけ付いています。私たちが想定しているのは、スポーツ番組などで画面に顔が出た時に、「有名な選手なのに顔が分からない、名前がわからない」といった事にならないように、制作現場をサポートするような使い方を考えています。

茂木 実況とかでアシストする感じですね。

苗村 外国の要人が集まるサミットなど、見慣れていない外国の方を見分ける時など使えます。

河合 大統領や首相は皆さん良くご存じですが、お名前まで含めて副大臣まで全部認識しておくのは大変な労力ですからね。

茂木 なるほど、0.1秒だからリアルタイムでできるわけですね。放送現場は喜ぶだろうなぁ。こうした用途だと、データベースを正確にアップデートして管理する部署が必要になってきますね?

河合 そこをNHK財団が担っています。具体的な例で言えば、国政選挙などで議員の皆さんが入れ替わるたびに更新が必要になります。

茂木 知識を持った担当者が必要だろうし、この技術の展開では重要な役割ですね。顔認識情報を視聴者に提供できないですか? 喜ばれる方もいらっしゃると思います。僕自身も、朝ドラを見ていても、出演している俳優さんの情報がほしい気がしますし、スポーツだとラグビーでも欲しいなぁ……。

朱牟田 技術的には出来そうですね。情報の開示に許諾が頂ければ、NHKだと大相撲あたりからやるのは良いかもしれないですね。

NHK財団で実用化開発を推進する朱牟田肇職員

茂木:大相撲は僕もヘビーユーザーなのでやってほしいなぁ(笑)。行司さんとか呼び出しさんとか、コアなファンは嬉しいかもしれないですね。それがあると大相撲ファンも嬉しいし、ファンの拡がりもあるかもしれないですね。

編集マンのノウハウを学習する映像自動要約AI

映像の自動要約システム について説明をするのは、NHK技研の望月さん。定時ニュースのショート動画制作に端を発したこの技術で次に挑むのはドキュメンタリーやドラマの自動要約です。既に放送現場で実用化されたシステムで生成された各地域の定時ニュースの要約映像 を鑑賞しながら、茂木さんとの議論は映像要約の応用にまで及びました。

望月 NHKでは、過去に1分ニュースの映像配信を行ってきた実績があり、この映像を学習データとして、特徴的なシーンを抽出する定時ニュースの自動要約システムを開発しました。このシステムでは、ニュースを項目ごとに分割して、冒頭のアナウンサーのリード文の時間に合わせて映像を要約する仕組みになっています。

ニュース項目をどう自動要約するか、図版で説明。

茂木 なるほど、編集者の要約のわざを学習しているという事ですね。アナウンサーのリードを使っているのは面白いですね。典型的には1項目のニュースが何分の一になるのですか?

望月 おおよそですが5〜6分の1ぐらいになります。厳密にぴったりにはならないのは、細かいところですが文字スーパーが残っていると気になるので、検出して意図的に伸ばしたりする工夫が入っています。また、システムとして自動要約後に細かな編集調整ができるような仕組みも入っています。

茂木 もう実用化されているのですね。これはいいなぁ~、画期的で凄い。各地域局のニュースがオンラインで視聴できていい。その地域の出身の人にとっては嬉しいですね。

河合 今までは人の手による編集でしたから、人的なリソースが限られる地域局にとってはかなり役立っています。

望月 首都圏局の場合、お昼12時のニュースなら、午後の2時~3時くらいには要約ニュースが出る感じです。要約自体は40分ぐらいで終わるので、あとはチェックの時間ですね。

茂木 こんなもんだと思って普通に観ちゃいますね。若者の感覚からすると要約の方が良いのかもしれませんね。AIが要約しているのでしょうが、経験的にはどういうシーンが要約映像に残る可能性が高いですか?

望月 ズームインがあるシーンとか人のアップがあるシーン、構図が整っているところが選ばれやすいですね。いかにも重要なところが残っている、という絵の作りになっています。

茂木 ドキュメンタリー制作者は音声が大事と良く言われます。脳の知覚としては音声がちゃんと意味があって繋がっていれば、映像は意外と何でも良かったりするのかもしれないですね(笑)。ニュース以外、例えば、ドラマだとどうなるんですかね?

望月 放送現場からはドラマやドキュメンタリーの要約希望もあります。ただ、これらの番組にはリードがないので、画像解析だけでトライしています。全体の時間尺を指定して自動要約することが可能です。また、NHKではなく外部の制作会社が作ったものではありますが、プロが編集した番組要約映像を学習したAIが、重要シーンならではの構図やカメラワークをもつ映像区間を選んでいます。それに、セリフの途中でできるだけ切らない配慮もしています。

茂木 今のところ、今回の話にもあったけどニュースなど報道番組が多いじゃないですか。他のいい番組へのエントリー、知るきっかけとして映像要約が活用できると思いますね。

望月 まさに本当のねらい目はそこだと思いますね。放送本編に誘導するきっかけですね。

茂木 視聴者はNHKがどういう番組をやっているというのを詳しくは知らないんですよ。エントリーポイントとしてネット配信は強力なので、例えば、瞬間視聴率と連動させてやる方法とかできそうですよね?

望月 我々がやってきたのは映像編集のプロがどう映像を切り取ってきたかという観点なので、視聴者がどう見たかという観点は良い気がします。制作者がこれはいいと思っているシーンと、視聴者がいいと思うシーンに乖離があるかもしれないですからね。

茂木 極端な話、オンエアは全然見ていないけど、僕自身はNHKにお支払いしている受信料はNHKが生み出しているコンテンツ全体へのサブスクみたいな感覚があります。ネットでNHKのコンテンツは見ている人も増えてきているので、要約映像の活用は、間接的に受信料を納得させるための重要なツールになるかもしれないですね。

興味深く話を聞く茂木健一郎さん。

画像認識技術の探訪を終えて

最後に今回の探訪を終えた茂木さんの気付きを1つご紹介します。

▼画像認識技術から垣間見えたもの

今回の探訪は放送への貢献が見える技術ばかりで楽しい内容でした。放送分野に役立つ視点から強みを生かして効率よい研究がされていました。放送の概念が変化しつつある中で、コンテンツ流通の時代をどう生き抜いていくかを思案されている。

古き良きお茶の間の幻想に無理がある時代に、どうしたら共通体験ができるかが鍵ですよね。AI技術を通してNHKの将来が見えた気がします。

NHK技研前で記念撮影!

メディアAI探訪の最後に

全4回の探訪の最後に、茂木さんからの講評を頂きました。
「AIにとって重要なユニークなデータセットを持っているのがNHK技研の強みですね。放送現場の需要に的確に対応していく重要性というか、番組制作者のニーズへのアシストが手厚いというところが大変勉強になりました。

わが社ではフラクタルの専門家である高安秀樹氏が、経済物理の専門性を生かして半導体工場の不良品率の改善に取り組んで成果を上げた事例がありますが、インハウスならではの研究の折り返し方が、今回の探訪の場にもあると感じました」(茂木)

IEEEマイルストーンの横で記念撮影する茂木健一郎さん。IEEEマイルストーンとは、IEEE(電気・電子分野の世界最大の専門家組織)が、電気・電子の分野で達成された画期的なイノベーションの中で、開発から少なくとも25年以上経過し、社会や産業の発展に多大な貢献をした歴史的業績を認定する制度のこと。NHK技研は直接衛星放送サービス、緊急警報速報、ハイビジョンで過去に3回認定されています。

全4回の探訪で紹介した音声認識、合成音声、手話CG、画像認識技術のお問い合わせ先↓
https://www.nhk-fdn.or.jp/es/contact/index.html

(取材・文/NHK財団 社会貢献事業本部 石井 啓二)