まずは、この動画の音声を聞いてみてください。誰が読んでいると思いますか?
「越後の国大地震」より
協力/みんなで翻刻
監修/加納靖之・大邑潤三(東京大学地震研究所・地震火山史料連携研究機構)
読んでいるのは、NHK財団が開発したAI合成音声です!
実在するアナウンサーの声をAIに学習させて、江戸時代のかわら版を朗読させました。
この最新技術が使われているのは、技術で過去の災害資料を紹介する「あいおいニッセイ同和損保―災害の記憶デジタルミュージアム」※1です。
このシステムを開発した4人のプロフェッショナル達に、翻刻文※2を読むAI合成音声の開発エピソードと、今後このAIをどう進化させていくか、お話を聞きました。
※1「災害の記憶 デジタルミュージアム」
あいおいニッセイ同和損保社所蔵の災害図コレクション「旧同和火災コレクション」より26点が鑑賞できる。
「デジタルミュージアム」の入り口はコチラ↓(ステラnetを離れます)
https://unpel.gallery/saigai-no-kioku/virtual-gallery
※ 2「翻刻文」
歴史資料の多くは「くずし字」で書かれており現代人には読みにくい。「くずし字」を現代の活字に直し、データとして扱いやすくしたものを翻刻文という。歴史資料には過去に発生した災害について記録するものがある。これら災害史料の情報は、過去の災害時の状況を知る貴重な手掛かりとなる。
翻刻文読み上げのきっかけ
――デジタルミュージアムで翻刻文を読み上げようとしたきっかけは何ですか?
(今井)
今回のデジタルミュージアムでは、ナレーション解説と翻刻文が2つセットになっていて、当初、翻刻はやるつもりなかったのです。 ただ、解説をAI合成音声で読む時に、翻刻文も読めないのかな、と試してみたら、「これ、行けるんじゃないか」と、私自身が思ったところが始まりですね。
翻刻文を自分の知識の範囲で区切ったりして合成音声で聞くと、難しい文章が急に耳に入ってくるような気がして、「これ世の中の人に役に立つかもしれない」って思ったんです。ある意味、第1の被験者が私です。その後、上司にも「これいいんじゃない」と言われ、そこからです。
(星野)
閃きが面白いですよね。こういう難しい文章は読もうとしないし、多分、誰もこれを音声化しようと思ってこなかった。それを音声化できるようになったというのは、何かちょっと意味があるのかなと思う。
本物の私は古文を読むのが苦手で、こんなにスムーズに翻刻文を読めません(笑)。自分の声であたかも自分が読んでいるかのように聞こえてくるのは、すごく不思議な感覚です。
(大邑)
博物館とかに行くと史料の横に翻刻文が添えられていて、実物と翻刻文を見比べながら内容を理解しようとします。しかしそれは歴史的な文章を読解する訓練をある程度受けているから読み方がわかるのであって、訓練を受けてない方だと、活字になった翻刻文でも難しくて読むのを諦めてしまう。翻刻文が添えてあれば親切なんですけど、展示する側もそれで満足しがちですね。
一般の方からしたら、この馴染みのない漢字の羅列を読むのはやっぱりハードルが高いので、こういうふうに音声で耳に入ってくると分かり易い。いろんな方に親しみやすい展示を考える上で、この合成音声には大きなメリットがあると凄く思いましたね。
古文AI合成音声の肝
――翻刻文のAI合成音声読み上げを実現したキーテクノロジーは何でしょうか?
(今井)
この技術はNHKのAI音声合成技術がベースになっています。AIが声の特徴や話し方を学習するのですが、そのためにはかなりたくさんの発話データが必要になります。これを話者や口調ごとに用意するのは大変ですので、少量の発話データで用途に応じた声を実現する「カスタムボイス音声合成技術」を開発しました。予め作っておいた複数話者による大きな発話モデルの特徴を、少量データの特徴で全て上書きするイメージです。
今回、この技術を使って星野さんの声を作りました。収録したのはたった1日で、主に翻刻文の用語や単語を含む説明文のような文章を、それに相応しい口調で安定的に読んでいただきました。録れ高にすると1時間弱くらいなのですが、ここにアナウンサーならではの発話の所作のようなものがそこはかとなく含まれていることを音声合成の出音を聞いて気が付きました。これがキーテクノロジーです。
(星野)
アナウンスの原則として、文中の意味のかたまりは、ひとかたまりとして読み下します。私の肉声をサンプリングした時には、サンプルの文章に「長いフレーズ」は無かったのですが、今回のAI音声を聞くと、長い意味のかたまりを、ちゃんとひとかたまりで読み下している。これにはちょっとビックリしました。今井さんがマジックハンドで何かしたのかなと(笑)。
(今井)
もちろん最終形に手は入れますけども、実は多くの場合、手を入れてもなかなか思い通りになりません。手を入れれば反映されるということは、そういう発話の所作がAIで学習されているからです。それがあってこそ、効果的な修正ができるのです。
(星野)
私たちNHK財団は、この春、4つの組織が統合して、ひとつの財団になりました。2年前の秋に、その先駆けとして「異業種が集まると何が出来るか、お互いに得意分野を出し合って新しいことを始めよう」というプロジェクトが立ち上がりました。その時にエンジニア集団の今井さんの組織から出てきたアイデアがAI音声合成技術だったんです。「それなら私の組織には専門性の高いアナウンサーが大勢いるから肉声を提供しましょう」ということになって、今回の取り組みが始まりました。
それからお互いに行ったり来たり、肉声をサンプリングしたり、途中段階のAI音声を聴かせてもらって「ここをもっとこうしましょう」と意見を言ったり。そうこうしているうちに、エンジニアとしての今井さんの「耳」がどんどん良くなって、AI音声のクオリティが高まっていきました。エンジニアが「アナウンスメントの心」を理解しているのは、とても重要なことだと思います。進化していく今井さんを見ながら「これも財団統合のシナジー効果のひとつかな」と思いました。
完成した翻刻文読み上げへの思いと進化
――完成した翻刻文読み上げへの思い・気づき・今後の展開など教えていただけますか?
(今井)
今はまだ最初のワンステップですが、さらに、大邑先生に直していただいて、次の学習にフィードバックしていくと、AIですのでその分賢くなっていく。そういった仕組みをちゃんと入れていくと、次からはAIが「東御門ぜきみどう」を、最初から「ひがしごもんぜき、みどう」と読めるんですね。
(大邑)
こういった、かわら版は、当時の一般庶民が読んでいました。そう考えると、句読点とか、区切りとかがなくても伝わっていたんだと思います。それはやはり、当時の人たちの一般常識みたいなものがあれば読めるものだった。
速報性を意識して書いた粗いものもありますが、このレベルだとある程度の人だったら読めたと思います。2017年に地震史料の解読を目的に始まったプロジェクト「みんなで翻刻」※3では、こういう形(句読点とか区切りなし)で翻刻する方針になっていますが、「、」を補って翻刻する場合もあります。ただしどこで区切るかも解釈によって違いが出てきます。
我々にはちょっと当時の知識がないので、読めないとか読みづらくなっていて、そこは時代の隔たりですね。そのギャップを埋めてくれるのがこのAI合成音声ではないかと思います。
※3「みんなで翻刻」へのリンクはコチラ↓(ステラnetを離れます)
https://honkoku.org/
(大邑)
漢文で言う、いわゆる白文でそのまま文字だけを書き起こすよりは、句読点がはいっている方が学習データとしてはいいですか?
(今井)
いいですね。学習データを作る場合でも、音声合成で読ませる場合でもこれが一番ありがたいです。句読点さえ入っていれば、一応のことはできます。
(大邑)
私は翻刻の専門家ではないので、やっぱりどこで句読点を打ったらいいのか、どういう風に読んだらいいのか迷うことがまだ結構あります。本当に当時もこのように読んでいたのか、何が100%の正答なのかというのは判断が難しいですね。
(今井)
今は人手で修正していますけど、その結果、AIの学習が進んでくると、いずれ私が修正しようとしても、「いやいやこれならこうじゃないですか?」って、AIが逆提案してくるかも知れないですね。古文の読みは正解がよく分からないと言われますが、AIが決めてくれるかも知れません。
「慶応二年京坂地方大風雨之図」より
災害資料デジタル化がもたらすもの
――災害資料の保有企業として、資料のデジタル化への思いをお聞かせいただけますか?
(横井)
この災害資料は、弊社の前身会社の1つ、同和火災海上保険初代社長の廣瀬鉞太郎氏が、関東大震災をきっかけとして収集したものです。関東大震災では、火災保険に入っていても地震被害が補償の対象外でしたので社会問題にまで発展しました。廣瀬氏は多くの非難を浴びながらも被災者に向き合ってきた経験から、過去の災害履歴の把握や防災への活用のみならず、保険会社と被災者の関係はどうあるべきか考えて欲しいとの思いから収集したコレクションです。
そうした貴重な資料が、今回、京都文化博物館に寄託され、幸いにも優秀な学芸員さんの手で本当に分かりやすく図録にまとめられました。資料の解読で、大邑先生をはじめとする京都大学古地震研究会の皆さんの御協力をいただくきっかけがなければ、恐らくコレクションは世に出てこなかったですね。
コンテンツがしっかり整理されたところに、NHK財団の統合という貴重なタイミングに恵まれ、多彩なリソースと最新技術をお持ちの皆さんとご一緒にデジタル化して「企業の資産を社会の宝にする」という社会貢献事業に一歩進めたというところがとても大きかったですね。本当につながるご縁の賜物です。
(星野)
今回、AI音声技術を生かしたフィールドが「防災」だという点に意味があると思います。地震災害は典型的ですが、遠い過去に起きた災害を、先人たちは絵図や当時の言葉を駆使して懸命に記し、後世に伝え残そうとしてきました。
今回、AI技術を使って、そうした「過去からのメッセージ」に光を当て直し、当時の人々の思いを 「声」で蘇らせたことで、現代の私たちに「より生々しく」訴えかけているように感じます。そうした作業の一端に関わることが出来て、ありがたく思っています。
(大邑)
かわら版はもともとメディアだった、災害報道なのです。そういう意味では、報道を担い伝える技術を持っていらっしゃるNHK財団で、過去のこういう災害報道を音声にしていただいたこと、それはある意味、必然的だったかも知れないし、相性がよかったという事ですね。
今回紹介したAI合成音声技術、NHK財団のお問い合わせ先はこちらです
→お問い合わせ:https://www.nhk-fdn.or.jp/es/contact/index.html
→特許お問い合わせ: https://www.nhk-fdn.or.jp/es/transfer/contact.html