音声は重要なコミュニケーション手段
コミュニケーションの重要な手段の一つである音声には、文字で表せる言語情報だけではなく意図や感情などの情報が含まれており、音声を使うことで文字だけとは異なる形のコミュニケーションを取ることができます。こうした音声が含む情報については古くから研究が進められてきました。その中の一つである感情については主に声の高さや大きさ、話す速さといった韻律が大きく関わっていることが知られています。
例えば、喜びの声は高く・大きく・速くなり、悲しみの声は低く・小さく・遅くなる傾向があります。このような特徴があるからこそ、誰かが「大丈夫です」と言ったとき、本当に大丈夫なのか、それとも無理をしているのか、といった文字面だけでは分からないことを感じ取ることができるのです。また、感情のような明確な特性だけではなく、私たちが日常生活で話すとき、場面に応じて声の調子が変わることを実感することがあると思います。しかし、近年まで日常生活中の音声のデータが十分に蓄積されておらず、音声の細かな変化を大規模に調査することは困難でした。
この状況を大きく変えたのが、2022年に国立国語研究所が公開した「日本語日常会話コーパス」です。このコーパスの蓄積には私も携わっており、自宅や職場などさまざまな場面で家族や友人などさまざまな相手との会話を収録した大規模なコーパスとなっています。
「日本語日常会話コーパス」を用いた研究
このコーパスを用いた私の研究を一つご紹介します。それは「会話相手によって声の高さは変わるのか」というものです。この研究では、話し手に対する聞き手との関係を、子ども、配偶者・父母・兄弟姉妹・友人知人・先生・生徒・同僚・取引先・客の10種類に分類しました。これらの聞き手に向けて話す声の高さを統計的に分析したところ、次の傾向が見られました。
(1)子ども・配偶者に対する発話では声が低くなる
(2)友人・知人・生徒に対する声は高くなる
(3)先生に対する声は低くなる
(4)同僚・取引先・客に対しては、子ども・配偶者よりも高く、友人知人や生徒よりも低くなる―。
つまり、話す相手との関係によって自然と声の高さが変わっていたのです。皆さんは普段、子どもや配偶者に向けて意識して低い声を出そうとはしていないと思いますが、無意識のうちに平均よりも低い声で話していることになります。さらに、発話の向け先との関係だけではなく、同席者によっても声の高さが変わることも観察されました。例えば、ある男性の音声は、「妻だけがいる場面」と、「妻と義母がいる場面」で妻に向かって話す声を比較すると、義母が同席しているときの方が高くなっていました。

AIと会話する未来に向けて
このように人間は、発話の向け先や同席者、会話の内容などによって声の高さを変化させながらコミュニケーションを取っています。現在、人工知能(AI)の発展により人間同士のように人間とコンピュータが言葉を交わすことが可能になってきました。ごく近い将来、私たちは日常的にAIと音声でやりとりするようになると考えられます。
そこで、コンピュータの音声に人間が備える自然な特徴を取り入れることで、より自然なコンピュータとの音声コミュニケーションの実現が期待されます。

埼玉新聞「知・技の創造」(2025年4月4日号)掲載

石本 祐一(いしもと ゆういち)
情報メカトロニクス学科 准教授
北陸先端科学技術大学大学院博士後期課程修了。博士(情報科学)。国立情報科学研究所、国立国語研究所等を経て2022年4月より現職。