東北大学技術
整理番号:S20-017
大規模感情音声コーパス JTES
AIや音声認識の研究開発で利用可能な日本語発話データベース
概要
AIなどを利用した音声対話システム(チャットボットを含む)の多くは、発話内容の言語的情報のみを扱い対話が行われている。そのため対話内容によっては、対話が成り立たない場合や対話の不自然さを感じる場合があるといった課題があった。
JTES(Japanese Twitter-based Emotional Speech)は入力された音声の声色等から感情を推定する「感情認識」、感情音声の入力に対して音声の認識を行う「感情音声認識」、感情の乗った音声を合成する「感情音声合成」を実現する音声対話システムに利用するための汎用感情音声コーパスである。具体的には、一般話者の4感情(喜び、怒り、悲しみ、平常)の各50文を100名(男女50名ずつ)が発話した20,000発話(23.5時間)が収録されている。
JTESは、実現することが可能である高精度の感情認識や、表現豊かな合成音声の研究開発に利用することができる。
性能・特徴等
応用例
・音声感情認識
・対話型AI(チャットボット、対話ロボット、対話型ゲーム、etc)
・感情音声合成
知的財産データ
発明者 : 能勢 隆、伊藤 彰則、千葉 祐弥
技術キーワード: コーパス、音声、データベース、音声認識、音声合成、AI、生成AI、ゲームAI、チャットボット、対話