に乗せることで、人が聞いても違和感のない音声合成になって迫力のある演技が実現できると考えています。
ひとまずは、一般の方でも簡単な音声合成ができるプラットフォームの開発から初め、応用特許としてあらゆるジャンルに広めていくことができればと考えています。
音声データを指定
↓
変換したい声の特徴データを選択
↓
変換ボタンを選択したら、弊社プラットフォームにて音声変換
↓
ダウンロードできる
オリジナルで歌ったり喋ったりしている自分の声などを変換したい声にして、ダウンロードできるようにする仕組みを作ります。(WAVファイルという音楽データがダウンロードできる)
日本で有名なアニメを、イタリアかどこかヨーロッパ旅行中にTVで見ていたら、主人公始め全ての登場人物の声があまりにもオリジナルの声とかけ離れていてがっくりしたことがありました。全くヒアリングができないこともないですが、あまりにも声のイメージが合わなくて残念な思いをしました。
また、私が子供の頃から見ていたアニメをひとり息子と一緒に「パパも見てたよ」と話しながら見ていると、声優が変わっていことを知ってショックを受けました。
「俺の知っているあのキャラと違う!どうしてくれる!」
このようなことをなくしたいと思いました。
黒電話が全世界の80%に普及するまでに、約100年以上かかりましたが、携帯電話は、約30年。スマホは5年くらいでしょうか。
インターネットと5Gにより、超零細企業が全世界へサービスを提供できる時代になりました。そしてサービスの普及スピードは、従来のじわじわ普及ではなくJカーブのように急激な普及速度です。
2021年5月には19歳の学生社長が音声合成サービス開発したちまち話題に。2021年8月には、19歳大学生社長が自分の声を深層学習させ、自在に音声合成を可能にする仕組みを開発しました。
私は大学生のとき、大学生4年生と大学院2年の計3年間、研究室で人口喉頭装置の研究(代用声帯の研究)をしていました。
指導教授は、工学部の教授なので工学の博士号を持つのは当たり前でしたが実は医師免許も持つ方でした。医者ができるけど、工学に興味があり工学部の大学教授をしていた変わり者でした。(50歳前後と若くして亡くなったのが残念です)
学生時代に、音声工学という「人はどうやって声を発声しているか」、「あ」はなぜ「あ」なのか?
子供でも大人でも男でも女でも日本人でも海外の方でも「あ」は「あ」と聞こえるのは何故か?
声帯を怪我や手術で失った方からは、声帯を取り除くと喋ることも歌うこともできない理由を学ぶことができました。
今から約10年前の2010年ごろに、ある機関の授業を受けたとき、「50の文章を喋るとその人の声の特徴をデータ化できる」技術があることを知りました。
私は大学生の時、代用声帯の研究をしており、特定話者が喋った音声からその特定話者の声の特徴をなくして喜怒哀楽情報だけを時系列で取り出すことを知っていたので、不特定話者が喋ったり歌ったりした音声をパソコンなどに取り込み(当時はガラケーだったような気がします、今ならスマホに録音)、サーバにて特定話者の音声から喜怒哀楽情報を時系列で取り出し、その喜怒哀楽情報に喋らせたい声の特徴データを時系列で乗せる。乗せるとは、数学の専門用語で「たたみこみ(コンボリューション convolution)する」ことを意味します。
説明が難しいので、簡単に言うと喋らせたい(再現したい)声の特徴データを別の方が喋った音声から喜怒哀楽情報だけ