初音ミク - KBDAHOLIC - やぬすさんとこ

アンテナの低い俺は今頃になって色々チェック。基本は自動応答システム。機械臭さ満点だったり、それをヴィブラートで誤魔化そうとして失敗していたり、上手く歌わせるには相当弄らないとダメなんじゃないかと思わせる。そもそも上手く歌うというのは人間的に歌うということなので、音のブレがあったりヴィブラートが安定してなかったりといった汚れがあるほうが評価されるわけで、3DCG とかでは今これを何とかしようと頑張っている節が見られる。

そもそも喜怒哀楽によって声のトーンは変わるし、訛りなどによっても最終的なアウトプットは変わってくるので上手く、というか自然に歌わせたりしゃべらせたりするにはバックに感情エンジンや言語データベースなんかを背負わせないと無理なのかもしれない。ただまぁ現状でも日常会話をこなすポテンシャルは持っていると思うので、人工無能を喋らせるとかの具体的な着地点は見える。とりあえず無害なもので試してみようという科学の基本的アプローチと、できたら相当遊べるんじゃね ? 的な打算で誰かやってみないものだろうか。

これからの発展方向としてはやはりシャロン・アップルなのだが ( 共通幻想 ) 、まだまだかかるんじゃないかと思う。

文字(〜抽象表現)〜音程へのリアルタイムコンバート
感情の付加
意味抽出〜コンテキスト理解〜アクセント付加

とか、課題は色々あるはず。前 2 つは現状でも金をかければそれっぽいものはできると思うが、三番目は正直どうするかわからない。そもそもコンテキスト理解は過去に色々やって失敗して人間が指示する ( SGML [ -> HTML ] -> XML の流れ ) しかないんじゃね ? 的な流れだったと思うのでダメくさいかもしれない。