👄
2021-05-30
TLAQuは深層学習系の読み上げソフトです。
https://www.youtube.com/watch?v=KK4vdyx7e0k
動画の音声もTALQuで生成されたものだと思いますが、特に違和感もなくすごいです!しかも、これを一人の方が開発されています。
TALQuはCPU版とGPU版があります。GPU版のほうが音声の合成に時間がかかりませんが、CUDA11.2を使える環境を用意する必要があります。
学習モデルを作成できれば、TALQuを用いて読み上げることが可能です。(少し知識が必要になりますが、深層学習っていう文字列は知ってるという自分でも作成できました。) TALQuのダウンロード先のFAQに
Q. セットアップ方法の公開は? A. YouTubeの配信で喋ってたりしますね。公式ドキュメント作成は未定です。
と書いてあるので、公式のYouTubeチャンネルをご覧ください。 (セットアップ方法に関して言及されている動画へのURLが明確に示されていない点を考慮して動画へのリンクを貼り付けていません)
昔はUTAUの音源作ってたのでなんか作りたい!!と思い始めました。
というわけで自分の音声モデルを作成することにしました。 下記のnoteを参考に自分のモデルを作成しました。
TALQuモデル生成手順が来たので、敢えて生声でやってみる その2
詳しい内容はnoteをごらんください。自分のメモ程度にまとめて置きます。
2021/12/26 追記 声優統計コーパスを用いたモデル作成はライセンスの取り回しと収録量からTALQuでは非推奨になっています
音声を録音していて、一番の問題はマイクがタイピングの音を拾ってしまうことでした。OREMOはRキーで録音を開始するのですが、毎回音声の最初にカッチっという音が入ってしまいました(青軸キーボードを恨む)。なので、ペンタブのボタンをRキーと動作するようにして、音が出ないようにしました。 2万くらいのマイクを持っていたので、ノイズは比較的少なく録音できました。 ノイズは後から除去するし、入ってもいいかと思うと後で処理が大変なので、できる限りノイズが入らないようにしたほうが良いです。
https://youtu.be/6xzxkWxQ5uo
こんな感じになりました!!