👄
TLAQu は深層学習系の読み上げソフトです。
動画の音声も TALQu で生成されたものだと思いますが、特に違和感もなくすごいです!しかも、これを一人の方が開発されています。
TALQu は CPU 版と GPU 版があります。GPU 版のほうが音声の合成に時間がかかりませんが、CUDA11.2 を使える環境を用意する必要があります。
学習モデルを作成できれば、TALQu を用いて読み上げることが可能です。(少し知識が必要になりますが、深層学習っていう文字列は知ってるという自分でも作成できました。)
TALQu のダウンロード先の FAQ に
Q. セットアップ方法の公開は?
A. YouTube の配信で喋ってたりしますね。公式ドキュメント作成は未定です。
と書いてあるので、公式の YouTube チャンネルをご覧ください。
(セットアップ方法に関して言及されている動画への URL が明確に示されていない点を考慮して動画へのリンクを貼り付けていません)
昔は UTAU の音源作ってたのでなんか作りたい!!と思い始めました。
というわけで自分の音声モデルを作成することにしました。
下記の note を参考に自分のモデルを作成しました。
TALQu モデル生成手順が来たので、敢えて生声でやってみる
TALQu モデル生成手順が来たので、敢えて生声でやってみる その2
詳しい内容は note をごらんください。自分のメモ程度にまとめて置きます。
2021/12/26 追記 声優統計コーパスを用いたモデル作成はライセンスの取り回しと収録量から TALQu では非推奨になっています
音声を録音していて、一番の問題はマイクがタイピングの音を拾ってしまうことでした。OREMO は R キーで録音を開始するのですが、毎回音声の最初にカッチっという音が入ってしまいました(青軸キーボードを恨む)。なので、ペンタブのボタンを R キーと動作するようにして、音が出ないようにしました。
2 万くらいのマイクを持っていたので、ノイズは比較的少なく録音できました。
ノイズは後から除去するし、入ってもいいかと思うと後で処理が大変なので、できる限りノイズが入らないようにしたほうが良いです。
こんな感じになりました!!
0