SUZURIでフォント販売中

👄

TALQuがすごい!

この記事はblog.yukyu.netで公開した記事を転載したものです

TALQu とは

TLAQu は深層学習系の読み上げソフトです。

TALQu ダウンロードリンク

セットアップ

https://www.youtube.com/watch?v=KK4vdyx7e0k

動画の音声も TALQu で生成されたものだと思いますが、特に違和感もなくすごいです!しかも、これを一人の方が開発されています。

GPU 版もある

TALQu は CPU 版と GPU 版があります。GPU 版のほうが音声の合成に時間がかかりませんが、CUDA11.2 を使える環境を用意する必要があります。

自分の音源も作れる

学習モデルを作成できれば、TALQu を用いて読み上げることが可能です。(少し知識が必要になりますが、深層学習っていう文字列は知ってるという自分でも作成できました。)
TALQu のダウンロード先の FAQ に

Q. セットアップ方法の公開は?
A. YouTube の配信で喋ってたりしますね。公式ドキュメント作成は未定です。

と書いてあるので、公式の YouTube チャンネルをご覧ください。
(セットアップ方法に関して言及されている動画への URL が明確に示されていない点を考慮して動画へのリンクを貼り付けていません)

昔は UTAU の音源作ってたのでなんか作りたい!!と思い始めました。

自分の音声モデルを作成した

というわけで自分の音声モデルを作成することにしました。
下記の note を参考に自分のモデルを作成しました。

TALQu モデル生成手順が来たので、敢えて生声でやってみる

TALQu モデル生成手順が来たので、敢えて生声でやってみる その2

自分の環境

  • マイク:yeti nano
  • TALQu:CPU 版

手順

詳しい内容は note をごらんください。自分のメモ程度にまとめて置きます。

2021/12/26 追記 声優統計コーパスを用いたモデル作成はライセンスの取り回しと収録量から TALQu では非推奨になっています

  1. 声優統計コーパスを録音する(OREMO を使用しました)
  2. wavTar を利用して、録音した音声を一つにまとめます。
  3. ノイズを除去
  4. wavTar を利用して、一つにまとめた音声をバラします。
  5. SoundEngine でファイルを整えます
  6. XmediaRecorde ファイルのサンプルレートや形式を変換します。
  7. ノートブックの指示に従い、ファイルを配置し、スクリプトを実行し、学習していきます。
  8. outdir ディレクトリにできたファイルが学習してできた音声モデルです。

作成してみて

音声を録音していて、一番の問題はマイクがタイピングの音を拾ってしまうことでした。OREMO は R キーで録音を開始するのですが、毎回音声の最初にカッチっという音が入ってしまいました(青軸キーボードを恨む)。なので、ペンタブのボタンを R キーと動作するようにして、音が出ないようにしました。
2 万くらいのマイクを持っていたので、ノイズは比較的少なく録音できました。
ノイズは後から除去するし、入ってもいいかと思うと後で処理が大変なので、できる限りノイズが入らないようにしたほうが良いです。

実際に作成したモデルの音声

https://youtu.be/6xzxkWxQ5uo

こんな感じになりました!!

0