網友評分: 5分
MoeTTS是一款Tacotron2/HifiGAN模型+編譯好的GUI版本發布倉庫,訓練時長3天,約900 Epoch,13人大型模型還在訓練中,之后也會發布至MoeTTS項目頁,視頻后面的模型400 Epoch訓練了5天,語音合成大部分角色效果很好了,數據較少的幾個角色還不太行。
模型目錄格式
單模型可以放在任意位置,如果模型帶有配置文件,請將它重命名為config.json并與TTS模型放置在同一目錄。(例如hifigan,vits模型,它們是帶有配置文件的)
VITS模型請將config.json中的cleaners 改為custom_cleaners
文本輸入格式
文本一般是輸入音素(日語在這里應該輸入羅馬音),但具體要看模型訓練者的數據是怎么輸入的。比如我的ATRI模型(Tacotron2版本)是輸入無空格羅馬音,標點符號只支持逗號句號。
自定義Cleaner與Symbols
你可以在與moetts.exe同級的目錄下找到custom文件夾,這里面存放了兩種模型的文本模塊。
自定義cleaner:找到cleaners.py并修改custom_cleaners函數即可(軟件默認只會移除不在symbols中的字符,不對文本做進一步處理)
自定義symbols:找到symbols.py,將里面的符號為你需要的符號
注意:不同模型可能使用不同的cleaners與symbols訓練,有需要請修改他們,保證模型能正常使用。
GUI使用方法
tacotron2
選擇您的模型路徑與輸出目錄,最后輸入待合成文本,點擊合成語音等待一會軟件會將音頻輸出到輸出目錄/outpus.wav
注意事項:
首次合成需要加載模型,耗時較長,相同模型再次合成不會再次加載,直接合成。
如果切換模型,再次合成會重新加載。
如果修改cleaners與symbols,重新啟動軟件后才能生效。
軟件為64位版本,不支持32位系統。
VITS特殊說明
VITS-Single,VITS-Multi分別為單角色模型與多角色模型
VITS-Multi中的原角色ID即待合成語音的角色ID,需要填入數字,目標角色ID為語音遷移功能的待遷移目標角色ID。
待遷移音頻需要22050的采樣率,16位,單聲道。
標簽: MoeTTS