Retrieval-based-Voice-Conve.../README.ja.md

4.8 KiB
Raw Blame History

Retrieval-based-Voice-Conversion-WebUI

VITSに基づく使いやすい音声変換voice changerframework

madewithlove


Open In Colab Licence Huggingface


更新日誌

English | 中文简体 | 日本語

demo動画はこちらでご覧してくでさい

RVCによる実時間音声変換: w-okada/voice-changer

基底modelを訓練trainingしたのは、約50時間の高品質開源open source資料集datasetVCTK。著作権侵害を心配することなく使用できるように。

今後は次々と使用許可のある高品質歌声資料集を追加し、基底modelを訓練する。

はじめに

本repoは下記の特性があります

  • 調子toneの漏洩が下がれるためtop1検索で源特徴量を訓練集特徴量に置換
  • 古い又は安いGPUにでも高速に訓練できる
  • 小さい訓練集でもかなりいいmodelを得られる(10分以上の低noise音声を推奨)
  • modelを融合し音色をmergeできる(ckpt processing->ckpt mergeで使用)
  • 使いやすいWebUI
  • UVR5 Modelも含めるため人声とBGMを素早く分離できる

環境構築

poetryで依存関係をinstallすることをお勧めします。

下記のcommandsは、Python3.8以上の環境で実行する必要があります:

# PyTorch関連の依存関係をinstall。install済の場合はskip
# 参照先: https://pytorch.org/get-started/locally/
pip install torch torchvision torchaudio

#Windows Nvidia Ampere Architecture(RTX30xx)の場合、 #21 に従い、pytorchに対応するcuda versionを指定する必要があります。
#pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

# PyTorch関連の依存関係をinstall。install済の場合はskip
# 参照先: https://python-poetry.org/docs/#installation
curl -sSL https://install.python-poetry.org | python3 -

# Poetry経由で依存関係をinstall
poetry install

pipでも依存関係のinstallが可能です:

注意:faiss 1.7.2macOSSegmentation Fault: 11を起こすので、requirements.txtの該当行を faiss-cpu==1.7.0に変更してください。

pip install -r requirements.txt

基底modelsを準備

RVCは推理・訓練のために色んな事前訓練した基底modelsが必要。

modelsはHugging Face spaceからdownloadできる。

以下は、RVCに必要な基底modelsやその他のfilesの一覧です。

hubert_base.pt

./pretrained 

./uvr5_weights

# ffmpegがすでにinstallされている場合はskip
./ffmpeg

その後、下記のcommandでWebUIを起動

python infer-web.py

Windowsをお使いの方は、直接にRVC-beta.7zをdownload・解凍して、go-web.batをclickでWebUIを起動できる。

また、repoに小白简易教程.docがありますので、参考にしてください(中国語版のみ)。

参考したprojects

貢献者contributer皆様のご協力を感謝して致します