mirror of
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI.git
synced 2025-04-12 15:49:00 +08:00
404 lines
16 KiB
Plaintext
404 lines
16 KiB
Plaintext
├── .env
|
|
├── .gitignore
|
|
├── .vscode
|
|
│ └── settings.json
|
|
├── assets
|
|
│ ├── hubert
|
|
│ │ ├── .gitignore
|
|
│ │ ├── hubert_base.pt
|
|
│ │ └── hubert_inputs.pth
|
|
│ ├── indices
|
|
│ │ └── .gitignore
|
|
│ ├── pretrained
|
|
│ │ ├── .gitignore
|
|
│ │ ├── D32k.pth
|
|
│ │ ├── D40k.pth
|
|
│ │ ├── D48k.pth
|
|
│ │ ├── f0D32k.pth
|
|
│ │ ├── f0D40k.pth
|
|
│ │ ├── f0D48k.pth
|
|
│ │ ├── f0G32k.pth
|
|
│ │ ├── f0G40k.pth
|
|
│ │ ├── f0G48k.pth
|
|
│ │ ├── G32k.pth
|
|
│ │ ├── G40k.pth
|
|
│ │ └── G48k.pth
|
|
│ ├── pretrained_v2
|
|
│ │ ├── .gitignore
|
|
│ │ ├── D32k.pth
|
|
│ │ ├── D40k.pth
|
|
│ │ ├── D48k.pth
|
|
│ │ ├── f0D32k.pth
|
|
│ │ ├── f0D40k.pth
|
|
│ │ ├── f0D48k.pth
|
|
│ │ ├── f0G32k.pth
|
|
│ │ ├── f0G40k.pth
|
|
│ │ ├── f0G48k.pth
|
|
│ │ ├── G32k.pth
|
|
│ │ ├── G40k.pth
|
|
│ │ └── G48k.pth
|
|
│ ├── rmvpe
|
|
│ │ ├── .gitignore
|
|
│ │ ├── rmvpe.onnx
|
|
│ │ ├── rmvpe.pt
|
|
│ │ └── rmvpe_inputs.pth
|
|
│ ├── Synthesizer_inputs.pth
|
|
│ ├── uvr5_weights
|
|
│ │ ├── .gitignore
|
|
│ │ ├── HP2-%E4%BA%BA%E5%A3%B0vocals%2B%E9%9D%9E%E4%BA%BA%E5%A3%B0instrumentals.pth
|
|
│ │ ├── HP2_all_vocals.pth
|
|
│ │ ├── HP3_all_vocals.pth
|
|
│ │ ├── HP5-%E4%B8%BB%E6%97%8B%E5%BE%8B%E4%BA%BA%E5%A3%B0vocals%2B%E5%85%B6%E4%BB%96instrumentals.pth
|
|
│ │ ├── HP5_only_main_vocal.pth
|
|
│ │ ├── onnx_dereverb_By_FoxJoy
|
|
│ │ │ └── vocals.onnx
|
|
│ │ ├── VR-DeEchoAggressive.pth
|
|
│ │ ├── VR-DeEchoDeReverb.pth
|
|
│ │ └── VR-DeEchoNormal.pth
|
|
│ └── weights
|
|
│ ├── .gitignore
|
|
│ └── SilverWolf_e300_s6600.pth
|
|
├── configs
|
|
│ ├── config.json
|
|
│ ├── config.py
|
|
│ ├── inuse
|
|
│ │ ├── .gitignore
|
|
│ │ ├── v1
|
|
│ │ │ ├── .gitignore
|
|
│ │ │ ├── 32k.json
|
|
│ │ │ ├── 40k.json
|
|
│ │ │ └── 48k.json
|
|
│ │ └── v2
|
|
│ │ ├── .gitignore
|
|
│ │ ├── 32k.json
|
|
│ │ └── 48k.json
|
|
│ ├── v1
|
|
│ │ ├── 32k.json
|
|
│ │ ├── 40k.json
|
|
│ │ └── 48k.json
|
|
│ ├── v2
|
|
│ │ ├── 32k.json
|
|
│ │ └── 48k.json
|
|
│ └── __pycache__
|
|
│ └── config.cpython-311.pyc
|
|
├── configure_gpu_deps.py
|
|
├── ffmpeg.exe
|
|
├── ffprobe.exe
|
|
├── generate-structure.js
|
|
├── infer
|
|
│ ├── lib
|
|
│ │ ├── audio.py
|
|
│ │ ├── infer_pack
|
|
│ │ │ ├── attentions.py
|
|
│ │ │ ├── attentions_onnx.py
|
|
│ │ │ ├── commons.py
|
|
│ │ │ ├── models.py
|
|
│ │ │ ├── models_onnx.py
|
|
│ │ │ ├── modules
|
|
│ │ │ │ └── F0Predictor
|
|
│ │ │ │ ├── DioF0Predictor.py
|
|
│ │ │ │ ├── F0Predictor.py
|
|
│ │ │ │ ├── HarvestF0Predictor.py
|
|
│ │ │ │ ├── PMF0Predictor.py
|
|
│ │ │ │ └── __init__.py
|
|
│ │ │ ├── modules.py
|
|
│ │ │ ├── onnx_inference.py
|
|
│ │ │ ├── transforms.py
|
|
│ │ │ └── __pycache__
|
|
│ │ │ ├── attentions.cpython-311.pyc
|
|
│ │ │ ├── commons.cpython-311.pyc
|
|
│ │ │ ├── models.cpython-311.pyc
|
|
│ │ │ ├── modules.cpython-311.pyc
|
|
│ │ │ └── transforms.cpython-311.pyc
|
|
│ │ ├── jit
|
|
│ │ │ ├── get_hubert.py
|
|
│ │ │ ├── get_rmvpe.py
|
|
│ │ │ ├── get_synthesizer.py
|
|
│ │ │ ├── __init__.py
|
|
│ │ │ └── __pycache__
|
|
│ │ │ └── __init__.cpython-311.pyc
|
|
│ │ ├── rmvpe.py
|
|
│ │ ├── rtrvc.py
|
|
│ │ ├── slicer2.py
|
|
│ │ ├── uvr5_pack
|
|
│ │ │ ├── lib_v5
|
|
│ │ │ │ ├── dataset.py
|
|
│ │ │ │ ├── layers.py
|
|
│ │ │ │ ├── layers_123812KB .py
|
|
│ │ │ │ ├── layers_123821KB.py
|
|
│ │ │ │ ├── layers_33966KB.py
|
|
│ │ │ │ ├── layers_537227KB.py
|
|
│ │ │ │ ├── layers_537238KB.py
|
|
│ │ │ │ ├── layers_new.py
|
|
│ │ │ │ ├── modelparams
|
|
│ │ │ │ │ ├── 1band_sr16000_hl512.json
|
|
│ │ │ │ │ ├── 1band_sr32000_hl512.json
|
|
│ │ │ │ │ ├── 1band_sr33075_hl384.json
|
|
│ │ │ │ │ ├── 1band_sr44100_hl1024.json
|
|
│ │ │ │ │ ├── 1band_sr44100_hl256.json
|
|
│ │ │ │ │ ├── 1band_sr44100_hl512.json
|
|
│ │ │ │ │ ├── 1band_sr44100_hl512_cut.json
|
|
│ │ │ │ │ ├── 2band_32000.json
|
|
│ │ │ │ │ ├── 2band_44100_lofi.json
|
|
│ │ │ │ │ ├── 2band_48000.json
|
|
│ │ │ │ │ ├── 3band_44100.json
|
|
│ │ │ │ │ ├── 3band_44100_mid.json
|
|
│ │ │ │ │ ├── 3band_44100_msb2.json
|
|
│ │ │ │ │ ├── 4band_44100.json
|
|
│ │ │ │ │ ├── 4band_44100_mid.json
|
|
│ │ │ │ │ ├── 4band_44100_msb.json
|
|
│ │ │ │ │ ├── 4band_44100_msb2.json
|
|
│ │ │ │ │ ├── 4band_44100_reverse.json
|
|
│ │ │ │ │ ├── 4band_44100_sw.json
|
|
│ │ │ │ │ ├── 4band_v2.json
|
|
│ │ │ │ │ ├── 4band_v2_sn.json
|
|
│ │ │ │ │ ├── 4band_v3.json
|
|
│ │ │ │ │ └── ensemble.json
|
|
│ │ │ │ ├── model_param_init.py
|
|
│ │ │ │ ├── nets.py
|
|
│ │ │ │ ├── nets_123812KB.py
|
|
│ │ │ │ ├── nets_123821KB.py
|
|
│ │ │ │ ├── nets_33966KB.py
|
|
│ │ │ │ ├── nets_537227KB.py
|
|
│ │ │ │ ├── nets_537238KB.py
|
|
│ │ │ │ ├── nets_61968KB.py
|
|
│ │ │ │ ├── nets_new.py
|
|
│ │ │ │ └── spec_utils.py
|
|
│ │ │ ├── name_params.json
|
|
│ │ │ └── utils.py
|
|
│ │ └── __pycache__
|
|
│ │ ├── audio.cpython-311.pyc
|
|
│ │ └── rmvpe.cpython-311.pyc
|
|
│ └── modules
|
|
│ ├── ipex
|
|
│ │ ├── attention.py
|
|
│ │ ├── gradscaler.py
|
|
│ │ ├── hijacks.py
|
|
│ │ └── __init__.py
|
|
│ ├── onnx
|
|
│ │ └── export.py
|
|
│ ├── train
|
|
│ │ ├── extract
|
|
│ │ │ ├── extract_f0_print.py
|
|
│ │ │ ├── extract_f0_rmvpe.py
|
|
│ │ │ └── extract_f0_rmvpe_dml.py
|
|
│ │ ├── extract_feature_print.py
|
|
│ │ ├── preprocess.py
|
|
│ │ └── train.py
|
|
│ ├── uvr5
|
|
│ │ ├── mdxnet.py
|
|
│ │ └── vr.py
|
|
│ └── vc
|
|
│ ├── modules.py
|
|
│ ├── pipeline.py
|
|
│ ├── utils.py
|
|
│ ├── __init__.py
|
|
│ └── __pycache__
|
|
│ ├── modules.cpython-311.pyc
|
|
│ ├── pipeline.cpython-311.pyc
|
|
│ ├── utils.cpython-311.pyc
|
|
│ └── __init__.cpython-311.pyc
|
|
├── infer-web.py
|
|
├── LICENSE
|
|
├── logs
|
|
│ ├── added_IVF611_Flat_nprobe_1_SilverWolf_v2.index
|
|
│ └── mute
|
|
│ ├── 0_gt_wavs
|
|
│ │ ├── mute32k.wav
|
|
│ │ ├── mute40k.wav
|
|
│ │ └── mute48k.wav
|
|
│ ├── 1_16k_wavs
|
|
│ │ └── mute.wav
|
|
│ ├── 2a_f0
|
|
│ │ └── mute.wav.npy
|
|
│ ├── 2b-f0nsf
|
|
│ │ └── mute.wav.npy
|
|
│ ├── 3_feature256
|
|
│ │ └── mute.npy
|
|
│ └── 3_feature768
|
|
│ └── mute.npy
|
|
├── modules
|
|
│ ├── rvc_ui
|
|
│ │ ├── initialization.py
|
|
│ │ ├── main.py
|
|
│ │ ├── utils.py
|
|
│ │ └── __init__.py
|
|
│ └── spark_ui
|
|
│ ├── main.py
|
|
│ └── __init__.py
|
|
├── poetry.lock
|
|
├── pyproject.toml
|
|
├── README.md
|
|
├── spark
|
|
│ ├── cli
|
|
│ │ ├── inference.py
|
|
│ │ ├── spark.sparktts.py
|
|
│ │ └── __pycache__
|
|
│ │ ├── spark.sparktts.cpython-311.pyc
|
|
│ │ └── spark.sparktts.cpython-312.pyc
|
|
│ ├── LICENSE
|
|
│ ├── pretrained_models
|
|
│ │ └── Spark-TTS-0.5B
|
|
│ │ ├── .gitattributes
|
|
│ │ ├── BiCodec
|
|
│ │ │ ├── config.yaml
|
|
│ │ │ └── model.safetensors
|
|
│ │ ├── config.yaml
|
|
│ │ ├── LLM
|
|
│ │ │ ├── added_tokens.json
|
|
│ │ │ ├── config.json
|
|
│ │ │ ├── merges.txt
|
|
│ │ │ ├── model.safetensors
|
|
│ │ │ ├── special_tokens_map.json
|
|
│ │ │ ├── tokenizer.json
|
|
│ │ │ ├── tokenizer_config.json
|
|
│ │ │ └── vocab.json
|
|
│ │ ├── README.md
|
|
│ │ ├── src
|
|
│ │ │ ├── figures
|
|
│ │ │ │ ├── gradio_control.png
|
|
│ │ │ │ ├── gradio_TTS.png
|
|
│ │ │ │ ├── infer_control.png
|
|
│ │ │ │ └── infer_voice_cloning.png
|
|
│ │ │ └── logo
|
|
│ │ │ ├── HKUST.jpg
|
|
│ │ │ ├── mobvoi.jpg
|
|
│ │ │ ├── mobvoi.png
|
|
│ │ │ ├── NPU.jpg
|
|
│ │ │ ├── NTU.jpg
|
|
│ │ │ ├── SJU.jpg
|
|
│ │ │ ├── SparkAudio.jpg
|
|
│ │ │ ├── SparkAudio2.jpg
|
|
│ │ │ ├── spark.sparktts.jpg
|
|
│ │ │ └── spark.sparktts.png
|
|
│ │ └── wav2vec2-large-xlsr-53
|
|
│ │ ├── config.json
|
|
│ │ ├── preprocessor_config.json
|
|
│ │ ├── pytorch_model.bin
|
|
│ │ └── README.md
|
|
│ ├── runtime
|
|
│ │ └── triton_trtllm
|
|
│ │ ├── client_grpc.py
|
|
│ │ ├── client_http.py
|
|
│ │ ├── model_repo
|
|
│ │ │ ├── audio_tokenizer
|
|
│ │ │ │ ├── 1
|
|
│ │ │ │ │ └── model.py
|
|
│ │ │ │ └── config.pbtxt
|
|
│ │ │ ├── spark_tts
|
|
│ │ │ │ ├── 1
|
|
│ │ │ │ │ └── model.py
|
|
│ │ │ │ └── config.pbtxt
|
|
│ │ │ ├── tensorrt_llm
|
|
│ │ │ │ ├── 1
|
|
│ │ │ │ │ └── .gitkeep
|
|
│ │ │ │ └── config.pbtxt
|
|
│ │ │ └── vocoder
|
|
│ │ │ ├── 1
|
|
│ │ │ │ └── model.py
|
|
│ │ │ └── config.pbtxt
|
|
│ │ ├── README.md
|
|
│ │ └── scripts
|
|
│ │ ├── convert_checkpoint.py
|
|
│ │ └── fill_template.py
|
|
│ └── sparktts
|
|
│ ├── models
|
|
│ │ ├── audio_tokenizer.py
|
|
│ │ ├── bicodec.py
|
|
│ │ └── __pycache__
|
|
│ │ ├── audio_tokenizer.cpython-311.pyc
|
|
│ │ ├── audio_tokenizer.cpython-312.pyc
|
|
│ │ ├── bicodec.cpython-311.pyc
|
|
│ │ └── bicodec.cpython-312.pyc
|
|
│ ├── modules
|
|
│ │ ├── blocks
|
|
│ │ │ ├── layers.py
|
|
│ │ │ ├── samper.py
|
|
│ │ │ ├── vocos.py
|
|
│ │ │ └── __pycache__
|
|
│ │ │ ├── layers.cpython-311.pyc
|
|
│ │ │ ├── layers.cpython-312.pyc
|
|
│ │ │ ├── samper.cpython-311.pyc
|
|
│ │ │ ├── samper.cpython-312.pyc
|
|
│ │ │ ├── vocos.cpython-311.pyc
|
|
│ │ │ └── vocos.cpython-312.pyc
|
|
│ │ ├── encoder_decoder
|
|
│ │ │ ├── feat_decoder.py
|
|
│ │ │ ├── feat_encoder.py
|
|
│ │ │ ├── wave_generator.py
|
|
│ │ │ └── __pycache__
|
|
│ │ │ ├── feat_decoder.cpython-311.pyc
|
|
│ │ │ ├── feat_decoder.cpython-312.pyc
|
|
│ │ │ ├── feat_encoder.cpython-311.pyc
|
|
│ │ │ ├── feat_encoder.cpython-312.pyc
|
|
│ │ │ ├── wave_generator.cpython-311.pyc
|
|
│ │ │ └── wave_generator.cpython-312.pyc
|
|
│ │ ├── fsq
|
|
│ │ │ ├── finite_scalar_quantization.py
|
|
│ │ │ ├── residual_fsq.py
|
|
│ │ │ └── __pycache__
|
|
│ │ │ ├── finite_scalar_quantization.cpython-311.pyc
|
|
│ │ │ ├── finite_scalar_quantization.cpython-312.pyc
|
|
│ │ │ ├── residual_fsq.cpython-311.pyc
|
|
│ │ │ └── residual_fsq.cpython-312.pyc
|
|
│ │ ├── speaker
|
|
│ │ │ ├── ecapa_tdnn.py
|
|
│ │ │ ├── perceiver_encoder.py
|
|
│ │ │ ├── pooling_layers.py
|
|
│ │ │ ├── speaker_encoder.py
|
|
│ │ │ └── __pycache__
|
|
│ │ │ ├── ecapa_tdnn.cpython-311.pyc
|
|
│ │ │ ├── ecapa_tdnn.cpython-312.pyc
|
|
│ │ │ ├── perceiver_encoder.cpython-311.pyc
|
|
│ │ │ ├── perceiver_encoder.cpython-312.pyc
|
|
│ │ │ ├── pooling_layers.cpython-311.pyc
|
|
│ │ │ ├── pooling_layers.cpython-312.pyc
|
|
│ │ │ ├── speaker_encoder.cpython-311.pyc
|
|
│ │ │ └── speaker_encoder.cpython-312.pyc
|
|
│ │ └── vq
|
|
│ │ ├── factorized_vector_quantize.py
|
|
│ │ └── __pycache__
|
|
│ │ ├── factorized_vector_quantize.cpython-311.pyc
|
|
│ │ └── factorized_vector_quantize.cpython-312.pyc
|
|
│ └── utils
|
|
│ ├── audio.py
|
|
│ ├── file.py
|
|
│ ├── token_parser.py
|
|
│ ├── __init__.py
|
|
│ └── __pycache__
|
|
│ ├── audio.cpython-311.pyc
|
|
│ ├── audio.cpython-312.pyc
|
|
│ ├── file.cpython-311.pyc
|
|
│ ├── file.cpython-312.pyc
|
|
│ ├── token_parser.cpython-311.pyc
|
|
│ ├── token_parser.cpython-312.pyc
|
|
│ ├── __init__.cpython-311.pyc
|
|
│ └── __init__.cpython-312.pyc
|
|
├── struct.txt
|
|
├── TEMP
|
|
├── temp_tools
|
|
│ ├── analize_deps.py
|
|
│ ├── clean_i18n.py
|
|
│ ├── join.py
|
|
│ ├── remap_i18n.py
|
|
│ ├── remove_unused_imports.py
|
|
│ └── used_dependencies.txt
|
|
└── tools
|
|
├── app.py
|
|
├── calc_rvc_model_similarity.py
|
|
├── download_assets.py
|
|
├── download_model.py
|
|
├── export_onnx.py
|
|
├── infer
|
|
│ ├── infer-pm-index256.py
|
|
│ ├── train-index-v2.py
|
|
│ ├── train-index.py
|
|
│ └── trans_weights.py
|
|
├── infer_batch_rvc.py
|
|
├── infer_cli.py
|
|
├── onnx_inference_demo.py
|
|
└── torchgate
|
|
├── torchgate.py
|
|
├── utils.py
|
|
└── __init__.py
|