├── .env
├── .gitignore
├── .vscode
│   └── settings.json
├── assets
│   ├── hubert
│   │   ├── .gitignore
│   │   ├── hubert_base.pt
│   │   └── hubert_inputs.pth
│   ├── indices
│   │   └── .gitignore
│   ├── pretrained
│   │   ├── .gitignore
│   │   ├── D32k.pth
│   │   ├── D40k.pth
│   │   ├── D48k.pth
│   │   ├── f0D32k.pth
│   │   ├── f0D40k.pth
│   │   ├── f0D48k.pth
│   │   ├── f0G32k.pth
│   │   ├── f0G40k.pth
│   │   ├── f0G48k.pth
│   │   ├── G32k.pth
│   │   ├── G40k.pth
│   │   └── G48k.pth
│   ├── pretrained_v2
│   │   ├── .gitignore
│   │   ├── D32k.pth
│   │   ├── D40k.pth
│   │   ├── D48k.pth
│   │   ├── f0D32k.pth
│   │   ├── f0D40k.pth
│   │   ├── f0D48k.pth
│   │   ├── f0G32k.pth
│   │   ├── f0G40k.pth
│   │   ├── f0G48k.pth
│   │   ├── G32k.pth
│   │   ├── G40k.pth
│   │   └── G48k.pth
│   ├── rmvpe
│   │   ├── .gitignore
│   │   ├── rmvpe.onnx
│   │   ├── rmvpe.pt
│   │   └── rmvpe_inputs.pth
│   ├── Synthesizer_inputs.pth
│   ├── uvr5_weights
│   │   ├── .gitignore
│   │   ├── HP2-%E4%BA%BA%E5%A3%B0vocals%2B%E9%9D%9E%E4%BA%BA%E5%A3%B0instrumentals.pth
│   │   ├── HP2_all_vocals.pth
│   │   ├── HP3_all_vocals.pth
│   │   ├── HP5-%E4%B8%BB%E6%97%8B%E5%BE%8B%E4%BA%BA%E5%A3%B0vocals%2B%E5%85%B6%E4%BB%96instrumentals.pth
│   │   ├── HP5_only_main_vocal.pth
│   │   ├── onnx_dereverb_By_FoxJoy
│   │   │   └── vocals.onnx
│   │   ├── VR-DeEchoAggressive.pth
│   │   ├── VR-DeEchoDeReverb.pth
│   │   └── VR-DeEchoNormal.pth
│   └── weights
│       ├── .gitignore
│       └── SilverWolf_e300_s6600.pth
├── configs
│   ├── config.json
│   ├── config.py
│   ├── inuse
│   │   ├── .gitignore
│   │   ├── v1
│   │   │   ├── .gitignore
│   │   │   ├── 32k.json
│   │   │   ├── 40k.json
│   │   │   └── 48k.json
│   │   └── v2
│   │       ├── .gitignore
│   │       ├── 32k.json
│   │       └── 48k.json
│   ├── v1
│   │   ├── 32k.json
│   │   ├── 40k.json
│   │   └── 48k.json
│   ├── v2
│   │   ├── 32k.json
│   │   └── 48k.json
│   └── __pycache__
│       └── config.cpython-311.pyc
├── configure_gpu_deps.py
├── ffmpeg.exe
├── ffprobe.exe
├── generate-structure.js
├── infer
│   ├── lib
│   │   ├── audio.py
│   │   ├── infer_pack
│   │   │   ├── attentions.py
│   │   │   ├── attentions_onnx.py
│   │   │   ├── commons.py
│   │   │   ├── models.py
│   │   │   ├── models_onnx.py
│   │   │   ├── modules
│   │   │   │   └── F0Predictor
│   │   │   │       ├── DioF0Predictor.py
│   │   │   │       ├── F0Predictor.py
│   │   │   │       ├── HarvestF0Predictor.py
│   │   │   │       ├── PMF0Predictor.py
│   │   │   │       └── __init__.py
│   │   │   ├── modules.py
│   │   │   ├── onnx_inference.py
│   │   │   ├── transforms.py
│   │   │   └── __pycache__
│   │   │       ├── attentions.cpython-311.pyc
│   │   │       ├── commons.cpython-311.pyc
│   │   │       ├── models.cpython-311.pyc
│   │   │       ├── modules.cpython-311.pyc
│   │   │       └── transforms.cpython-311.pyc
│   │   ├── jit
│   │   │   ├── get_hubert.py
│   │   │   ├── get_rmvpe.py
│   │   │   ├── get_synthesizer.py
│   │   │   ├── __init__.py
│   │   │   └── __pycache__
│   │   │       └── __init__.cpython-311.pyc
│   │   ├── rmvpe.py
│   │   ├── rtrvc.py
│   │   ├── slicer2.py
│   │   ├── uvr5_pack
│   │   │   ├── lib_v5
│   │   │   │   ├── dataset.py
│   │   │   │   ├── layers.py
│   │   │   │   ├── layers_123812KB .py
│   │   │   │   ├── layers_123821KB.py
│   │   │   │   ├── layers_33966KB.py
│   │   │   │   ├── layers_537227KB.py
│   │   │   │   ├── layers_537238KB.py
│   │   │   │   ├── layers_new.py
│   │   │   │   ├── modelparams
│   │   │   │   │   ├── 1band_sr16000_hl512.json
│   │   │   │   │   ├── 1band_sr32000_hl512.json
│   │   │   │   │   ├── 1band_sr33075_hl384.json
│   │   │   │   │   ├── 1band_sr44100_hl1024.json
│   │   │   │   │   ├── 1band_sr44100_hl256.json
│   │   │   │   │   ├── 1band_sr44100_hl512.json
│   │   │   │   │   ├── 1band_sr44100_hl512_cut.json
│   │   │   │   │   ├── 2band_32000.json
│   │   │   │   │   ├── 2band_44100_lofi.json
│   │   │   │   │   ├── 2band_48000.json
│   │   │   │   │   ├── 3band_44100.json
│   │   │   │   │   ├── 3band_44100_mid.json
│   │   │   │   │   ├── 3band_44100_msb2.json
│   │   │   │   │   ├── 4band_44100.json
│   │   │   │   │   ├── 4band_44100_mid.json
│   │   │   │   │   ├── 4band_44100_msb.json
│   │   │   │   │   ├── 4band_44100_msb2.json
│   │   │   │   │   ├── 4band_44100_reverse.json
│   │   │   │   │   ├── 4band_44100_sw.json
│   │   │   │   │   ├── 4band_v2.json
│   │   │   │   │   ├── 4band_v2_sn.json
│   │   │   │   │   ├── 4band_v3.json
│   │   │   │   │   └── ensemble.json
│   │   │   │   ├── model_param_init.py
│   │   │   │   ├── nets.py
│   │   │   │   ├── nets_123812KB.py
│   │   │   │   ├── nets_123821KB.py
│   │   │   │   ├── nets_33966KB.py
│   │   │   │   ├── nets_537227KB.py
│   │   │   │   ├── nets_537238KB.py
│   │   │   │   ├── nets_61968KB.py
│   │   │   │   ├── nets_new.py
│   │   │   │   └── spec_utils.py
│   │   │   ├── name_params.json
│   │   │   └── utils.py
│   │   └── __pycache__
│   │       ├── audio.cpython-311.pyc
│   │       └── rmvpe.cpython-311.pyc
│   └── modules
│       ├── ipex
│       │   ├── attention.py
│       │   ├── gradscaler.py
│       │   ├── hijacks.py
│       │   └── __init__.py
│       ├── onnx
│       │   └── export.py
│       ├── train
│       │   ├── extract
│       │   │   ├── extract_f0_print.py
│       │   │   ├── extract_f0_rmvpe.py
│       │   │   └── extract_f0_rmvpe_dml.py
│       │   ├── extract_feature_print.py
│       │   ├── preprocess.py
│       │   └── train.py
│       ├── uvr5
│       │   ├── mdxnet.py
│       │   └── vr.py
│       └── vc
│           ├── modules.py
│           ├── pipeline.py
│           ├── utils.py
│           ├── __init__.py
│           └── __pycache__
│               ├── modules.cpython-311.pyc
│               ├── pipeline.cpython-311.pyc
│               ├── utils.cpython-311.pyc
│               └── __init__.cpython-311.pyc
├── infer-web.py
├── LICENSE
├── logs
│   ├── added_IVF611_Flat_nprobe_1_SilverWolf_v2.index
│   └── mute
│       ├── 0_gt_wavs
│       │   ├── mute32k.wav
│       │   ├── mute40k.wav
│       │   └── mute48k.wav
│       ├── 1_16k_wavs
│       │   └── mute.wav
│       ├── 2a_f0
│       │   └── mute.wav.npy
│       ├── 2b-f0nsf
│       │   └── mute.wav.npy
│       ├── 3_feature256
│       │   └── mute.npy
│       └── 3_feature768
│           └── mute.npy
├── modules
│   ├── rvc_ui
│   │   ├── initialization.py
│   │   ├── main.py
│   │   ├── utils.py
│   │   └── __init__.py
│   └── spark_ui
│       ├── main.py
│       └── __init__.py
├── poetry.lock
├── pyproject.toml
├── README.md
├── spark
│   ├── cli
│   │   ├── inference.py
│   │   ├── spark.sparktts.py
│   │   └── __pycache__
│   │       ├── spark.sparktts.cpython-311.pyc
│   │       └── spark.sparktts.cpython-312.pyc
│   ├── LICENSE
│   ├── pretrained_models
│   │   └── Spark-TTS-0.5B
│   │       ├── .gitattributes
│   │       ├── BiCodec
│   │       │   ├── config.yaml
│   │       │   └── model.safetensors
│   │       ├── config.yaml
│   │       ├── LLM
│   │       │   ├── added_tokens.json
│   │       │   ├── config.json
│   │       │   ├── merges.txt
│   │       │   ├── model.safetensors
│   │       │   ├── special_tokens_map.json
│   │       │   ├── tokenizer.json
│   │       │   ├── tokenizer_config.json
│   │       │   └── vocab.json
│   │       ├── README.md
│   │       ├── src
│   │       │   ├── figures
│   │       │   │   ├── gradio_control.png
│   │       │   │   ├── gradio_TTS.png
│   │       │   │   ├── infer_control.png
│   │       │   │   └── infer_voice_cloning.png
│   │       │   └── logo
│   │       │       ├── HKUST.jpg
│   │       │       ├── mobvoi.jpg
│   │       │       ├── mobvoi.png
│   │       │       ├── NPU.jpg
│   │       │       ├── NTU.jpg
│   │       │       ├── SJU.jpg
│   │       │       ├── SparkAudio.jpg
│   │       │       ├── SparkAudio2.jpg
│   │       │       ├── spark.sparktts.jpg
│   │       │       └── spark.sparktts.png
│   │       └── wav2vec2-large-xlsr-53
│   │           ├── config.json
│   │           ├── preprocessor_config.json
│   │           ├── pytorch_model.bin
│   │           └── README.md
│   ├── runtime
│   │   └── triton_trtllm
│   │       ├── client_grpc.py
│   │       ├── client_http.py
│   │       ├── model_repo
│   │       │   ├── audio_tokenizer
│   │       │   │   ├── 1
│   │       │   │   │   └── model.py
│   │       │   │   └── config.pbtxt
│   │       │   ├── spark_tts
│   │       │   │   ├── 1
│   │       │   │   │   └── model.py
│   │       │   │   └── config.pbtxt
│   │       │   ├── tensorrt_llm
│   │       │   │   ├── 1
│   │       │   │   │   └── .gitkeep
│   │       │   │   └── config.pbtxt
│   │       │   └── vocoder
│   │       │       ├── 1
│   │       │       │   └── model.py
│   │       │       └── config.pbtxt
│   │       ├── README.md
│   │       └── scripts
│   │           ├── convert_checkpoint.py
│   │           └── fill_template.py
│   └── sparktts
│       ├── models
│       │   ├── audio_tokenizer.py
│       │   ├── bicodec.py
│       │   └── __pycache__
│       │       ├── audio_tokenizer.cpython-311.pyc
│       │       ├── audio_tokenizer.cpython-312.pyc
│       │       ├── bicodec.cpython-311.pyc
│       │       └── bicodec.cpython-312.pyc
│       ├── modules
│       │   ├── blocks
│       │   │   ├── layers.py
│       │   │   ├── samper.py
│       │   │   ├── vocos.py
│       │   │   └── __pycache__
│       │   │       ├── layers.cpython-311.pyc
│       │   │       ├── layers.cpython-312.pyc
│       │   │       ├── samper.cpython-311.pyc
│       │   │       ├── samper.cpython-312.pyc
│       │   │       ├── vocos.cpython-311.pyc
│       │   │       └── vocos.cpython-312.pyc
│       │   ├── encoder_decoder
│       │   │   ├── feat_decoder.py
│       │   │   ├── feat_encoder.py
│       │   │   ├── wave_generator.py
│       │   │   └── __pycache__
│       │   │       ├── feat_decoder.cpython-311.pyc
│       │   │       ├── feat_decoder.cpython-312.pyc
│       │   │       ├── feat_encoder.cpython-311.pyc
│       │   │       ├── feat_encoder.cpython-312.pyc
│       │   │       ├── wave_generator.cpython-311.pyc
│       │   │       └── wave_generator.cpython-312.pyc
│       │   ├── fsq
│       │   │   ├── finite_scalar_quantization.py
│       │   │   ├── residual_fsq.py
│       │   │   └── __pycache__
│       │   │       ├── finite_scalar_quantization.cpython-311.pyc
│       │   │       ├── finite_scalar_quantization.cpython-312.pyc
│       │   │       ├── residual_fsq.cpython-311.pyc
│       │   │       └── residual_fsq.cpython-312.pyc
│       │   ├── speaker
│       │   │   ├── ecapa_tdnn.py
│       │   │   ├── perceiver_encoder.py
│       │   │   ├── pooling_layers.py
│       │   │   ├── speaker_encoder.py
│       │   │   └── __pycache__
│       │   │       ├── ecapa_tdnn.cpython-311.pyc
│       │   │       ├── ecapa_tdnn.cpython-312.pyc
│       │   │       ├── perceiver_encoder.cpython-311.pyc
│       │   │       ├── perceiver_encoder.cpython-312.pyc
│       │   │       ├── pooling_layers.cpython-311.pyc
│       │   │       ├── pooling_layers.cpython-312.pyc
│       │   │       ├── speaker_encoder.cpython-311.pyc
│       │   │       └── speaker_encoder.cpython-312.pyc
│       │   └── vq
│       │       ├── factorized_vector_quantize.py
│       │       └── __pycache__
│       │           ├── factorized_vector_quantize.cpython-311.pyc
│       │           └── factorized_vector_quantize.cpython-312.pyc
│       └── utils
│           ├── audio.py
│           ├── file.py
│           ├── token_parser.py
│           ├── __init__.py
│           └── __pycache__
│               ├── audio.cpython-311.pyc
│               ├── audio.cpython-312.pyc
│               ├── file.cpython-311.pyc
│               ├── file.cpython-312.pyc
│               ├── token_parser.cpython-311.pyc
│               ├── token_parser.cpython-312.pyc
│               ├── __init__.cpython-311.pyc
│               └── __init__.cpython-312.pyc
├── struct.txt
├── TEMP
├── temp_tools
│   ├── analize_deps.py
│   ├── clean_i18n.py
│   ├── join.py
│   ├── remap_i18n.py
│   ├── remove_unused_imports.py
│   └── used_dependencies.txt
└── tools
    ├── app.py
    ├── calc_rvc_model_similarity.py
    ├── download_assets.py
    ├── download_model.py
    ├── export_onnx.py
    ├── infer
    │   ├── infer-pm-index256.py
    │   ├── train-index-v2.py
    │   ├── train-index.py
    │   └── trans_weights.py
    ├── infer_batch_rvc.py
    ├── infer_cli.py
    ├── onnx_inference_demo.py
    └── torchgate
        ├── torchgate.py
        ├── utils.py
        └── __init__.py