Retrieval-based-Voice-Conve.../docs/pt/faq_pt.md

15 KiB

FAQ AI HUB BRASIL

O que é epoch, quantos utilizar, quanto de dataset utilizar e qual à configuração interessante?

Epochs basicamente quantas vezes o seu dataset foi treinado.

Recomendado ler Q8 e Q9 no final dessa página pra entender mais sobre dataset e epochs

Não é uma regra, mas opinião:

Mangio-Crepe Hop Length

  • 64 pra cantores e dubladores
  • 128(padrão) para os demais (editado)

Epochs e dataset

600epoch para cantores - --dataset entre 10 e 50 min desnecessario mais que 50 minutos-- 300epoch para os demais - --dataset entre 10 e 50 min desnecessario mais que 50 minutos--

Tom

magio-crepe se for audios extraído de alguma musica harvest se for de estúdio


O que é index?

Basicamente o que define o sotaque. Quanto maior o numero, mas próximo o sotaque fica do original. Porém, quando o modelo é bem, não é necessário um index.


O que significa cada sigla (pm, harvest, crepe, magio-crepe, RMVPE)?

  • pm = extração mais rápida, mas discurso de qualidade inferior;
  • harvest = graves melhores, mas extremamente lentos;
  • dio = conversão rápida mas pitch ruim;
  • crepe = melhor qualidade, mas intensivo em GPU;
  • crepe-tiny = mesma coisa que o crepe, só que com a qualidade um pouco inferior;
  • mangio-crepe = melhor qualidade, mais otimizado; (MELHOR OPÇÃO)
  • mangio-crepe-tiny = mesma coisa que o mangio-crepe, só que com a qualidade um pouco inferior;
  • RMVPE: um modelo robusto para estimativa de afinação vocal em música polifônica;

Pra rodar localmente, quais os requisitos minimos?

Já tivemos relatos de pessoas com GTX 1050 rodando inferencia, se for treinar numa 1050 vai demorar muito mesmo e inferior a isso, normalmente da tela azul

O mais importante é placa de vídeo, vram na verdade Se você tiver 4GB ou mais, você tem uma chance.

NOS DOIS CASOS NÃO É RECOMENDADO UTILIZAR O PC ENQUANTO ESTÁ UTILIZNDO, CHANCE DE TELA AZUL É ALTA

Inference

Não é algo oficial para requisitos minimos

  • Placa de vídeo: nvidia de 4gb
  • Memoria ram: 8gb
  • CPU: ?
  • Armanezamento: 20gb (sem modelos)

Treinamento de voz

Não é algo oficial para requisitos minimos

  • Placa de vídeo: nvidia de 6gb
  • Memoria ram: 16gb
  • CPU: ?
  • Armanezamento: 20gb (sem modelos)

Limite de GPU no Google Colab excedido, apenas CPU o que fazer?

Recomendamos esperar outro dia pra liberar mais 15gb ou 12 horas pra você. Ou você pode contribuir com o Google pagando algum dos planos, ai aumenta seu limite.
Utilizar apenas CPU no Google Colab demora DEMAIS.


Google Colab desconectando com muita frequencia, o que fazer?

Neste caso realmente não tem muito o que fazer. Apenas aguardar o proprietário do código corrigir ou a gente do AI HUB Brasil achar alguma solução. Isso acontece por diversos motivos, um incluindo a Google barrando o treinamento de voz.


O que é Batch Size/Tamanho de lote e qual numero utilizar?

Batch Size/Tamanho do lote é basicamente quantos epoch faz ao mesmo tempo. Se por 20, ele fazer 20 epoch ao mesmo tempo e isso faz pesar mais na máquina e etc.

No Google Colab você pode utilizar até 20 de boa.
Se rodando localmente, depende da sua placa de vídeo, começa por baixo (6) e vai testando.


Sobre backup na hora do treinamento

Backup vai de cada um. Eu quando uso a easierGUI utilizo a cada 100 epoch (meu caso isolado). No colab, se instavel, coloque a cada 10 epoch Recomendo utilizarem entre 25 e 50 pra garantir.

Lembrando que cada arquivo geral é por volta de 50mb, então tenha muito cuidado quanto você coloca. Pois assim pode acabar lotando seu Google Drive ou seu PC.

Depois de finalizado, da pra apagar os epoch de backup.


Como continuar da onde parou pra fazer mais epochs?

Primeira coisa que gostaria de lembrar, não necessariamente quanto mais epochs melhor. Se fizer epochs demais vai dar overtraining o que pode ser ruim.

GUI NORMAL

  • Inicie normalmente a GUI novamente.
  • Na aba de treino utilize o MESMO nome que estava treinando, assim vai continuar o treino onde parou o ultimo backup.
  • Ignore as opções Processar o Conjunto de dados e Extrair Tom
  • Antes de clicar pra treinar, arrume os epoch, bakcup e afins.
    • Obviamente tem que ser um numero maior do qu estava em epoch.
    • Backup você pode aumentar ou diminuir
  • Agora você vai ver a opção Carregue o caminho G do modelo base pré-treinado: e Carregue o caminho D do modelo base pré-treinado: -Aqui você vai por o caminho dos modelos que estão em ./logs/minha-voz - Vai ficar algo parecido com isso e:/RVC/logs/minha-voz/G_0000.pth e e:/RVC/logs/minha-voz/D_0000.pth -Coloque pra treinar

Lembrando que a pasta logs tem que ter todos os arquivos e não somente o arquivo G e D

EasierGUI

  • Inicie normalmente a easierGUI novamente.
  • Na aba de treino utilize o MESMO nome que estava treinando, assim vai continuar o treino onde parou o ultimo backup.
  • Selecione 'Treinar modelo', pode pular os 2 primeiros passos já que vamos continuar o treino.

FAQ Original traduzido

Q1: erro ffmpeg/erro utf8.

Provavelmente não é um problema do FFmpeg, mas sim um problema de caminho de áudio;

O FFmpeg pode encontrar um erro ao ler caminhos contendo caracteres especiais como spaces e (), o que pode causar um erro FFmpeg; e quando o áudio do conjunto de treinamento contém caminhos chineses, gravá-lo em filelist.txt pode causar um erro utf8.


Q2:Não é possível encontrar o arquivo de Index após "Treinamento com um clique".

Se exibir "O treinamento está concluído. O programa é fechado ", então o modelo foi treinado com sucesso e os erros subsequentes são falsos;

A falta de um arquivo de index 'adicionado' após o treinamento com um clique pode ser devido ao conjunto de treinamento ser muito grande, fazendo com que a adição do index fique presa; isso foi resolvido usando o processamento em lote para adicionar o index, o que resolve o problema de sobrecarga de memória ao adicionar o index. Como solução temporária, tente clicar no botão "Treinar Index" novamente.


Q3:Não é possível encontrar o modelo em “Modelo de voz” após o treinamento

Clique em "Atualizar lista de voz" ou "Atualizar na EasyGUI e verifique novamente; se ainda não estiver visível, verifique se há erros durante o treinamento e envie capturas de tela do console, da interface do usuário da Web e dos logs/experiment_name/*.log para os desenvolvedores para análise posterior.


Q4:Como compartilhar um modelo/Como usar os modelos dos outros?

Os arquivos .pth armazenados em */logs/minha-voz não são destinados para compartilhamento ou inference, mas para armazenar os checkpoits do experimento para reprodutibilidade e treinamento adicional. O modelo a ser compartilhado deve ser o arquivo .pth de 60+MB na pasta weights;

No futuro, weights/minha-voz.pth e logs/minha-voz/added_xxx.index serão mesclados em um único arquivo de weights/minha-voz.zip para eliminar a necessidade de entrada manual de index; portanto, compartilhe o arquivo zip, não somente o arquivo .pth, a menos que você queira continuar treinando em uma máquina diferente;

Copiar/compartilhar os vários arquivos .pth de centenas de MB da pasta de logs para a pasta de weights para inference forçada pode resultar em erros como falta de f0, tgt_sr ou outras chaves. Você precisa usar a guia ckpt na parte inferior para manualmente ou automaticamente (se as informações forem encontradas nos logs/minha-voz), selecione se deseja incluir informações de tom e opções de taxa de amostragem de áudio de destino e, em seguida, extrair o modelo menor. Após a extração, haverá um arquivo pth de 60+ MB na pasta de weights, e você pode atualizar as vozes para usá-lo.


Q5 Erro de conexão:

Para sermos otimistas, aperte F5/recarregue a página, pode ter sido apenas um bug da GUI

Se não... Você pode ter fechado o console (janela de linha de comando preta). Ou o Google Colab, no caso do Colab, as vezes pode simplesmente fechar


Q6: Pop-up WebUI 'Valor esperado: linha 1 coluna 1 (caractere 0)'.

Desative o proxy LAN do sistema/proxy global e atualize.


Q7:Como treinar e inferir sem a WebUI?

Script de treinamento:
Você pode executar o treinamento em WebUI primeiro, e as versões de linha de comando do pré-processamento e treinamento do conjunto de dados serão exibidas na janela de mensagens.

Script de inference:
https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/myinfer.py

por exemplo

runtime\python.exe myinfer.py 0 "E:\audios\1111.wav" "E:\RVC\logs\minha-voz\added_IVF677_Flat_nprobe_7.index" harvest "test.wav" "weights/mi-test.pth" 0.6 cuda:0 True

f0up_key=sys.argv[1]
input_path=sys.argv[2]
index_path=sys.argv[3]
f0method=sys.argv[4]#harvest or pm
opt_path=sys.argv[5]
model_path=sys.argv[6]
index_rate=float(sys.argv[7])
device=sys.argv[8]
is_half=bool(sys.argv[9])


Q8: Erro Cuda/Cuda sem memória.

Há uma pequena chance de que haja um problema com a configuração do CUDA ou o dispositivo não seja suportado; mais provavelmente, não há memória suficiente (falta de memória).

Para treinamento, reduza o (batch size) tamanho do lote (se reduzir para 1 ainda não for suficiente, talvez seja necessário alterar a placa gráfica); para inference, ajuste as configurações x_pad, x_query, x_center e x_max no arquivo config.py conforme necessário. Cartões de memória 4G ou inferiores (por exemplo, 1060(3G) e várias placas 2G) podem ser abandonados, enquanto os placas de vídeo com memória 4G ainda têm uma chance.


Q9:Quantos total_epoch são ótimos?

Se a qualidade de áudio do conjunto de dados de treinamento for ruim e o nível de ruído for alto, 20-30 epochs são suficientes. Defini-lo muito alto não melhorará a qualidade de áudio do seu conjunto de treinamento de baixa qualidade.

Se a qualidade de áudio do conjunto de treinamento for alta, o nível de ruído for baixo e houver duração suficiente, você poderá aumentá-lo. 200 é aceitável (uma vez que o treinamento é rápido e, se você puder preparar um conjunto de treinamento de alta qualidade, sua GPU provavelmente poderá lidar com uma duração de treinamento mais longa sem problemas).


Q10:Quanto tempo de treinamento é necessário?

Recomenda-se um conjunto de dados de cerca de 10 min a 50 min.

Com garantia de alta qualidade de som e baixo ruído de fundo, mais pode ser adicionado se o timbre do conjunto de dados for uniforme.

Para um conjunto de treinamento de alto nível (limpo + distintivo), 5min a 10min é bom.

Há algumas pessoas que treinaram com sucesso com dados de 1 a 2 minutos, mas o sucesso não é reproduzível por outros e não é muito informativo.
Isso requer que o conjunto de treinamento tenha um timbre muito distinto (por exemplo, um som de menina de anime arejado de alta frequência) e a qualidade do áudio seja alta; Dados com menos de 1 minuto, já obtivemo sucesso. Mas não é recomendado.


Q11:Qual é a taxa do index e como ajustá-la?

Se a qualidade do tom do modelo pré-treinado e da fonte de inference for maior do que a do conjunto de treinamento, eles podem trazer a qualidade do tom do resultado do inference, mas ao custo de um possível viés de tom em direção ao tom do modelo subjacente/fonte de inference, em vez do tom do conjunto de treinamento, que é geralmente referido como "vazamento de tom".

A taxa de index é usada para reduzir/resolver o problema de vazamento de timbre. Se a taxa do index for definida como 1, teoricamente não há vazamento de timbre da fonte de inference e a qualidade do timbre é mais tendenciosa em relação ao conjunto de treinamento. Se o conjunto de treinamento tiver uma qualidade de som mais baixa do que a fonte de inference, uma taxa de index mais alta poderá reduzir a qualidade do som. Reduzi-lo a 0 não tem o efeito de usar a mistura de recuperação para proteger os tons definidos de treinamento.

Se o conjunto de treinamento tiver boa qualidade de áudio e longa duração, aumente o total_epoch, quando o modelo em si é menos propenso a se referir à fonte inferida e ao modelo subjacente pré-treinado, e há pouco "vazamento de tom", o index_rate não é importante e você pode até não criar/compartilhar o arquivo de index.


Q12:Como escolher o GPU ao inferir?

No arquivo config.py, selecione o número da placa em "device cuda:".

O mapeamento entre o número da placa e a placa gráfica pode ser visto na seção de informações da placa gráfica da guia de treinamento.


Q13:Como usar o modelo salvo no meio do treinamento?

Salvar via extração de modelo na parte inferior da guia de processamento do ckpt.


Q14: Erro de arquivo/memória (durante o treinamento)?

Muitos processos e sua memória não é suficiente. Você pode corrigi-lo por:

  1. Diminuir a entrada no campo "Threads da CPU".
  2. Diminuir o tamanho do conjunto de dados.

Q15: Como continuar treinando usando mais dados

passo 1: coloque todos os dados wav no path2.

etapa 2: exp_name2 + path2 -> processar conjunto de dados e extrair recurso.

passo 3: copie o arquivo G e D mais recente de exp_name1 (seu experimento anterior) para a pasta exp_name2.

passo 4: clique em "treinar o modelo" e ele continuará treinando desde o início da época anterior do modelo exp.

Q16: erro sobre llvmlite.dll

OSError: Não foi possível carregar o arquivo de objeto compartilhado: llvmlite.dll

FileNotFoundError: Não foi possível encontrar o módulo lib\site-packages\llvmlite\binding\llvmlite.dll (ou uma de suas dependências). Tente usar o caminho completo com sintaxe de construtor.

O problema acontecerá no Windows, instale https://aka.ms/vs/17/release/vc_redist.x64.exe e será corrigido.

Q17: RuntimeError: O tamanho expandido do tensor (17280) deve corresponder ao tamanho existente (0) na dimensão 1 não singleton. Tamanhos de destino: [1, 17280]. Tamanhos de tensor: [0]

Exclua os arquivos wav cujo tamanho seja significativamente menor que outros e isso não acontecerá novamente. Em seguida, clique em "treinar o modelo" e "treinar o índice".

Q18: RuntimeError: O tamanho do tensor a (24) deve corresponder ao tamanho do tensor b (16) na dimensão não singleton 2

Não altere a taxa de amostragem e continue o treinamento. Caso seja necessário alterar, o nome do exp deverá ser alterado e o modelo será treinado do zero. Você também pode copiar o pitch e os recursos (pastas 0/1/2/2b) extraídos da última vez para acelerar o processo de treinamento.