用户
 找回密码
 立即注册
发表于 2022-5-24 10:57:35
12883
本帖最后由 gaoguoyao 于 2022-5-24 10:57 编辑

问题定位B22
在前面的步骤基本都没啥问题,tts_melgan.nemo也是可以正常导入。

1111.png


微信图片_20220524104338.png

TTS训练中,无法正常输出频谱图。不知道出现这种情况的原因是什么?
万分感谢!




使用道具 举报 回复
发表于 2022-5-24 11:37:21
你训练了多少轮?  请提供一下tacotron2声学模型训练部分的代码,
使用道具 举报 回复 支持 反对
发表于 2022-5-24 19:47:33
decoder:
    _target_: nemo.collections.tts.modules.tacotron2.Decoder
    decoder_rnn_dim: 1024
    encoder_embedding_dim: ${model.encoder.encoder_embedding_dim}
    gate_threshold: 0.4
    max_decoder_steps: 10000
    n_frames_per_step: 1  # currently only 1 is supported
    n_mel_channels: ${n_mels}
    p_attention_dropout: 0.1
    p_decoder_dropout: 0.1
    prenet_dim: 256
    prenet_p_dropout: 0.5
    # Attention parameters
    attention_dim: 128
    attention_rnn_dim: 1024
    # AttentionLocation Layer parameters
    attention_location_kernel_size: 31
    attention_location_n_filters: 32
    early_stopping: true

################################################################
! HYDRA_FULL_ERROR=1 \
python tacotron2.py train_dataset=/home/x/2022q2/conv_nemo/manifest/train_tts_6th.json \
validation_datasets=/home/x/2022q2/conv_nemo/manifest/test_tts_6th.json \
trainer.max_epochs=1600 \
trainer.accelerator=null \
trainer.check_val_every_n_epoch=1

谢谢,麻烦了
使用道具 举报 回复 支持 反对
发表于 2022-5-24 20:11:13
随着语句的增加,拟合的难度也会增加,需要增加训练次数 , 设置成5000试一下
使用道具 举报 回复 支持 反对
发新帖
您需要登录后才可以回帖 登录 | 立即注册