Table of Contents
1. セットアップ
VRAM <= 8GB ならFlashAttn無くても動くはず
torchは自身のQUDAバージョンによっては、urlからインストールすること
uv init qwen3-ttsuv venv -p 3.12uv pip install torch torchvision torchaudio ffmpeg qwen-tts2. 実行
qwen3-tts/main.pyを編集
# ==========================================# qwen3-tts voice clone program# PLEASE change variable on "1. Set Var"# ==========================================import torchimport soundfile as sffrom qwen_tts import Qwen3TTSModel
# ==========================================# 1. Set Variables# ==========================================ref_audio_path = "./sample_sound.wav"ref_text = "こんにちは、かめりあんです。一般成人男性です。"target_text = "ドーナツみたいな雲は、僕の心のようだった"output_file="output_voiceClone.wav"
# ==========================================# 2. Load Qwen3-TTS# ==========================================model = Qwen3TTSModel.from_pretrained( "Qwen/Qwen3-TTS-12Hz-1.7B-Base", device_map="cuda:0", dtype=torch.bfloat16,)
# ==========================================# 3. Run voice clone# ==========================================wavs, sr = model.generate_voice_clone( text=target_text, language="Japanese", ref_audio=ref_audio_path, ref_text=ref_text,)
# ==========================================# 4. save output wave file# ==========================================sf.write(output_file, wavs[0], sr)print(f"output has been generated in ./{output_file}")3. 音声入出力
マイク環境が悪く、ノイズが乗りやすいためHMDの音を学習に使う
取得した音声は以下の通り
https://
Audacityでノイズ抑制とクリップノイズの除去、ゲインの調整を実施
得られた出力は以下の通り
https://