Sopro TTS: A 169M model with zero-shot voice cloning that runs on the CPU
产品/方法概述
- 一句话介绍: Sopro TTS 是一个轻量级(169M 参数)、支持 CPU 运行且具备零样本(Zero-shot)克隆能力的文本转语音模型。
- 核心问题: 解决了边缘计算设备(如普通 PC、安卓手机、无 GPU 工业硬件)在缺乏昂贵算力资源时,无法实现低延迟、个性化语音克隆的问题。
- 实现方式: 采用 Mimi 编解码器(约 90M 参数)配合 FiLM(特征线性调制)技术进行说话人条件约束,实现极小规模参数下的声音克隆与推理。