LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,响应延迟低至 226ms,低于 GPT-4o 的平均音频响应延迟 320ms。
论文:https://arxiv.org/pdf/2409.06666 代码:https://github.com/ictnlp/LLaMA-Omni 模型:https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni 论文标题:LLaMA-Omni: Seamless Speech Interaction with Large Language Models
ChatGPT 得分; 语音 - 文本对齐; 语音质量; 响应延迟。