只输入语音便能生成人体姿势。瑞典皇家理工学院的研究者做到了!
数据集无需手动标注;
具备不确定性(因而可以得到无限种类的姿势变体);
能够输出全身姿势。
你说的对!这个模型仅倾听语音(没有文本输入),但并不包含任何人类语言模型。我认为,使用这类模型生成具备语义意义的姿势(尤其还要与语音节奏保持一致)仍是一个未解难题。
数据是目前的主要瓶颈。该模型基于同一个人的大约四小时的姿势和语音数据。我们很难找到足够的高质量语音和动作平行数据。一些研究者使用 TED 演讲,但是从此类视频中提取的姿势动作看起来不具备说服力,不够自然。(好的运动数据需要运动捕捉设置和仔细的数据处理。)因此,该研究目前使用的是较小型的高质量数据集。