麻省理工研究团队利用 YouTube 视频训练深度神经网络听音画人
机器之心消息,人们能在多大程度上通过一个人的说话方式来推断他的外表?来自麻省理工学院计算机科学与人工智能实验室的研究人员们分享了一项从人的简短录音中重建整个人面部图像的神奇技术,Speech2Face。该团队使用了数百万包含人物讲话的 YouTube 视频来设计以及训练深度神经网络来执行该任务。训练过程中,该模型学习了语音与面相的相关性,来生成并捕捉说话者的包括年龄,性别以及种族等身体特征。该技术通过自我监督的方式完成,并利用互联网视频中人脸与语音的自然共现,无需对属性进行建模。该研究团队从音频中获得的 Speech2Face 重建,并对其组建的面部图像与真实说话者的面部相似性进行了评估以及量化。