Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文作者来自上海交通大学,清华大学,剑桥大学和上海人工智能实验室。一作陈哲为上海交通大学博一学生,师从上海交通大学人工智能学院王钰教授。通讯作者为王钰教授(主页:https://yuwangsjtu.github.io/)与清华大学电子工程系张超教授(主页:https://mi.eng.cam.ac.uk/~cz277)。

图片

  • 论文链接:https://arxiv.org/abs/2403.14168
  • 项目主页:https://jack-zc8.github.io/M3AV-dataset-page/
  • 论文标题:M3AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset

摘要

开源学术演讲录像是一种普遍流行的在线分享学术知识的方法。这些视频包含丰富的多模态信息,包括演讲者的语音、面部表情和身体动作,幻灯片中的文本和图片,和对应的论文文本信息。目前很少有数据集能够同时支持多模态内容识别和理解任务,部分原因是缺乏高质量的人工标注。

图片

该工作提出了一个新的多模态、多类型、多用途的视听学术演讲数据集(M3AV),它包含来自五个来源的近 367 小时的视频,涵盖计算机科学、数学、医学和生物学主题。凭借高质量的人工标注,特别是高价值的命名实体,数据集可以用于多种视听识别和理解任务。在上下文语音识别语音合成以及幻灯片和脚本生成任务上进行的评估表明,M3AV 的多样性使其成为一个具有挑战性的数据集。目前该工作已被 ACL 2024 主会接收。

数据集信息

M3AV 数据集主要由以下几个部分组成:

1. 带有复杂块的幻灯片,它们将会被按照空间位置关系进行合并。
2. 口语和书面形式的,包含特殊词汇以及单词级时间戳的语音转写文本。
3. 视频对应的论文文本。

从下表可以看出,M3AV 数据集包含最多人工标注的幻灯片、语音和论文资源,因此不仅支持多模态内容的识别任务,还支持高级学术知识的理解任务

图片

同时,M3AV 数据集在各方面与其他学术数据集相比,内容较为丰富,同时也是可访问的资源。

图片

实验任务

M3AV 数据集在多模态感知与理解方面设计了三个任务,分别是基于上下文的语音识别、自发风格的语音合成、幻灯片与脚本生成。

任务一:基于上下文的语音识别

一般的端到端模型在稀有词识别上存在问题。从下表的 AED 和 RNN-T 模型可以看出,稀有词词错率(BWER)与全部词错率(WER)相比,增加了两倍以上。通过使用 TCPGen 利用 OCR 信息来进行基于上下文的语音识别,RNN-T 模型在开发和测试集上的 BWER 分别有相对 37.8% 和 34.2% 的降低。

图片

任务二:自发风格的语音合成

自发风格的语音合成系统迫切地需求真实场景下的语音数据,以产生更接近自然会话模式的语音。论文作者引入了 MQTTS 作为实验模型,可以发现与各个预训练模型相比,MQTTS 的各项评估指标最佳。这表明 M3AV 数据集中的真实语音可以驱动 AI 系统模拟出更自然的语音。

图片

任务三:幻灯片与脚本生成

幻灯片和脚本生成(SSG)任务旨在促进 AI 模型理解和重建先进的学术知识,从而帮助研究人员处理快速更新迭代的学术资料,有效地开展学术研究。

从下表可以看出,开源模型(LLaMA-2, InstructBLIP)在从 7B 提升到 13B 时,性能提升有限,落后于闭源模型(GPT-4 和 GPT-4V)。因此,除了提升模型尺寸,论文作者认为还需要有高质量的多模态预训练数据。值得注意的是,先进的多模态大模型(GPT-4V)已经超过了由多个单模态模型组成的级联模型。

图片

此外,检索增强生成(RAG)有效提升了模型性能:下表显示,引入的论文文本同时提升了生成的幻灯片与脚本的质量。

图片

结论

这篇工作发布了涵盖多个学术领域的多模态、多类型、多用途视听数据集(M3AV)。该数据集包含人工标注的语音转录、幻灯片和额外提取的论文文本,为评估 AI 模型识别多模态内容和理解学术知识的能力提供了基础。论文作者详细介绍了创建流程,并对该数据集进行了各种分析。此外,他们构建了基准并围绕数据集进行了多项实验。最终,论文作者发现现有的模型在感知和理解学术演讲视频方面仍有较大的提升空间。

部分标注界面

图片

图片

工程ACL 2024视听学术演讲数据集
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
Audi机构

奥迪是一间德国跨国豪华汽车制造商,主要从事豪华和高性能汽车制造业。总部位于德国巴伐利亚州的英戈尔施塔特。是大众集团的成员。奥迪与德国品牌宝马和梅赛德斯-奔驰一起,是世界上最畅销的豪华汽车品牌之一。

http://www.audi.com/
强生机构

强生公司成立于1886年,是全球最具综合性、业务分布范围广的医疗健康企业之一,业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此,130多年来,公司始终致力于推进健康事业,让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/
推荐文章
暂无评论
暂无评论~