2024/07/06 10:35

ACL 2024 | 引领学术视听研究，上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者来自上海交通大学，清华大学，剑桥大学和上海人工智能实验室。一作陈哲为上海交通大学博一学生，师从上海交通大学人工智能学院王钰教授。通讯作者为王钰教授（主页：https://yuwangsjtu.github.io/）与清华大学电子工程系张超教授（主页：https://mi.eng.cam.ac.uk/~cz277）。

论文链接：https://arxiv.org/abs/2403.14168
项目主页：https://jack-zc8.github.io/M3AV-dataset-page/
论文标题：M3AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset

摘要

开源学术演讲录像是一种普遍流行的在线分享学术知识的方法。这些视频包含丰富的多模态信息，包括演讲者的语音、面部表情和身体动作，幻灯片中的文本和图片，和对应的论文文本信息。目前很少有数据集能够同时支持多模态内容识别和理解任务，部分原因是缺乏高质量的人工标注。

该工作提出了一个新的多模态、多类型、多用途的视听学术演讲数据集（M3AV），它包含来自五个来源的近 367 小时的视频，涵盖计算机科学、数学、医学和生物学主题。凭借高质量的人工标注，特别是高价值的命名实体，数据集可以用于多种视听识别和理解任务。在上下文语音识别、语音合成以及幻灯片和脚本生成任务上进行的评估表明，M3AV 的多样性使其成为一个具有挑战性的数据集。目前该工作已被 ACL 2024 主会接收。

数据集信息

M3AV 数据集主要由以下几个部分组成：

1. 带有复杂块的幻灯片，它们将会被按照空间位置关系进行合并。

2. 口语和书面形式的，包含特殊词汇以及单词级时间戳的语音转写文本。

3. 视频对应的论文文本。

从下表可以看出，M3AV 数据集包含最多人工标注的幻灯片、语音和论文资源，因此不仅支持多模态内容的识别任务，还支持高级学术知识的理解任务。

同时，M3AV 数据集在各方面与其他学术数据集相比，内容较为丰富，同时也是可访问的资源。

实验任务

M3AV 数据集在多模态感知与理解方面设计了三个任务，分别是基于上下文的语音识别、自发风格的语音合成、幻灯片与脚本生成。

任务一：基于上下文的语音识别

一般的端到端模型在稀有词识别上存在问题。从下表的 AED 和 RNN-T 模型可以看出，稀有词词错率（BWER）与全部词错率（WER）相比，增加了两倍以上。通过使用 TCPGen 利用 OCR 信息来进行基于上下文的语音识别，RNN-T 模型在开发和测试集上的 BWER 分别有相对 37.8% 和 34.2% 的降低。

任务二：自发风格的语音合成

自发风格的语音合成系统迫切地需求真实场景下的语音数据，以产生更接近自然会话模式的语音。论文作者引入了 MQTTS 作为实验模型，可以发现与各个预训练模型相比，MQTTS 的各项评估指标最佳。这表明 M3AV 数据集中的真实语音可以驱动 AI 系统模拟出更自然的语音。

任务三：幻灯片与脚本生成

幻灯片和脚本生成（SSG）任务旨在促进 AI 模型理解和重建先进的学术知识，从而帮助研究人员处理快速更新迭代的学术资料，有效地开展学术研究。

从下表可以看出，开源模型（LLaMA-2， InstructBLIP）在从 7B 提升到 13B 时，性能提升有限，落后于闭源模型（GPT-4 和 GPT-4V）。因此，除了提升模型尺寸，论文作者认为还需要有高质量的多模态预训练数据。值得注意的是，先进的多模态大模型（GPT-4V）已经超过了由多个单模态模型组成的级联模型。

此外，检索增强生成（RAG）有效提升了模型性能：下表显示，引入的论文文本同时提升了生成的幻灯片与脚本的质量。

结论

这篇工作发布了涵盖多个学术领域的多模态、多类型、多用途视听数据集（M3AV）。该数据集包含人工标注的语音转录、幻灯片和额外提取的论文文本，为评估 AI 模型识别多模态内容和理解学术知识的能力提供了基础。论文作者详细介绍了创建流程，并对该数据集进行了各种分析。此外，他们构建了基准并围绕数据集进行了多项实验。最终，论文作者发现现有的模型在感知和理解学术演讲视频方面仍有较大的提升空间。

部分标注界面

工程ACL 2024视听学术演讲数据集

相关技术

知识图谱

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

语音合成技术

语音合成，又称文语转换（Text to Speech）技术，是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

来源：张斌,全昌勤,任福继. 语音合成方法和发展综述

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/