Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

ACL 2024奖项公布:华科大破译甲骨文最佳论文之一、GloVe时间检验奖

本届 ACL 大会,投稿者「收获满满」。

为期六天的 ACL 2024 正在泰国曼谷举办。

图片

ACL 是计算语言学自然语言处理领域的顶级国际会议,由国际计算语言学协会组织,每年举办一次。一直以来,ACL 在 NLP 领域的学术影响力都位列第一,它也是 CCF-A 类推荐会议。

今年的 ACL 大会已是第 62 届,接收了 400 余篇 NLP 领域的前沿工作。昨天下午,大会公布了最佳论文等奖项。此次,最佳论文奖 7 篇(两篇未公开)、最佳主题论文奖 1 篇、杰出论文奖 35 篇。

大会还评出了资源论文奖(Resource Award)3 篇、社会影响力奖(Social Impact Award)3 篇、时间检验奖 2 篇。

此外,本届大会终身成就奖颁给了纽约大学计算机科学系教授 Ralph Grishman。

以下是具体的获奖信息。

最佳论文

图片

论文 1:Mission: Impossible Language Models

  • 作者:Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
  • 机构:斯坦福大学、加州大学尔湾分校、得克萨斯大学奥斯汀分校
  • 论文链接:https://arxiv.org/abs/2401.06416

论文简介:乔姆斯基等人认为:对于人类可能或不可能学会的语言,大型语言模型(LLM)的学习能力是一样的。然而,几乎没有公开的实验证据来支持这种说法。

该研究开发了一组具有不同复杂性的合成语言,每一种都是通过使用不自然的词序和语法规则系统地改变英语数据而设计的,旨在合成人类不可能学会的语言。

该研究进行了广泛的评估实验,以评估 GPT-2 小模型学习这些「不可能语言」的能力,并且在整个训练的不同阶段进行这些评估,以比较每种语言的学习过程。该研究的核心发现是:与英语相比,GPT-2 很难学习「不可能语言」,这挑战了乔姆斯基等人的主张。

更重要的是,该研究希望其方法能够开辟一条富有成效的探究路线,让不同的 LLM 架构在各种「不可能语言」上进行测试,以了解如何将 LLM 用作认知和类型学调查工具。

图片

论文 2:Why are Sensitive Functions Hard for Transformers?

  • 作者:Michael Hahn, Mark Rofin
  • 机构:萨尔大学
  • 论文链接:https://arxiv.org/abs/2402.09963

论文简介:实验研究已经确定了 transformer 的一系列可学习性偏置和局限性,例如学习计算 PARITY 等简单形式语言的持续困难,以及对低度(low-degree)函数的偏置。然而,理论理解仍然有限,现有的表达理论要么高估要么低估现实的学习能力。

该研究证明,在 transformer 架构下,损失函数景观(loss landscape)受到输入空间灵敏度的限制:输出对输入串的许多部分敏感的 transformer 位于参数空间中的孤立点,导致泛化中的低灵敏度偏置。

该研究从理论上和实验上表明,该理论统一了关于 transformer 学习能力和偏置的广泛实验观察,例如它们对低灵敏度和低度的泛化偏置,以及奇偶校验长度泛化的困难。这表明,了解 transformer 的归纳偏置(inductive biases)不仅需要研究其原则上的表达能力,还需要研究其损失函数景观。

图片

论文 3:Deciphering Oracle Bone Language with Diffusion Models

  • 作者:Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han 等
  • 机构:华中科技大学、阿德莱德大学、安阳师范学院、华南理工大学
  • 论文链接:https://arxiv.org/pdf/2406.00684

论文简介:甲骨文(Oracle Bone Script,OBS)起源于约 3000 年前的中国商朝,是语言史上的基石,早于许多既定的书写系统。尽管发现了数千份铭文,但仍有大量的甲骨文未被破译,从而为这一古老的语言蒙上了一层神秘的面纱。现代 AI 技术的出现为甲骨文破译开辟了新的领域,对严重依赖大型文本语料库的传统 NLP 方法提出了挑战。

本文介绍了一种采用图像生成技术的新方法,开发出了针对甲骨文破译优化的扩散模型 Oracle Bone Script Decipher (OBSD)。利用条件扩散策略,OBSD 为甲骨文破译生成了重要的线索,并为 古代语言的 AI 辅助分析开辟了新方向。为了验证有效性,研究者在甲骨文数据集上进行了广泛的实验,定量结果证明了 OBSD 的有效性。

图片

论文 4:Causal Estimation of Memorisation Profiles

  • 作者:Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
  • 机构:剑桥大学、苏黎世联邦理工学院
  • 论文链接:https://arxiv.org/pdf/2406.04327

论文简介:理解语言模型中的记忆具有实际和社会意义,例如研究模型的训练动态或防止版权侵权。以往的研究将记忆定义为「使用实例进行的训练」对「模型预测该实例的能力」的因果关系。这个定义依赖于一个反事实:观察如果模型没有看到该实例会发生什么的能力。现有的方法难以提供对这种反事实的计算效率和准确性估计。此外,这些方法通常估计模型架构的记忆,而不是特定模型实例的记忆。

本文填补了一个重要空白,提出了一种基于计量经济学的差异 - 差异设计来估计记忆的全新、原则性和高效方法。通过这种方法,研究者在整个训练过程中仅观察模型在一小部分实例上的行为来描述模型的记忆概况,即其在训练过程中的记忆趋势。在使用 Pythia 模型套件进行实验时,他们发现记忆 (i) 在较大模型中更强大、更持久,(ii) 由数据顺序和学习率决定,以及 (iii) 在不同模型大小之间具有稳定的趋势,因此较大模型中的记忆可以从较小模型中预测出来。

图片

论文 5:Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

  • 作者:Ahmet Üstün, Viraat Aryabumi, Zheng Xin Yong, Wei-Yin Ko 等
  • 机构:Cohere、布朗大学等
  • 论文链接:https://arxiv.org/pdf/2402.07827

论文简介:大型语言模型 (LLM) 的最新突破集中在少数数据丰富的语言上。如何才能将突破的途径扩展到其他语言之外?该研究引入了 Aya,这是一种大规模多语言生成语言模型,它遵循 101 种语言指令,其中超过 50% 的语言被视为资源较少。Aya 在大多数任务上的表现都优于 mT0 和 BLOOMZ,同时覆盖的语言数量是 mT0 和 BLOOMZ 的两倍。

此外,该研究还引入了广泛的新评估套件,将多语言评估的最新水平扩展到 99 种语言。最后,该研究对最佳微调混合组成、数据剪枝以及模型的毒性、偏差和安全性进行了详细调查。

图片

论文 6:Semisupervised Neural Proto-Language Reconstruction

  • 作者:Liang Lu 、 Peirong Xie 、 David R. Mortensen
  • 机构:CMU、南加州大学
  • 论文链接:https://arxiv.org/pdf/2406.05930

获奖理由:这项开创性的研究旨在半自动化历史语言学中的原型语言重构任务,提出了一种新的半监督架构。通过在「母语 - 原型」重构中引入「原型 - 母语」反射过程,这种方法优于之前的监督方法。这篇论文很好地展示了现代计算模型(如神经编码 - 解码器)如何为语言学作出的贡献。 

图片

论文 7:Natural Language Satisfiability: Exploring the Problem Distribution and Evaluating Transformer-based Language Models(未公开)

  • 作者:Tharindu Madusanka、Ian Pratt-Hartmann、Riza Batista-Navarro

获奖理由:该论文清晰地描述了一个用于逻辑推理的合成评估数据集。这是对大量推理数据集的一种良好补充,因为这些数据集中并不明确测量哪些能力。从理论上讲,确实有理由预期某些子集比其他子集更难,而这些预期在论文中得到了验证。在每个类别中,作者都特别注意抽取那些真正具有挑战性的案例。 

时间检验奖

ACL 时间检验奖奖励的是对自然语言处理和计算语言学领域产生长期影响的荣誉论文,分为 10 年前(2014 年)和 25 年前(1999 年)两个奖项,每年最多颁发两篇论文。

图片

论文 1:GloVe: Global Vectors for Word Representation

  • 作者:Jeffrey Pennington, Richard Socher, Christopher D. Manning
  • 机构:斯坦福大学
  • 论文链接:https://aclanthology.org/D14-1162.pdf

论文简介:学习词的向量空间表征的方法已经在使用向量算术捕获细粒度的语义和句法规则方面取得了成功,但是句法规则仍不透明。该研究分析并明确了为了让句法规则出现在词向量中,模型需要具备哪些属性。

该研究提出了一个新的全局对数线性回归模型 ——GloVe,旨在学习词的向量表征。该模型结合了全局矩阵分解和局部上下文窗口两种方法的优点。

GloVe 在词类比任务上取得了 75% 的最佳性能,并在词相似性任务和命名实体识别方面优于相关模型。

获奖理由:词嵌入是 2013 年至 2018 年间自然语言处理(NLP)深度学习方法的基石,并且持续发挥着显著影响。它们不仅增强了 NLP 任务的性能,而且在计算语义学方面也产生了显著影响,例如在词语相似性和类比上。两种最有影响力的词嵌入方法可能是 skip-gram/CBOW 和 GloVe。与 skip-gram 相比,GloVe 提出得较晚。它的相对优势在于概念上的简单性,直接根据词之间的分布特性优化向量空间相似性,而不是从简化的语言建模角度间接作为一组参数

图片

图片

论文 2:Measures of Distributional Similarity

  • 作者:Lillian Lee
  • 机构:康奈尔大学
  • 论文链接:https://aclanthology.org/P99-1004.pdf

论文简介:作者研究了分布相似性度量,目的是提高对未见共现事件的概率估计。他们的贡献有三个方面:对一系列广泛的度量方法进行实证比较;基于它们所包含的信息对相似性函数进行分类;引入了一种新的函数,该函数在评估潜在代理分布方面更为优越。

图片

终身成就奖

ACL 的终身成就奖颁给了 Ralph Grishman。Ralph Grishman 是纽约大学计算机科学系的教授,专注于自然语言处理(NLP)领域的研究。他是 Proteus Project 的创始人,该项目在信息抽取(IE)方面做出了重大贡献,推动了该领域的发展。

图片

他还开发了 Java Extraction Toolkit (JET),这是一个广泛使用的信息抽取工具,提供了多种语言分析组件,如句子分割、命名实体标注、时间表达标注与规范化词性标注、部分解析和共指分析。这些组件可以根据不同应用组合成管道,既可用于单个句子的交互分析,也可用于整篇文档的批量分析。此外,JET 还提供了简单工具用于文档的标注和显示,并包括完整的流程以按照 ACE(自动内容抽取)规范进行实体、关系和事件的抽取。 

Grishman 教授的工作涵盖了多个 NLP 的核心问题,并对现代语言处理技术产生了深远的影响。 

35 篇杰出论文

  • 论文 1:Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models
  • 作者:Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Qing Li, Yong Jiang, Zhihao Jia
  • 机构:CMU、清华大学、鹏城实验室等
  • 论文链接:https://arxiv.org/pdf/2401.07159

  • 论文 2:L-Eval: Instituting Standardized Evaluation for Long Context Language Models
  • 作者:Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong, Xipeng Qiu
  • 机构:复旦大学、香港大学、伊利诺伊大学厄巴纳 - 香槟分校、上海 AI Lab
  • 论文链接:https://arxiv.org/abs/2307.11088

  • 论文 3:Causal-Guided Active Learning for Debiasing Large Language Models
  • 论文链接:https://openreview.net/forum?id=idp_1Q6F-lC

  • 论文 4:CausalGym: Benchmarking causal interpretability methods on linguistic tasks
  • 作者:Aryaman Arora, Dan Jurafsky, Christopher Potts
  • 机构:斯坦福大学
  • 论文链接:https://arxiv.org/abs/2402.12560

  • 论文 5:Don't Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration
  • 作者:Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Vidhisha Balachandran, Yulia Tsvetkov
  • 机构:华盛顿大学、加州大学伯克利分校、香港科技大学、CMU
  • 论文链接:https://arxiv.org/abs/2402.00367

  • 论文 6:Speech Translation with Speech Foundation Models and Large Language Models: What is There and What is Missing?
  • 作者:Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli
  • 机构:意大利布鲁诺・凯斯勒基金会
  • 论文链接:https://arxiv.org/abs/2402.12025

  • 论文 7:Must NLP be Extractive?
  • 作者:Steven Bird
  • 机构:查尔斯达尔文大学
  • 论文链接:https://drive.google.com/file/d/1hvF7_WQrou6CWZydhymYFTYHnd3ZIljV/view

  • 论文 8:IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators
  • 作者:Indraneil Paul、Goran Glavaš、Iryna Gurevych
  • 机构:达姆施塔特工业大学等
  • 论文链接:https://arxiv.org/abs/2403.03894

  • 论文 9:MultiLegalPile: A 689GB Multilingual Legal Corpus
  • 作者:Matthias Stürmer 、 Veton Matoshi 等
  • 机构:伯尔尼大学、斯坦福大学等
  • 论文链接:https://arxiv.org/pdf/2306.02069

  • 论文 10:PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety
  • 作者:  Zaibin Zhang 、 Yongting Zhang 、 Lijun Li 、 Hongzhi Gao 、 Lijun Wang 、 Huchuan Lu 、 Feng Zhao 、 Yu Qiao、Jing Shao
  • 机构:上海人工智能实验室、大连理工大学、中国科学技术大学
  • 论文链接:https://arxiv.org/pdf/2401.11880

  • 论文 11:Can Large Language Models be Good Emotional Supporter? Mitigating Preference Bias on Emotional Support Conversation
  • 作者:Dongjin Kang、Sunghwan Kim 等
  • 机构:延世大学等
  • 论文链接:https://arxiv.org/pdf/2402.13211

  • 论文 12:Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models
  • 作者:Paul Röttger 、 Valentin Hofmann 等
  • 机构:博科尼大学、艾伦人工智能研究院等
  • 论文链接:https://arxiv.org/pdf/2402.16786

  • 论文 13:Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
  • 作者:Mosh Levy 、 Alon Jacoby 、 Yoav Goldberg
  • 机构:巴伊兰大学、艾伦人工智能研究院
  • 论文链接:https://arxiv.org/pdf/2402.14848

  • 论文 14:Do Llamas Work in English? On the Latent Language of Multilingual Transformers
  • 作者:Chris Wendler 、 Veniamin Veselovsky 等
  • 机构:洛桑联邦理工学院
  • 论文链接:https://arxiv.org/pdf/2402.10588

  • 论文 15:Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models
  • 作者:Zachary Horvitz 、 Jingru Chen 等
  • 机构:哥伦比亚大学、洛桑联邦理工学院
  • 论文链接:https://arxiv.org/pdf/2403.00794

  • 论文 16:Estimating the Level of Dialectness Predicts Inter-annotator Agreement in Multi-dialect Arabic Datasets
  • 作者:Amr Keleg, Walid Magdy, Sharon Goldwater
  • 机构:爱丁堡大学
  • 论文链接:https://arxiv.org/pdf/2405.11282

  • 论文 17:G-DlG: Towards Gradient-based Dlverse and hiGh-quality Instruction Data Selection for Machine Translation
  • 作者:Xingyuan Pan, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Shanbo Cheng
  • 机构:ByteDance Research
  • 论文链接:https://arxiv.org/pdf/2405.12915

  • 论文 18:Media Framing: A typology and Survey of Computational Approaches Across Disciplines
  • 作者:Yulia Otmakhova, Shima Khanehzar, Lea Frermann
  • 论文链接:https://openreview.net/pdf?id=9AV_zM56pwj

  • 论文 19:SPZ: A Semantic Perturbation-based Data Augmentation Method with Zonal-Mixing for Alzheimer's Disease Detection
  • 作者:FangFang Li、Cheng Huang、PuZhen Su、Jie Yin

  • 论文 20:Greed is All You Need: An Evaluation of Tokenizer Inference Methods
  • 机构:内盖夫本・古里安大学、麻省理工学院
  • 作者:Omri Uzan、Craig W.Schmidt、Chris Tanner、Yuval Pinter
  • 论文链接:https://arxiv.org/abs/2403.01289

  • 论文 21:Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't
  • 机构:圣母大学(美国)
  • 作者:Chihiro Taquchi、David Chiang
  • 论文链接:https://arxiv.org/abs/2406.09202

  • 论文 22:Steering Llama 2 via Contrastive Activation Addition
  • 机构:Anthropic、哈佛大学、哥廷根大学(德国)、 Center for Human-Compatible AI
  • 作者:Nina Rimsky、Nick Gabrieli、Julian Schulz、Meg Tong、Evan J Hubinger、Alexander Matt Turner
  • 论文链接:https://arxiv.org/abs/2312.06681

  • 论文 23:EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities
  • 机构:清华大学 - 深圳国际研究生院、清华大学
  • 作者:Nian Li、Chen Gao、Mingyu Li、Yong Li、Qingmin Liao
  • 论文链接:https://arxiv.org/abs/2310.10436

  • 论文 24:M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models
  • 机构:香港中文大学、华为诺亚方舟实验室、香港科技大学
  • 作者:Wai-Chung Kwan、Xingshan Zeng、Yufei Wang、Yusen Sun、Liangyou Li、Lifeng Shang、Qun Liu、Kam-Fai Wong
  • 论文链接:https://arxiv.org/abs/2310.19240

  • 论文 25:CHECKWHY: Causal Fact Verification via Argument Structure
  • 作者:Jiasheng Si、Yibo Zhao、Yingjie Zhu、Haiyang Zhu、Wenpeng Lu、Deyu Zhou

  • 论文 26:On Efficient and Statistical Quality Estimation for Data Annotation
  • 作者:Jan-Christoph Klie,Juan Haladjian,Marc Kirchner,Rahul Nair
  • 机构:UKP Lab,、TU Darmstadt 、苹果公司
  • 论文链接:https://arxiv.org/pdf/2405.11919

  • 论文 27:Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!
  • 作者:Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao
  • 机构:上海人工智能实验室
  • 论文链接:https://arxiv.org/pdf/2402.12343

  • 论文 28:IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages
  • 作者:Mohammed Safi Ur Rahman Khan, Priyam Mehta, Ananth Sankar 等
  • 机构:Nilekani Centre at AI4Bharat、印度理工学院(马德拉斯)、微软等
  • 论文链接:https://arxiv.org/pdf/2403.06350

  • 论文 29:MultiPICo: Multilingual Perspectivist lrony Corpus
  • 作者:Silvia Casola, Simona Frenda, Soda Marem Lo, Erhan Sezerer等
  • 机构:都灵大学、aequa-tech、亚马逊开发中心(意大利)等
  • 论文链接:https://assets.amazon.science/08/83/9b686f424c89b08e8fa0a6e1d020/multipico-multilingual-perspectivist-irony-corpus.pdf

  • 论文 30:MMToM-QA: Multimodal Theory of Mind Question Answering
  • 作者:Chuanyang Jin, Yutong Wu, Jing Cao, jiannan Xiang等
  • 机构:纽约大学、哈佛大学、MIT、加州大学圣迭戈分校、弗吉尼亚大学、约翰霍普金斯大学
  • 论文链接:https://arxiv.org/pdf/2401.08743

  • 论文 31:MAP's not dead yet: Uncovering true language model modes by conditioning away degeneracy
  • 作者:Davis Yoshida, Kartik Goyal, Kevin Gimpel
  • 机构:丰田工业大学芝加哥分校、佐治亚理工学院
  • 论文链接:https://arxiv.org/pdf/2311.08817

  • 论文 32:NounAtlas: Filling the Gap in Nominal Semantic Role Labeling
  • 作者:Roberto Navigli, Marco Lo Pinto, Pasquale Silvestri等

  • 论文 33:The Earth is Flat because.. lnvestigating LLMs' Belief towards Misinformation via PersuasiveConversation
  • 作者:Rongwu Xu, Brian S. Lin, Shujian Yang, Tiangi Zhang等
  • 机构:清华大学、上海交通大学、斯坦福大学、南洋理工大学
  • 论文链接:https://arxiv.org/pdf/2312.09085

  • 论文 34:Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation
  • 作者:Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim等
  • 机构:韩国科学技术院(KAIST)
  • 论文链接:https://arxiv.org/pdf/2406.07867

  • 论文 35:Word Embeddings Are Steers for Language Models
  • 作者:Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek F. Abdelzaher, Heng Ji
  • 机构:伊利诺伊大学厄巴纳 - 香槟分校
  • 论文链接:https://arxiv.org/pdf/2305.12798

最佳主题论文奖

图片

论文:OLMo:Accelerating the Science of Language Models

  • 作者:Dirk Groeneveld 、 Iz Beltagy 等
  • 机构:艾伦人工智能研究院、华盛顿大学等
  • 论文链接:https://arxiv.org/pdf/2402.00838

获奖理由:这项工作是朝着大型语言模型训练的透明性和可重复性迈出的重要一步,这是社区在取得进展(或至少为了让非行业巨头的其他研究者也能贡献进展)方面急需的。 

资源论文奖

3 篇论文获得 Resource Paper Award。

论文 1:Latxa: An Open Language Model and Evaluation Suite for Basque
机构:西班牙巴斯克大学

  • 作者:Julen Etxaniz、Oscar Sainz、Naiara Perez、Itziar Aldabe、German Rigau、Eneko Agirre、Aitor Ormazabal、Mikel Artetxe、Aitor Soroa
  • 链接:https://arxiv.org/pdf/2403.20266

获奖理由:该论文细致描述了语料收集、数据集评估的细节。尽管是巴斯克语言相关研究,这一方法论可扩展到其他低资源语言大模型的构建上。

论文 2:Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

  • 机构:艾伦人工智能研究院、加州伯克利大学等
  • 作者:Luca Soldaini、Rodney Kinney 等
  • 链接:https://arxiv.org/abs/2402.00159

获奖理由:该论文展示了训练大语言模型准备数据集时数据管理的重要性。这为社区内广大人群提供了非常有价值的洞见。

论文 3:AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

  • 机构:纽约州立大学石溪分校、艾伦人工智能研究院等
  • 作者:Harsh Trivedi, Tushar Khot 等
  • 链接:https://arxiv.org/abs/2407.18901

获奖理由:该研究是构建交互环境模拟与评估方面非常重要、惊艳的工作。它将鼓励大家为社区多多产出硬核动态基准

社会影响力奖

3 篇论文获得 Social Impact Award。

论文 1:How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

  • 作者:Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang等
  • 机构:弗吉尼亚理工大学、中国人民大学、加州大学戴维斯分校、斯坦福大学
  • 论文链接:https://arxiv.org/pdf/2401.06373

获奖理由:本文探讨了 AI 安全主题 —— 越狱,研究了社会科学研究领域内开发的一种方法。该研究非常有趣,并有可能对社区产生重大影响。

论文 2:DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages

  • 作者:Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja 等
  • 机构:乔治梅森大学、华盛顿大学、圣母大学、 RC Athena
  • 论文链接:https://arxiv.org/pdf/2403.11009

获奖理由:方言变异是 NLP 和人工智能领域未能得到充分研究的现象。然而,从语言和社会的角度来看,它的研究具有极高的价值,对应用也有重要的影响。本文提出了一个非常新颖的基准来研究 LLM 时代的这个问题。

论文 3:Having Beer after Prayer? Measuring Cultural Bias in Large LanguageModels

  • 作者:Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
  • 机构:佐治亚理工学院
  • 论文链接:https://arxiv.org/pdf/2305.14456

获奖理由:本文展示了 LLM 时代的一个重要问题:文化偏见。本文研究了阿拉伯文化和语言环境,结果表明,在设计 LLM 时,我们需要考虑文化差异。因此,同样的研究可以复制到其他文化中,以概括和评估其他文化是否也受到这个问题的影响。
产业ACL 2024
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
Lillian Lee人物

Lillian Lee是康奈尔大学计算机科学系和信息科学系教授,研究兴趣:自然语言处理、情感分析。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

Julia技术

Julia 是MIT设计的一个面向科学计算的高性能动态高级程序设计语言,项目大约于2009年中开始,2018年8月JuliaCon2018 发布会上发布Julia 1.0。据介绍,Julia 目前下载量已经达到了 200 万次,且 Julia 社区开发了超过 1900 多个扩展包。这些扩展包包含各种各样的数学库、数学运算工具和用于通用计算的库。除此之外,Julia 语言还可以轻松使用 Python、R、C/C++ 和 Java 中的库,这极大地扩展了 Julia 语言的使用范围。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

语义学技术

语义学,也作“语意学”,是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

算术技术

算术(英语:arithmetic)是数学最古老且最简单的一个分支,几乎被每个人使用着,从日常生活上简单的算数到高深的科学及工商业计算都会用到。一般而言,算术这一词指的是记录数字某些运算基本性质的数学分支。

命名实体识技术

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。

暂无评论
暂无评论~