Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

OpenAI大呼冤枉,称《纽约时报》说法片面,吴恩达也为其发声

OpenAI:《纽约时报》的诉讼毫无根据。

2023 年年底,《纽约时报》拿出了强有力的证据起诉微软与 OpenAI。根据多家科技公司的首席法律顾问 Cecilia Ziniti 的分析,《纽约时报》获胜的概率极大。

机器学习领域著名学者吴恩达针对这件事连发两条推文说明了自己的观点。在他的第一条推文中,表达对 OpenAI 和微软的同情。他怀疑很多重复的文章实际是通过类似于 RAG(检索增强生成)的机制产生的,而非仅仅依赖模型训练的权重

图片

来源:https://twitter.com/AndrewYNg/status/1744145064115446040

不过,吴恩达的推测被也遭到了反驳。纽约大学教授 Gary Marcus 表示在视觉生成领域的「抄袭」和 RAG 毫不相干。

今天,吴恩达再次发布推文,对上一条的说法进行了新的说明。他明确指出,任何公司未经许可或没有合理的使用理由就大规模复制他人版权内容是不对的。但他认为 LLM 只有在罕见的情况下,才会根据特定的提示「反刍」。而一般的普通用户几乎不会采用这些特定的提示。关于通过特定的方式提示 GPT-4 可以复制《纽约时报》的文本,吴恩达也表示这种情况很少发生。他补充道,ChatGPT 的新版本似乎已经将这个漏洞进行改善了。

图片

来源:https://twitter.com/AndrewYNg/status/1744433663969022090

当尝试复制诉讼中看起来最糟糕的版权侵犯例子时,例如尝试使用 ChatGPT 绕过付费墙,或获取 Wirecutter 的结果时,吴恩达发现这会触发 GPT-4 的网络浏览功能。这表明,这些例子中可能涉及了 RAG。GPT-4 可以浏览网页下载额外信息以生成回应,例如进行网页搜索或下载特定文章。他认为,在诉讼中这些例子被突出展示,会让人们误以为是 LLM 在《纽约时报》文本上的训练直接导致了这些文本被复制,但如果涉及 RAG,那么这些复制例子的根本原因并非 LLM 在《纽约时报》文本上训练。

既然有两种观点,我们已经看过了《纽约时报》的「声讨」,OpenAI 对这件事情到底是怎样的看法,有怎样的回应,我们一起来看看吧。

图片

博客地址:https://openai.com/blog/openai-and-journalism

OpenAI 申明立场

OpenAI 表示,他们的目标是开发人工智能工具,让人们有能力解决那些遥不可及的问题。他们的技术正在被世界各地的人使用来改善日常生活。

OpenAI 不同意《纽约时报》诉讼中的说法,但认为这是一个阐明公司业务、意图和技术构建方式的机会。他们将自己的立场概括为以下四点:

  • 与新闻机构合作并创造新机会;

  • 训练是合理使用,但需要提供退出的选项;

  • 「复述」是一个罕见的错误,OpenAI 正在努力将其减少到零;

  • 《纽约时报》的讲述并不完整。

关于这四点内容具体如何,OpenAI 在博客中也进行了详细说明。

OpenAI 与新闻机构合作并创造新机会 

OpenAI 在技术设计过程中努力支持新闻机构。他们与多家媒体机构及领先行业组织会面,讨论需求并提供解决方案。OpenAI 的目标是学习、教育、倾听反馈,并进行适应,支持健康的新闻生态系统,创造互利的机会。

  • 他们与新闻机构建立了伙伴关系:

  • 来帮助记者和编辑处理大量繁琐的、耗时的工作等等;

  • 在此基础上,OpenAI 可以通过对更多历史、非公开内容的训练,让 AI 模型了解世界;

  • 在 ChatGPT 中显示实时内容并注明出处,为新闻出版商提供与读者联系的新方式。

训练是合理使用

但需要提供退出的选项

使用公开可用的互联网材料训练 AI 模型是合理的,这一点是被长期且广泛接受的,并得到了支持。这些支持来自广泛的学者、图书馆协会、民间社会团体、初创企业、领先的美国公司、创作者、作者等,他们都同意将 AI 模型训练视为合理使用。在欧盟、日本、新加坡和以色列,也有允许在受版权保护的内容上训练模型的法律。这是人工智能创新、进步和投资的优势。

OpenAI 表示,他们在 AI 行业中率先提供了一个简单的退出流程,而《纽约时报》在 2023 年 8 月就采用了这一程序,以防止 OpenAI 的工具访问他们的网站。

「复述」是一个罕见的错误

OpenAI 正在努力将其减少到零

「复述」是 AI 训练过程中的罕见故障。如果当特定内容在训练数据中出现不止一次时,比如同一篇内容被不同的网站反复转发,AI 模型的「复述」就比较常见了。因此,OpenAI 采取了一些措施来防止在模型输出中出现重复内容。

学习概念,再将其应用于新问题使人类常见的思维模式,OpenAI 在设计 AI 模型时也遵循了这个原理,他们希望 AI 模型能够吸取来自世界各地的新鲜信息。由于模型的「学习资料」是所有人类知识的集合,来自新闻方面的训练数据只是其中的冰山一角,任何单一的数据源,包括《纽约时报》,对模型的学习行为都没有意义。

《纽约时报》的讲述并不完整

去年 12 月 19 日,OpenAI 与《纽约时报》为达成合作进行了顺利的谈判。谈判的重点为 ChatGPT 将在回答中实时显示引用来源,《纽约时报》也将通过这种方式与和新读者建立联系。当时 OpenAI 就已经向《纽约时报》解释,他们的内容对的现有模型的训练没有实质性贡献,也不会涉及未来的模型训练。

《纽约时报》拒绝向 OpenAI 分享任何 GPT「涉嫌抄袭」其报道的示例。在 7 月,OpenAI 已经提供了解决问题的诚意,在得知 ChatGPT 可能意外复制实时网页上的内容后,他们立即下架了有关内容。

然而《纽约时报》提供的「抄袭行为」似乎都是多年前的文章。这些文章已在多个第三方网站被广泛地转发和传播。OpenAI 认为,《纽约时报》有可能故意操纵了提示词,他们可以输入大段「被抄袭」的文章的节选,诱导 AI 做出和原文重复度高的回答。即使使用了这样的提示词,OpenAI 的模型通常不会出现申诉书中重复率如此之高的情况。因此,OpenAI 猜测《纽约时报》要么操纵了提示词,要么就是在反复试验中精心挑选出了「范例」。

这种多次重复的多轮对话,违反了用户使用条款。OpenAI 正在不断提高系统的抗逆性,以抵御反刍训练数据的恶意攻击,并在最近取得了很大进展。

OpenAI 在博客最后表示,《纽约时报》的诉讼毫无根据。他们仍希望与《纽约时报》建立建设性的合作关系,并尊重其悠久的历史。

这场争论最后到底会产生怎样的结果,对于人工智能未来的发展至关重要。它可能阻碍 AI 模型的训练,也可能探索出新的 AI 与各企业协同发展的道路。你对这件事又有怎样的看法,欢迎在评论区中留言讨论。

产业OpenAI
相关数据
吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

所属机构
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

网页搜索技术

Web搜索引擎是一种软件系统,旨在搜索万维网上的信息。 搜索结果通常以一系列结果呈现,通常称为搜索引擎结果页面(SERP)。 该信息可以是网页、图像和其他类型的文件的混合。一些搜索引擎还挖掘数据库或打开目录中可用的数据。 与仅由人工编辑器维护的网络目录不同,搜索引擎还通过在网络爬虫上运行算法来维护实时信息。 不能被网络搜索引擎搜索的因特网内容通常被描述为深度网络(deep web)。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

强生机构

强生公司成立于1886年,是全球最具综合性、业务分布范围广的医疗健康企业之一,业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此,130多年来,公司始终致力于推进健康事业,让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/
推荐文章
暂无评论
暂无评论~