微胖翻译

2018/01/01 20:04

持续不断地推荐儿童不宜视频背后，YouTube是这样训练AI的

编译 | 王宇欣 Rik

来源 | BuzzFeed NEWS

本月早些时候，在公众对 YouTube 可能引起不安的潜在不良内容表达强烈不满后，YouTube CEO Susan Wojcicki 表示，2018 年公司将把人类审查员的数量增至 10,000 名，以遏制不良内容。

但是，我们从获得的 YouTube 准则和截图，以及对 10 位现任及前任「评级员（训练 YouTube 搜索算法的合同工）」的采访中，发现 YouTube 系统存在不少问题。

这些文件和访谈，揭露了一个令人难以理解甚至有时自相矛盾的评级准则。

用评级员的话说，准则要求他们主要根据制作品质来推送「高质量」视频，即使有时候所谓「高质量」视频内容会引起不安。

这份准则不仅使数以千计可能对儿童产生不良影响的视频仍然在线，而且还能通过算法扩大其影响范围。

评级员告诉 BuzzFeed News，在过去十天左右，他们被分配了超过 100 个任务，仔细评估这些针对孩子 YouTube 视频是否安全。

「昨天，我做了 50 多份任务，工作了 7 个小时，」一位评级员要求匿名，因为未被授权与我们就这项工作进行谈话。

「作为一名家长，让我很震惊的是，这些名义上给孩子看的视频，并非真正给孩子看的。」评级员继续说道。

「内容创作者制作这些漫画时使用了一些冒牌的孩子角色，比如 Paw Patrol（《汪汪巡逻队》），但是观看这些视频时，他们就开始粗言秽语，讲一些黄色笑话等等。许多孩子都是在无人监督下看这些视频的，这种东西真会给孩子留下精神创伤。」

「许多看上去合乎准则的卡通视频，却因其语言问题，要被评为『不好』，就像这个《小猪佩奇》的视频。」

与我们交谈的 YouTube 合同工就是搜索质量评级员，帮助训练谷歌的系统以搜索问题的最佳结果。

谷歌综合了算法和人类审查员（就像那些评级员）的力量，分析其数量庞大的系列产品的内容。

「搜索评级员对 YouTube 上的搜索结果进行抽样并评估其质量，保证在不同搜索查询中提供最相关的视频。」公司发言人在一封发给 BuzzFeed News 的邮件声明中写道。

「这些评级员不能决定 YouTube 内容在其搜索结果中的排名，也不能决定内容是否违反社区准则和内容删除、年龄限制或是否有资格投放广告等。」YouTube 表示，这些内容审核的责任归属于一些跨谷歌和 YouTube 工作的小组。

但是，康奈尔大学人工智能教授 Bart Selman 认为，尽管这些审核员不能直接决定什么样的内容不允许在 YouTube 存在，但是，他们仍然对客户看到的内容有相当大的影响。

「评级员对视频质量进行评估，他们有效地改变了视频的『算法范围』」他对我们这样说道。

「我们知道，除了排名较高的几个搜索结果，用户很少看其剩余页面上的搜索结果，」Selman 继续说。「给视频打低分，评分员可以有效地『封锁』该视频。」

人工智能创业公司 Nara Logics 的 CEO Jana Eggers 说，「如果一个搜索结果存在，但是没有人看到它，那么它还是存在的吗？这就是今天的薛定谔的猫。[评分] 影响排序顺序，也会影响看到视频的人数。」

虽然 Youtube 就评分如何影响排名做出回应，但是，根据我们获得的截图和评估指南副本的内容，评估者可以直接评估视频的效用、质量和适当性。

有时，这些评估人员还被要求确定视频内容是否会令人反感，引起不安或涉及影响儿童的不良内容。这些评估，以及其他输入，也成为从事相同工作的 YouTube AI 系统所需的数据燃料。

虽然 YouTube 表示，这些评估人员没有权力决定视频内容是否违反其社区准则。但事实上，从截图证据来看，YouTube 要求评估人员决定 YouTube 视频是否适合 9 到 12 岁的在无人监督的情况下观看。

「如果大多数 9 到 12 岁年龄段孩子的父母都放心孩子自行观看这些视频，这个视频就 OK。否则，视频内容就不能通过审。」指南上这样写道。

指南还指导评分员如何将一个视频定义为「并不 OK」：如果这个视频包含性、暴力、污言秽语、毒品或是模仿（即鼓励不良行为，如危险恶作剧之类）。不过，提供屏幕截图的评估人员表示，最近爆发针对 YouTube 上不良儿童内容的批评之前，在这个岗位上做了五年的他还没见过这样的任务。

但是评估人员说，YouTube 提供的告诉你什么内容「OK」，什么内容「Not OK」的例子，虽然更加具体了，但是仍然模糊

比如，他们给出 Taylor Swift 的 Bad Blood 音乐视频，告诉你这是暴力视频，是「Not OK」。其他「Not OK」的例子包括，肉桂粉大挑战（一种勇敢者的挑战游戏，之所以被归为这一类是因为儿童会模仿其中行为）以及 John Legend「All of Me」音乐视频（Not ok , 因为涉及性）。

但是，一些「轻度、中度的人类或动物暴力」却被认为是好的。包括接触性运动项目、日常事故、打斗游戏、适度的动物暴力，「轻微显示血或者外伤」被认为是「OK」。

「本来认为这种评估是有意义的，直到我们看到他们给出的这些样例。」评估人员说，「我没把这些样例当回事，这些例子没意义，很多时候根本前后不一。我的决定标准就是，自己想不想给孩子看。」

上个月，一个专门制作这类不良视频的人告诉我们，「老实说，从一开始，我们就和这个算法有关系。」

这份评估指南让我们得以深入了解训练算法的这些数据，以及这些数据又如何鼓励用户继续创造这些视频。

该指南标注的日期是 2017 年 4 月 26 日，1.2 版，共 64 页。

一位评估人员告诉他们在 12 月 19 号下载了这份文件，这意味着尽管这份文件已经发布了几个月之久，但是现在仍在使用中。

比如，什么叫有质量？「制作视频或是视频收集需要多少努力或者需要什么技能，」当评分员进行质量评分时，这些内容就被用来「提供用户想看的视频」以及「帮助决定接下来观看什么视频。」

BuzzFeed News 评论，YouTube 搜索质量评分员指南有一部分涵盖了「质量评分」。

Selman 表示，这就是「质量评分」应用于像 YouTube 这样的算法系统的方式。「评分员将对用户所看到的内容有重大影响。」

这些指南指导评分员，如果视频经过后期处理、视频编辑或者声音混合等操作，就给该视频的努力和技巧方面评为高级—而迄今为止平台上发现的成千上万的意思儿童色情猥亵的视频中都有这一特征。通常，这种「家庭友好型」内容的视频创建者，在某些情况下可以月入数万美元，使用原创动画或是他们自己的孩子作为演员。

在 YouTube 搜索评级指南中使用了这样一个例子，将一个带有『啊啊』呻吟声的视频设定为刺耳音乐和引发不安的图像。指南指导评分员以尽可能高的质量对视频进行评分。

「作者似乎已经把这个视频动画化了，并且自己进行配音。这需要一定的努力和心思。」指南写道。「作者是这个视频的权威和专家，他已经围绕这种类型的内容建立了一个品牌，包括一个类似的视频频道和一个在线商店。他的 Twitter 回文这么写道，『我写的歌让你疯狂。』」

这些指南指出，像 ToyFreaks 这样『花了心思』拍摄和编辑，并且反映了「品牌」内容的 YouTube 频道，经常将视频创建者的孩子置于一些可能危及孩子安全的情况中，这些视频可能积累了数千万的观看量和差不多 800 万的订阅者。

上个月，在公众强烈抵制其平台上一些涉嫌虐待威胁儿童内容期间，YouTube 关闭了 ToyFreaks 频道。

「这是我所说的『价值错位（value misalignment）』的一个例子，它发生在所有的内容分发平台上，」Selman 对 BuzzFeed News 说，「这是一种价值错位，即公司盈利最大化 vs 更广泛的社会利益最大化。有争议的和极端的内容会传播得更快更广，无论是视频、文本还是新闻，从而产生更多的意见、更广泛而频繁的平台参与，以及更多的收入。」

评分准则中的另一部分是指导评分者」对 YouTube（如果要求的话）中的敏感信息进行评分」，有三类选项：色情；不雅但不色情；性安全。在某些情况下，该评分准则可能会出现矛盾。

BuzzFeed 新闻表示，在 YouTube 的搜索质量评分准则中，有一部分包括视频类的不雅信息。

「YouTube 视频中没有性内容，」性安全一栏描述道。意思是说，无论是缩略图还是视频内容的搜索结果，你都可以和家人一起观看。

该准则指出的「性安全」方面的一个例子，是一个标题为「口交前需要知道的六件事」的视频，因为该视频「是以一个科普式的、性安全式的方式在讨论性行为。」

同时，一个标题为「恋足癖相亲」的视频也被打上了「性安全」的标签，官方解释是：「内容没有描绘性行为，而多数用户不会认为其不雅或有性暗示。」这个视频特写了一双正被刷子挑逗的女人的双脚。

但据 YouTube 的搜索评分准则称，现在，尽管这种恋足视频已被归为到「性安全」，但该网站会在视频播放前插播一个通知：「这个视频对某些用户来说可能不合适，」同时这条消息会提示用户点击以继续观看视频。

尽管搜索质量评分员们并非 Youtube 的移除内容标记任务的基本负责人，但他们表达了该网站对于其可采取步骤的一些严格限制的不满。「有的视频令人不安或很暴力，我们可以对其进行标记，但同时还要将其标记为高质量内容 [如果某任务要求这么做的话 ]，」一个评分员告诉 BuzzFeed News 说道。

另一个问题是，有很多任务要求我们对视频中的色情内容进行评级，却对暴力内容不作要求。我们中的很多人都觉得，一些被标记为「性安全」的视频却充满了暴力语言，这是很奇怪的事。两名评分员告诉BuzzFeed News 说，如果某项任务不作明确要求的话，工作中通常没有对于敏感内容的「官方」报告方式——除了儿童色情内容。一个评分员说，他们曾经遇到过一个不好的视频，并将其标记为不安全，但他们作为评分员无权对该视频所在的主播频道进行标记。他们必须作为一名普通用户向 YouTube 报告。

「我这样做了，并且得到了 Youtube 的一句自动回复：谢谢，我们将对其进行调查。」这名评分员称，「我不知道这个频道是否被删除了，但是 YouTube 就像一条水螅：你切断一个令人丧气的频道，第二天就会出现五个。」

评分员也描述了 YouTube 严重限制任务完成时间的问题，这使得他们对敏感视频内容的评估工作变得更加困难。「我们确实没有时间去仔细观看更长的视频，一些评分员就草草了事。」一名评分员称，「我不得不说，视频的每一分钟都需要花费心力审查。」一些需要审查的视频有数小时之久。

据 BuzzFeed News 所采访的三名评分员称，如果他们在某任务上花费的时间过长，就会受到合同公司的处罚。「我收到了另一封电子邮件告诉我，我每小时的处理速度太低了，」

一个评分员在公共留言板中写到，评分员们在那里互相交流工作技巧和窍门。「今晚…我只是随意分配评级，并没有仔细考虑。YouTube 视频？是的，不是在看视频，只是在降低评分。」

如果评分员在观看冒犯性内容时感到不适，他们可以选择跳过任务，甚至选择完全退出。跳过任务的情况还包括：视频没有加载成功、查询结果不清楚、视频是外文的，或者评分员没有足够的时间。

但有多位评分员告诉 BuzzFeed News ，他们害怕面对隐藏的处罚，例如倘若跳过次数太多，他们就不会被分配工作。「我们不清楚 [跳过任务的] 哪些原由是合法的，对于跳过任务量的比例也没有概念，」一位评分员告诉 BuzzFeed News 。

这个系统的复杂之处在于，评分工作本身存在不稳定性，从而连累到评分人员。我们访问的几乎所有色情内容评分员都是谷歌的承包公司 RaterLabs 的兼职员工。（Raterlabs 将工人工作时间的限制为 26 小时/周。）合同中不涉及加薪或带薪休假，评分员必须签署保密协议，其法律效应甚至在雇佣关系结束后还得以持续。其中也不乏工作人员被一封简短的电子邮件解雇的事情，没有警告，也没有解释。

而这一市场正变得越来越集中，仅由少数几家公司占据，这可能会压低行业整体的工资水平。

十一月末，评分承包公司 Leapforce 被竞争对手 Appen 收购。Appen 的时薪在行业内排在末尾，低至每小时 10 美元，而其它公司为每小时 1 7 美元。Leapforce 旗下还有 Raterlabs。

「Appen 的工作方式是项目型的，项目的启动和停止时间取决于客户的要求，」Appen 的一位发言人在一份发给 BuzzFeed News 的电子邮件声明中说道，「这意味着，往往很少有人会注意到项目结束。所以我们的人员指派工作会很快结束。这项工作的可变性质类似于任何的兼职、合同工或临时工。

八月，距离《连线》杂志发表关于 ZeroChaos 的就业条件的报告过去了三个月，ZeroChaos 是谷歌的主要的合同公司之一，负责其广告质量等级评定工作，突然被宣布终止了合同。即使 ZeroChaos 已经向一些兼职员工承诺将工作到 2019 年。可能有成千上万的工人会失业。

「这感觉就像是那些文章正在加剧失业情况，「一名评分员告诉 BuzzFeed News 说，「这就是为什么一些评分员对于新闻 [对我们工作情况的描述] 反应消极的原因。」几名工人拒绝向 BuzzFeed News 发表相关评论，称担心被报复性解雇。

YouTube 在一份声明中说，公司力求与那些能够证明有持续的良好工作条件的供应商合作。「当问题引起了我们的注意，我们会提醒这些厂商注意员工关怀问题，并和他们一起解决面临的任何问题，」该公司发言人在给 BuzzFeed News 的电子邮件中写道。

由于公众对 YouTube 平台上涉及到儿童的不良内容反应强烈，该公司已经采取措施来解决这个问题。

该公司称，它很快会公布一份报告，他们删除了多少违反政策的视频和评论，他们会分享汇总后的数据。该公司还承诺将「尖端的机器学习」技术应用于儿童安全等更为棘手的领域，该技术已在极端暴力内容中得到应用，当然，它还称公司正计划在 2018 年雇佣超过一万名人类评分员来评估平台上的视频。但 YouTube 没有说明它打算如何修改面向更多评分员的评分准则。

入门YouTube视频