人工智能训练师转正!
人力资源与社会保障部网站3月2日消息,人力资源和社会保障部与市场监管总局、国家统计局联合向社会发布了智能制造工程技术人员、人工智能训练师等16个新职业。这是自2015年版《中华人民共和国职业分类大典》颁布以来发布的第二批新职业。
在我国,每年需要进行标注的语音数据超过 200 万小时,图片数据超过数亿张……针对这些基础数据的采集、整理、清洗、标注服务,是训练人工智能模型的前期必要工作。
庞杂的海量数据需要经过清洗与标注才能被唤醒价值,数据标注从业者应时而生,他们成为人工智能时代下的一项新生职业。
我们啧啧称奇的人工智能离不开他们「三昧真火」的淬炼。凡是 AI 学会的技能,都经过他们的培训和审核。
随着人工智能不断进化和发展,人工智能训练师这项职业也在不断走向精细化、专业化和规模化。你瞧,当下疫情的技术战场上就充满了他们的身影。
撰文 | 盈君、力琴
编辑 | 四月
一场关乎生死的疫情战役,人工智能冲锋陷阵,在疫情防控、在线问诊、AI 测温等场景中脱颖而出,化身为「情报员」、「小护士」、「防护师」等出现在抗疫一线。
而这些人工智能不同化身的背后,都指向了同一个特别的职业群体——人工智能训练师。我们啧啧称奇的人工智能离不开他们「三昧真火」的淬炼。凡是 AI 学会的技能,都经过他们的培训和审核。
在我国,每年需要进行标注的语音数据超过 200 万小时,图片数据超过数亿张……针对这些基础数据的采集、整理、清洗、标注的服务,是训练人工智能模型的前期必要工作。报告称,2018 年中国人工智能基础数据服务市场规模为 25.86 亿元,其中数据资源定制服务占比 86%,预计 2025 年市场规模将突破 113 亿元。
这背后的市场供给方则主要由人工智能基础数据服务供应商、算法研发单位自建或直接获取外包标注团队的形式组成,他们成为人工智能时代下的一项新生职业。
01 一群特殊的训练师
仅在阿里巴巴生态内,人工智能训练师从业者就超过了 20 万人。
1 月 27 日,大年初三,新冠疫情进入爆发阶段,春节走街串巷的既定行程被取消。这一天,还是阿里达摩院疫情机器人上线的日子。
该机器人的主要功能是通过电话外呼进行疫情摸查,在网络平台为市民提供疫情咨询和问诊服务。落地任务分两步走。第一步是设计训练通用的机器人;第二步,根据各地需求不同,做一些补充训练,以便落地。
作为阿里的一名人工智能训练师,芷汇一刻也停不下来。五天前,芷汇接到补充训练的指定任务,主要负责广西壮族自治区机器人的上线工作。
在广西方言中,发音通常不分平翘舌,「是」和「4」是一个意思。为了让机器人知晓当地人的意思,需要对机器人进行针对性的智能训练,针对方言语音识别训练、用户语义理解训练进行特定训练。
向机器人输送「养料」,加强语义理解模型训练,让机器人更能理解人类,是芷汇工作当中最重要的环节,基于机器人通用模型,针对需求制定话术,训练模型。
要让机器人理解人类,需要有意设计对话流程、回复话术,保持机器人与用户的顺畅交流。芷汇谈道,广西的贵港、北海,因地处旅游区,针对用户的调研话术也需进行调整。
近年来,人工智能训练师逐渐受到了人们的关注。
根据中国就业培训技术指导中心的通告,人工智能训练师的准确定义是:「使用智能训练软件,在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员」。
在《关于拟发布新职业信息公示的通告》里,这群特殊的训练师的工作内容则被描述为:
- 1. 标注和加工图片、文字、语音等业务的原始数据;
- 2. 分析和提炼专业领域特征,训练和评测人工智能产品相关算法、性能和功能;
- 3. 设计人工智能产品的交互流程和应用解决方案;
- 4. 监控、分析、管理人工智能产品应用数据;
- 5. 调整、优化人工智能产品参数和配置。
他们工作类似于软件运维工程师,从最开始的数据标注到产品参数优化每个环节都参与其中,他们是算法、技术从理论走向应用的关键一环,也是 AI 技术产业化不可或缺的环节。
02 「小镇青年」走向「专精尖」
事实上,早在 2015 年,阿里客户体验事业群就在其客服团队孵化了国内第一批人工智能训练师,并由阿里巴巴小蜜团队首次提出并向国家注册。
早期的 AI 训练师门槛并不高,他们主要通过数据爬虫收集数据,工作机械化,吸引了大量没有很高专业技术储备的「小镇青年」从业,AI 训练师行业也一度被认为是「AI 产业里的富士康」,很难将它与「专业化」、「技艺型」、「创造力」等词语相联系。
根据支付宝新职业调查数据显示,「小镇青年」是 40 余种新职业的主力军,从业者约一半生活在三四五线市县,其中三分之二以上是兼职。
然而,随着人工智能进入落地抢跑阶段,垂直场景数据成为主要需求,对数据类型、质量、精度等的要求也明显提高。语音类、图像类、NLP 类数据集开始出现,数据服务领域的头部企业及专业的第三方公司实力逐渐凸显出来。
据相关报告,2018 年,有约 34% 的业务量流向专业做数据采标的第三方公司,专业的数据需求量可见一斑。
数据专业性、准确性的提高,对于从业者来说,也需要相关的专业知识并激发创造力,以此满足用户的定制化需求。
标注过程不再是粗线条、「傻瓜式」操作——勾画出「天空」,「车辆」,「人群」即可,相反标注的维度愈加细分垂直,例如在人脸识别场景,早期只用识别人脸,之后发展到情绪检测,后期更为深入细分如微表情识别,这就要求数据服务从业者需要具备相应的领域知识。
在此背景下,原本十分分散的数据标注行业开始泾渭分明,数据标注逐渐从劳动密集型转为技艺密集型,流水线作业的 AI 训练师们也多进化为更专业、更高精尖的工作模式,他们慢慢成为这个领域的「专家」。
此外,AI 训练师的工作模式也不止步于一人一机的协作模式。越来越多的调研显示,未来,机器模拟或机器生成数据有可能成为新出口。
AI 训练师团队引入机器标注,增加机器能够标注的维度、提升机器处理数据的精度,这不仅是提升效率、扩大市场边界的考虑,也更符合 AI「去人工化」的本质。
从长期来看 AI 虽然越来越智能,能够辅助标注工作,但它对于偏感性的判断仍比较难,如 AI 对文字的演化和情绪的识别仍是弱势,未来 AI 要处理行业内更为复杂的问题,但人的感知力和判断力不能被替代。
据悉,预计到 2025 年,仅是自动驾驶单一行业的基础数据服务规模就将超过 24 亿元,行业数据总任务量超一亿张。随着人工智能在智能制造、智能交通、智慧城市、智能医疗、智能农业、智能物流、智能金融及其他各行各业的广泛应用,人工智能训练师的规模将迎来爆发式增长。
预估到 2022 年,国内外相关从业人员有望达到 500 万。到那时,AI 训练师或许还会有新的画像。
03 AI 人才需求之变
需求当下,芷汇的身影只是人工智能训练师从业者一个缩影。近年来,人工智能行业从业者规模将迎来爆发式增长,预计到 2022 年,国内外相关从业人员有望达 500 万。
而这一浩大的队伍里不只有此次被人社部列为新职业的 AI 训练师,从技术铺垫、实体应用,到架构维护、商业拓展,AI 人才队伍呵护人工智能整个生命周期的成长和开发,大量 AI 人才被纳入新一轮科技革命的轨道中。
外界普遍认为,新职业的发布,对于引领产业发展、促进就业创业、加强职业教育培训、增强对新职业从业人员的社会认同度等,具有重要意义。
目前,人工智能领域人才仍处于高速增长红利期。据 LinkedIn 发布的数据,人工智能和机器学习相关的人才需求在从 2016 至 2019 年增长高达 74%,其中机器学习/深度学习工程师、数据科学家、AI 研究人员、和算法开发人员需求最高。全球 3.6 万 AI 专家中,相当部分拥有相关领域的博士学位。
与此同时,各大互联网企业都在将产品应用 AI 化的过程中,AI 逐渐成为提高企业生产力和商业效率的主流解决方案。根据 New Vantage Partners 在 2019 年底对 70 个 Fortune 1000 行业领先公司的调查,目前只有 14.6% 的公司将 AI 功能部署到生产流程中。
商业愿景与实际应用之间的差距预示着 AI 技术产品化和商业化的巨大潜力。TalentSeer 对 AI 初创公司的雇主调查显示 40% 的公司将「从研发向产品开发转变」列为 2020 年的主要业务方向。
AI 技术产品化和商业化的人才需求旺盛,但人才储备明显不足。接下来,AI 人才的需求也将从精英慢慢触达到更多人群。在 AI 训练师的职业成长路径中,由普通客服、一线工人转为 AI 训练师的案例数不胜数,侧面反映 AI 人才的真实需求要更加接地气。
行业变革意味着新职业不断涌现,但新职业发展中的最大问题是,相应的职业资格评定制度尚未补齐,如何对新职业进行职业资格评定仍是一大难题。
短时间内,企业将成为新职业技能等级认定的主体,以更灵活的方式解决新职业、新岗位的人才需求。