2018/12/28 13:25

给验证码戴上安全盔甲，阿里安全图灵实验室发布AI智能验证码

「下列事物中，长度最大的是？书皮、书法用纸、火车、自行车、门、家庭客厅……」当你把「火车」拖进指定区域时，恭喜你，成功完成验证，可以继续放心买买买了。

近日，阿里安全图灵实验室研发的新一代 AI 验证码产品正式上线，淘宝、天猫等业务场景均可使用。阿里安全图灵实验室高级算法专家华棠表示，新型验证码的原理是汇聚生活常识类信息为问答型知识库，将问题和答案通过图像形式展现出来，用户拖动正确答案到指定区域，从而通过验证。

图说：阿里安全图灵实验室研发的新一代AI验证码产品正式上线

「其特点是，应用人工智能研究领域最新的对抗样本技术，对原始图像有针对性的加入干扰，使得人眼识别不受影响，但会显著降低人工智能模型的识别率，从而防范打码平台的破解，同时保持用户体验。」华棠举例称，「比如一张熊猫的图片，我们加入干扰之后，人眼识别依然正常，但用 AI 识别的就会失败，即使攻击者人工标注或者拖取题库都难以破解。」

据了解，互联网平台为保障账号是由人操作而非机器，研发了验证码技术。发展多年，从早期的纯文本到图文结合，再到如今的滑动、拼图、点击图中具体事物等，验证码几经迭代，技术已渐趋成熟。

图说：如今的验证码产品包括纯文本、图文结合、滑动、拼图等多种类型

「但是近几年，人工智能的技术不断发展，也被不法分子用于破解验证码来非法牟利，业界通常称之为『打码平台』，」华棠表示，不法分子通过各种手段收集大量的验证码图像后，用机器学习技术进行 OCR（光学字符识别）模型的训练，从而实现对验证码的自动识别，正确率可达 80% 以上，「盗取用户账号、恶意注册薅羊毛等一系列犯罪行为都由此产生。」

今年 6 月，阿里安全协助浙江警方侦破的全国首例「撞库打码」案，就揭开一条由撞库、打码平台、「码工」组织者、「码工」多个层级串成的黑灰产业链。这些不法行为也导致直播、短视频以及各类线上营销活动被严重「薅羊毛」，平台和用户利益均受到侵害，且存在信息泄漏等问题。

今年 5 月，阿里安全与浙江大学联合成立 AZFT 网络空间安全实验室，共同研发人工智能安全技术，新一代 AI 验证码正是双方研究成果在阿里巴巴的落地，也实现了验证码领域的 AI 对抗 AI。

新一代 AI 验证码基于结构化知识图谱建立丰富的常识问答库，也可有效避免攻击。所谓知识图谱是由一些实体、实体属性以及实体之间的关系构成，比如姚明和火箭队的关系等，「目前知识图谱可生成的题目是上亿级别，用户回答时长 9 秒左右，回答一次通过率为 90%，」阿里安全图灵实验室技术专家龙岗表示。

常识题目有多难？会不会题目太奇葩答不上来？针对用户可能出现的担忧，龙岗表示，在问题设置上会先进行人工筛查和模型识别，筛选出大部分用户能够回答得上来的简单问题，「只有触发风险，需要进行设备真实性验证时，这一验证码问题才会出现，所以用户无需担心。」龙岗表示。

产业对抗样本阿里安全图灵实验室验证码光学字符识别知识图谱

相关数据

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

光学字符识别技术

光学字符识别是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。在这个过程中，手写的、打印的等多种类型的图像被转换为机器编码的文本，这些含有文字信息的图像可以是扫描而来，也可以是场景文本——如照片中出现的广告牌文字 (scene text)，或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法，可以对其进行电子编辑、搜索、更紧凑地存储、在线显示，并用于认知计算、机器翻译、（提取）文本到语音、关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

来源：维基百科

知识库技术

知识库是用于知识管理的一种特殊的数据库，以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家，它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。

来源：维基百科

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本，它们看上去与真实样本的几乎相同（无法用肉眼分辨），但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

来源：Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572.