机器之心原创

2019/07/20 20:41

李泽南寓扬作者

杨强用联邦学习打破「数据孤岛」，吴恩达谈企业AI转型五要素 | 市北·GMIS 2019

第二天的「市北·GMIS」大会更加精彩，杨强、吴恩达、俞凯等重磅嘉宾继续带来了 12 场主题演讲，内容涵盖联邦学习、认知智能、图表征神经网络等前沿技术，同时 AI 应用侧的探索也异彩纷呈。

在前沿技术方面，杨强教授分享了如何用联邦学习打破数据割裂，吴恩达谈到小数据、无监督学习对未来人工智能发展的重要性，余凯也抛出认知智能的技术演进路线。

在 AI 应用方面，华为带来从工程视角审视人工智能的新思路，阿里巴巴、美团展示了 AI 在大规模场景数据中的应用，周涛教授则呈现 AI 社会治理与监管方面的新研究。

杨强：用联邦学习打破「数据孤岛」

作为今天大会的第一位开场嘉宾，微众银行首席人工智能官、国际人工智能学会理事长、香港科技大学教授杨强带来联邦学习的最新发展与应用。

AI 发展到今天面临很大挑战，尤其是数据挑战。数据孤岛、小数据、用户隐私的保护等导致数据的割裂，让 AI 技术很难发挥出价值。为了解决这一问题，杨强教授提出「联邦学习」的研究方向。

所谓联邦学习，是多个数据方之间组成一个联盟，共同参与到全局建模的建设中，各方之间在保护数据隐私和模型参数基础上，仅共享模型加密后的参数，让共享模型达到更优的效果。

杨强介绍道，联邦学习可分为横向联邦和纵向联邦，横向联邦是指企业各方数据维度相同、ID 维度不同，更多存在于消费者应用中；纵向联邦是指企业各方数据的 ID 维度相同（样本重叠）、数据维度不同，更多存在于 B 端应用。

在具体的使用场景中，杨强重点介绍了联邦学习在金融行业中的应用。比如针对保险行业的个性化保险定价问题，一家互联网企业和一家保险企业进行数据合作，这种合作数据的 ID 重合度相当大，数据特征维度大大增加，使模型的个性化定价效果显著提升，为保险企业带来 8 倍覆盖率提升和 1.5 倍利润率提升。

在另外一个小微企业信贷管理案例中，使用联邦学习后，企业将风控区分度提升 12%，使贷款不良率小于千分之五。

即使在双方既没有共同的 ID，数据特征也不同的情况下，也可以使用迁移学习结合联邦学习进行共同建模。

杨强强调，联邦学习一定是多方共同协作组成一个联盟，生态的建设十分重要。它最大的优势是，保证数据不出户，通过生态在不同行业选取合作伙伴，用群体智能不断提升模型效果。

未来，安全合规、防御攻击、算法效率、联盟机制等都需要进一步研究。比如联邦学习中各方合作的一个基础就是加密技术，加密算法的效率显得尤为重要，算法的改善还有很长的路要走。

吴恩达：利用 AI 带来的动能

深度学习先驱吴恩达（Andrew Ng）是大家耳熟能详的名字，他的演讲也获得了最多的掌声。今天，吴恩达在 GMIS 大会上与人们探讨了企业的人工智能转型。

「四年前我提出了一个概念：AI 是新的电力。现在我得说，AI 带来的动能正在展现效果。」吴恩达说道。「看看近年来有关 AI 的工作需求数量，每年都有 35% 的增长，深度学习的发展正在让人工智能领域变得繁荣。麦肯锡最近的预测认为到 2030 年，全球的经济增长量中将有 13 万亿美元来自人工智能技术的贡献。」

「以机器学习领域的论文数量为例，两个月前谷歌的 Jeff Dean 曾展示了一个数字：arXiv 上每天关于机器学习的论文数量超过 100 篇。」吴恩达表示。「今天，我们也有了很多机器学习工具，包括神经网络框架 TensorFlow、PyTorch、MXNet 和百度飞桨，这些工具正在让人们使用机器学习的门槛变得越来越低。」

吴恩达表示，几个月前他曾在加州参加了一个创业挑战：一支来自印度的团队展示了机器人应用方法，其可以自动拍摄农田的照片。有趣的是，开发这一应用的人只有 12 岁——他使用开源的工具和算法完成了这一任务。现在的人工智能业务已经可以由任何人来做了。

通过足够的数据和算力、灵活的工具以及创新的想法，我们可以建立起属于自己的 AI 项目。很多公司的 CEO 都在担心如何把 AI 技术加入企业工作流程中。这个转型过程有时是 1-2 年，或是更长。他们担心选择了错误的项目、设定了不切实际的目标，如果转型失败，公司会蒙受巨大损失。

「看看今天的世界，有关 AI 的应用越来越多了。但企业的 AI 转型并不是开发一个 APP 这么简单。」吴恩达表示。

去年底，吴恩达发布了《AI 转型指南》，希望以教育者的身份将「All in AI」的经验传授给众多公司管理者。作为 AI 领域的先驱者，吴恩达从谷歌大脑和百度 AI 团队的发展中收集洞见，它们对谷歌、百度的 AI 转型扮演着重要角色。参照此指南，任何企业都有可能成为强大的 AI 公司。

为了找到正确的方向，我们需要从简单的地方起步，自动化任务而非工作，并把人工智能和人类的专业知识进行结合，这样才能更好地帮助公司选择正确的 AI 项目。「我们发现，很多公司第一个落地的 AI 项目通常并不是最有潜力的项目。我给很多公司的建议是做一次头脑风暴，至少看六个不同的项目，」吴恩达表示。「然后花费几个星期进行调研工作，确保这个项目是有价值的。」

吴恩达为企业 AI 转型给出了如下建议，在《AI 转型指南》中也有详尽解释：

1. 实行试点项目获得动力

2. 建立一支内部 AI 团队

3. 提供广泛的 AI 培训

4. 策划合适的 AI 战略

5. 建立内部和外部沟通

在期待 AI 为企业带来的红利之前，我们还需要避免几个陷阱：不要期待 AI 立刻产生作用，而是要多次尝试，对 AI 发展的回报曲线进行合理预算；不要使用传统的流程评估人工智能项目，应该为 AI 项目团队设立合适的 KPI 和目标；在团队建设时，我们不能仅依靠明星工程师，而是要建立一个完善的团队。

「看到 AI 崛起，我们需要有正确的概念，首先 AI 是一个系统的工程。我们需要集中很多人的团队才能完成一项具体任务。」吴恩达表示。

对于未来的人工智能发展，吴恩达认为，我们应该期待能够利用小数据的新算法：「我们现在只能用人眼检测手机屏幕的划痕——如果有大量图片，AI 也可以做得很好，但没有任何工厂会有几百万不同划痕的手机。这个时候我们就需要 few shot learning、无监督学习等新方法，能从很少的例子中学习出正确的概念。」

强化学习和自我学习可以在虚拟环境中进行训练，从而避免在真实世界的应用中遇险。而且这些模拟可以并行化，同时进行大量的试验，很快学习出解决方案。

AI 正在走向端侧，区域计算中心也要承担部分计算，吴恩达对于 5G 有着很高的期待：「5G 是非常重要的技术，这项技术在中国的发展已经超过了美国。它能让网络延迟从 4G 的 20 毫秒降低到仅仅 1 毫秒，并支持更多设备的连接。5G 可以支持更多种类的应用，帮助 AI 发展出更多新的形势。」

认清人工智能的极限

在过去十年里，我们看到了人工智能的一些真正突破，机器翻译这样 20 年前仅存在于科幻小说里的东西，现在已经成为全球数百万人每天都在使用的技术了。同时我们还看到了很多令人兴奋的进展，如人脸识别技术。在 2012 年时，吴恩达等人在谷歌的研究引领了图像识别领域的重大突破。

「现在的计算机在识别面部方面比人类做得更好。所有这些使得我们相信：我们似乎拿到了人工智能魔法的配方，它就是深度学习。」牛津大学计算机系主任 Michael Wooldridge 在大会上说道。「看起来是这样的，但进一步的探索之后。我们就会看到目前机器学习技术的尽头。人们都在问边界是什么，我们现在已经看到了一些界限。」

Michael Wooldridge 向我们介绍了人工智能目前的优势与限制。

计算机在 1940 年被发明出来的时候，被用来处理一些数学问题——它比人类做得好，可以 24 小时不停地工作，人类是做不到的。

但一些人类每天都在使用的简单能力，机器学习却是做不到的——计算机无法进行长期推理，无法做问题的定义，难以对周遭环境形成认知，也难以完成可靠的判断。

「你抽烟吗？如果你每天抽 20 支烟，得肺癌的几率会有很大提升。这是一个简单的推论，但对于计算机来说是难以理解的。」Wooldridge 表示。

今天，AI 最重要的问题在于认知能力——理解周围的情况。「这个技术关乎无人驾驶的可行性，我们可能会在未来的 5、10 或是 30 年后实现它，」Wooldridge 说道。「自动驾驶归根结底就是让汽车知晓周遭情况。深度学习在这方面已经形成了很大的突破，但并未完全解决有关认知的问题。」

历史上，想要让 AI 进行推理，并展现认知能力，人们找到了两种思路：

自上而下的方法：基于专家知识的 AI——比如由人类教 AI 认识规则，从而让它学会如何开车。但在规则太多的情况下，我们仍然无法实现可靠的认知，深度学习这种方法效果反而很好。
自下而上的方法就是机器学习，通过数据的输入和判断的输出，通过大量已标注样本进行学习，不断更新模型权重，最终让计算机学会概念，进而拥有判断的能力。神经网络和深度学习是目前流行的方法。

由于算力限制等客观原因，深度学习方法在很长一段时间内并不实用，而今天，深度学习已经可以学会很多能力了。Wooldridge 举了 DeepMind 让 AI 打 Atari 游戏的例子：在 600 次迭代之后，强化学习算法在没有人类教学的情况下，通过自我训练学会了效率最高的得分方法。

但基于数据驱动的方法也有其极限，以法文诗歌的翻译为例，人类专家的翻译结果能够保持优美，但谷歌翻译的机械结果显然不尽完美。机器不能理解语言背后的意义，不懂法国文化。如果需要好翻译，计算机需要看懂文字背后的深层内容。截至目前，我们不管把多少英文-法文文本输入到神经网络中，也无法获得像人类这样的理解。

Wooldridge 举了个更有趣的例子，机器学习也不能理解这样的文字：

-Bob:「I'm leaving you.」

-Ann:「Who is she?」

如果把这六个单词输入谷歌翻译中，翻译成任何语言，我们都能获得不错的直译结果，但机器是无法理解自己在干什么的。「人类的学习方法和机器是不同的过程。机器如果要对语言有所理解，就要理解世界的一些常识知识。深度学习是一个很大的突破，但这不是真正的 AI。要想实现真正的智慧，我们还需要更多。」Wooldridge 说道。

周涛：一张街景照片引发的城市安全感分析

作为国内大数据行业启蒙导师之一，电子科技大学教授周涛呈现了在商业之外，AI、大数据在社会治理和监管中的真实应用。他抛出一个独到观点：「未来社会治理和监管会有四方面的变化，自动化+规模化+定量化+客观化，AI、大数据将会发挥越来越大的作用。」

围绕这一观点，他介绍了 AI、大数据在城市治理、金融监管、环境治理等方面的真实应用。

你很难想象，一张城市街景照片可以跟社会治理产生关联。周涛教授的学生在北美一个城市，通过谷歌在十几万张照片中选择了 2000 张街景照片，然后在网上通过志愿者做了一个简单的实验，看图回答你觉得这个地方是否安全，大约经过 60 天采集到了五十多万数据。然后将这 2000 张图片排序，看哪些是安全的，哪些是不安全的，把排序映射到 0-1 的空间中去。再通过计算机进行特征学习，对看到的图片进行打分，结果表明计算机的打分和人类评分的关联性可达 0.87，这意味着很强的相关性。

这一打分背后可以反映大众对城市环境的安全认知。同样地，计算机也可以对城市的绿化水平、卫生条件、总体幸福感等评分。周涛团队在成都也做了一些类似的事情。通过计算机的评分，我们能够立刻知道一个城市哪里最安全、哪里幸福感最好、哪里卫生条件最差等。

另外，通过观察一个城市 5 年、10 年的城市发展照片，计算机也能从数据中呈现城市环境是否变好、老百姓的幸福感有没有变强。这可以大幅改变城市管理者对城市的认知，从而指导政府的城市治理工作。大数据、机器学习技术连接了人类判断和机器判断。

此外，周涛团队基于中小企业的行为数据为政府提供金融监管平台，通过卫星遥感数据在四川进行水质污染的实时监测。

机器学习的工程化视角

在下午的「数据思维与工程实践」板块，华为 IT 标准专利部主任工程师黄之鹏另辟蹊径地分享了 AI 的工程化视角。

「我们提到机器学习，经常会想到大数据应用，但这次我希望介绍一下工程化视角（GAIA 原则）的机器学习，」黄之鹏表示。「华为希望以通用性技术来解决问题。在抽象的过程中，则希望有统一的接口。我们希望所有的工作都能有很好的操作性、可解释性：写好一次代码，在其他任务中都可以应用。另外，机器学习最终的目的是自动化。」

在开源领域里，华为一直在推动全栈视角，真正的 AI 需要打通全栈，实现端到端的人工智能工作流程，开发者不仅应该知道怎么用框架完成任务，还要知道模型跑在不同的环境里，需要如何简单地进行转换。

黄之鹏着重介绍了近年来华为在开源社区 ONNX 中的贡献。在此前推理侧的模型转换基础上，机器学习社区正在密集讨论模型训练的新方向。华为在这方面的贡献包括边缘设备的通用方法，以及对于 Model Zoo 的算法贡献与方法提升。

华为今年开始尝试推动开放异构计算框架（OHCF），实现端到端的开源全栈概念。对于厂商来说，新的框架是一个基准，对于客户来说它也可以作为开发的参考。通过 OHCF，我们可以实现面向专用硬件的元数据管理。

「开源正在吃掉软件，其实也在吃掉硬件。对于我们来说，最重要的是把这些信息汇总到管理平台上，形成更好的映射，更好地调用机器学习任务。」黄之鹏表示。

接着，阿里巴巴资深技术专家、阿里妈妈大数据和机器学习平台负责人张迪介绍了深度学习与图表征神经网络在淘宝广告推荐中的超大规模应用。

他说，「过去五年中，以深度学习为代表的 AI 技术在 CV 领域取得巨大成功，但对于很多大的互联网公司来说，占公司内部 80% 以上算力的应用还是搜索、推荐、广告，它们是沉默的大多数应用。」

用户在淘宝上的行为是非常复杂的，包括浏览、收藏、购买等，电商广告面临的挑战是如何洞察用户的兴趣习惯，推荐个性化的产品。而随着深度学习的引入，网络变得越来越复杂，新的挑战是，广告推荐场景以特征为主，一方面高维稀疏特征导致模型非常大，往往达数百 G 甚至上 T 规模；另一方面，相比 CV 场景，广告推荐场景在参数规模、样本规模上都要大一两个数量级，参数通常达千亿规模，样本通常达千亿到万亿规模，所以必须要做一个全局设计保证计算芯片高效率运行。

阿里打造了高维稀疏场景的深度学习框架，并提供非常多的训练模式，进行分布式模型存储等，进而优化推荐模型，比如推荐场景下使用的结构化训练范式可将训练性能提高 4~5 倍。

张迪还谈道，淘宝上的商品、店铺、品类等本身就是一个超级大图，用户的购买行为构成了大图之间的连接，所以电商人货场匹配的场景非常适合用大规模图表征学习进行刻画。

它可以对图中的深层次关系进行更动态地刻画，比仅仅使用深度学习有更好的可解释能力。以 CTR 点击率预估为例，使用分布式图表征学习后，可以把表征做的更加深入，并且整个系统更加简单。

他总结道，使用图表征学习和深度学习结合有两个优点，第一是使输入的样本大幅度减少，另一个是在对整个历史用户行为进行刻画时可以动态地进行表征学习。

美团和大众点评每天在全国都会有 60 万骑手把商品递送到消费者手中。美团大众点评智能搜索团队负责人张弓介绍了搜索智能化的落地和相应系统建设：「与通用搜索和电商搜索不同，美团点评的生活服务搜索会遇到不同的挑战。当用户搜索日本料理的时候，我们是给他推荐一个近距离的商家，还是距离稍远，但是更高端的呢？」

搜索不仅是一种完成用户需求的服务，也是一个天然的大数据系统，美团点评构建了支持海量离线数据的处理能力，使用在线学习方法实时感知用户需求的变化。「通过大数据处理框架的开发，我们建设的搜索系统架构支持异构数据，支持复杂模型。智能数据的处理是非常重要的。」张弓介绍道。

目前，美团点评已有 4 亿用户、千万级 POI、1.4 亿店菜、数量高达 40 亿的真实点评文本，这些数据可以用来构建知识图谱，从海量数据中学习知识。张弓表示：「我们构建了美团大脑，这是一个知识提炼框架。我们在构建的过程中发现这和人类社会的科技进化史方法很相似：通过大数据（原料），我们可以提炼出知识（金属），进而构建模型（工具与组件），最后打造出高科技的产品——飞机、火车等等。」

这样一套框架可以帮助美团源源不断地产出各种丰富的显性和隐性知识。美团最终希望打造一个一站式的全场景搜索需求，构建面向消费者的智能助理，帮助消费者吃得更好、玩得更好。

传统汽车交易链条很长，具备不确定性，导致交易的复杂性。车好多集团高级算法专家王文斌分享道，车好多围绕「人、货、场」探索了不同的智能化应用，比如车况智能评估、智能定价等。今天他重点介绍了公司在对话机器人领域的探索。

对话机器人可以连接企业和用户，一方面它降低了人力和培训成本，使服务质量可控，提升效率，另一方面它通过推荐系统和多轮对话，引导用户完善用户画像，实现精准营销。

对话机器人最核心的是两个方面，理解用户意图，然后给出回答。车好多基于底层的 NLP 技术，结合汽车领域的数据，开发出了意图识别、智能导购、对话辅助等，来支持相关业务的开展。

王文斌认为多轮对话是个工程问题，需要从填槽、场景管理、可配置上进行优化。此外他还谈到，在具体业务场景中，产品与算法的平衡、业务和技术的平衡等都是对话机器人所面临的挑战。

产业的重生与变革

在最后一个板块「智能应用与产业生态」中，如何定制对话式语音助理、AI 在零售和教育的落地成为关注点。

思必驰联合创始人、首席科学家余凯谈道，「技术提供商的通用技术和高度灵活个性化应用的需求往往成为主要矛盾。」

为此，思必驰提供可定制的对话式人工智能平台。他称这样一个平台，必须要具备工程、（模型）资源、（个性化）算法三方面的支撑。

在工程支撑方面，语音助理必须以对话为核心，做到高可用定制、定制规模化，此外还要做到软硬件一体化，提供智能信息服务。

在资源支撑上，针对语音识别、理解、表述、合成等方面，需要有自动化的技术，实现定制化的识别，并扩展相应的语义理解。

在算法支撑方面，个性化自适应算法要解决三个难点问题，首先要能够智能检测，发现目标；通过小数据迁移学习，通过语意槽的共享，迁移到不同的应用场景；还要具备在线自适应试错学习，基于试错的强化学习解决对话交互策略问题。

余凯还指出对话层面的认知智能技术路线，即从深度学习演进到迁移学习，由数据驱动变为数据和知识混合驱动，由需要预先搜集数据的开环学习转变为闭环学习。

码隆科技联合创始人、首席技术官 Matt Scott 向我们介绍了人工智能技术近期在零售领域的发展：「我们现在处于零售的重生阶段，而不是零售的启示录阶段。零售业公司不会全部变成电商，但在演进过程中必然会有转型，这就是我们需要用到 AI 零售的地方。」

有关新零售这个主题，我们已经看到了太多 PR 内容，什么是真正的零售 AI？Scott 认为，我们谈论的首先是数据，其次是算法，我们需要无监督学习/弱监督学习处理大量数据。

对于零售商来说，他们需要的是可扩展的、有真实效益的解决方案。零售在真实世界中总会遇到各种各样的问题，AI 必须解决这些问题，否则无法实际部署。另一方面，零售行业的利润率非常低，在成本效益上，新的方法必须达到很好的效益。

「我们不能为高科技付出太多的成本，我们不能放太多的摄像头，有太多的设备要求，这是无法扩展的，」Scott 表示。「比如自动化的购物体验，它还有很长的路要走，在大店模式上难以实现，目前只适用于小店。」

在超市自主称重的问题上，我们现在可能需要在商品列表中翻好几页选择正确的种类才能算钱，如果我们为这个系统加入一个摄像头，使用 AI 自动识别商品，问题就能很快解决了。Scott 表示，使用码隆科技的技术，即使被装在袋中的水果，摄像头之后的算法也能快速识别，准确率超过 99%。

在这背后的算法也很重要，码隆科技立足于科技领先的研究。「大多数人都关注 AI 的架构和数据，码隆科技则关注损失函数和学习策略，我们发现这可以极大提升算法的识别效果。」Scott 表示。

码隆科技推出的弱监督学习算法 CurriculumNet 在一些任务中实现了业内最佳的效果。论文已经被 ECCV 2018 大会收录。而在 GPW Framework 的研究中，码隆已经可以对比所有损失函数的优缺点，新的研究已被 CVPR 2019 大会接收。

暗物智能深耕的场景是 AI+教育。其研发总监梁小丹称，暗物智能从技术上搭建了五层的 AI 认知架构，第一层是执行交互层，第二层是感知和行为层，第三层是任务与调度层，第四层是思维与动机层，第五层是价值和规范层。

它具备语音交互、计算机视觉、逻辑处理等多模态能力，并研发了一款桌面陪伴机器人。

暗物智能还通过学习教育机构的视频，自动生成背后的教学逻辑，训练 AI 老师。在智慧课堂场景中，它通过分析老师与学生的对话交互，判断老师有没有把某个知识点教会学生，以及学生对哪个知识点掌握得较为薄弱，进而进行个性化 AI 辅导。

最后，黄之鹏、俞凯、Matt Scott、梁晓丹和 Wonder Technologies 首席数据科学家 Christopher Dossman 共同围绕 AI 应用创新与挑战进行了一场圆桌对话。

「在未来十年可解释的 AI 是最重要的方式，只有可信的 AI 才能够推广到各类领域中。」俞凯表示。

Matt Scott 则认为目前我们仍然处在 AI 技术发展的开始阶段：「当今的人工智能研究还有一些基础的问题未被攻克。机器学习无法学会人类学习经验的方法，我认为结合多种感官输入的多模态算法将会是未来 AI 的重要发展方向。」

产业GMIS 2019联邦学习吴恩达智能物联网数据科学

相关技术

机器学习物体识别深度学习人脸识别图像分割

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

思必驰机构

思必驰是国内领先的对话式人工智能平台公司，拥有全链路的智能语音语言技术，自主研发了新一代的人机交互平台（DUI），和人工智能芯片（TH1520）；为车联网、IoT、以及众多行业场景合作伙伴提供自然语言交互解决方案。思必驰拥有上千项知识产权，是国际上极少数拥有自主知识产权、中英文综合语音技术的公司之一；与阿里、腾讯、小米、富士康、OPPO、长虹、顺丰、龙湖地产等企业达成战略合作；旗下人工智能产业基金累计投资20+家生态企业。

http://www.aispeech.com/

相关技术

Embodied AI 世界社群网格

码隆科技机构

码隆科技成立于2014年7月，是一家专注于深度学习与计算机视觉技术创新，打造国际领先视觉智能技术平台的人工智能公司，拥有世界一流的顶尖研发团队和经数亿级图像训练的深度学习算法模型，凭借扎实高效的工程架构能力及产品实现能力，为企业客户提供国际领先的计算机视觉解决方案。码隆科技认为“真正的人工智能不在于自己有多智能，而在于能让其他产品变得更智能”，希望通过人工智能技术使机器能够像人类一样""看懂""商品。码隆科技已正式进军国际市场，旨在帮助全球更多传统行业企业实现更高效、高品质和更安全的企业产品革新。成立三年来，凭藉其主打产品ProductAI®人工智能商品识别平台，公司已迅速占领了服装、纺织、家具、电商、设计、快消、零售、营销、版权图像平台等行业服务市场份额，实现行业创新应用，帮助各行业企业增加收入，降低成本，提高效率。码隆科技于2016年与中国顶尖大学清华大学成立了人工智能联合实验室，并在2017年CVPR会议上举办的大规模视觉理解WebVision挑战赛中一举夺冠。

http://www.malongtech.cn/

相关技术

机器学习计算机视觉

俞凯人物

思必驰联合创始人兼首席科学家，剑桥大学语音博士，上海交大教授，IEEE 高级会员，国家「青年千人计划」、NSFC 优秀青年科学基金获得者，上海市「东方学者」特聘教授，中国语音产业联盟技术工作组副组长。清华大学自动化系本科、硕士，剑桥大学工程系博士。 2012 年在上海交通大学创建智能语音技术实验室，将人机口语对话系统的全面技术引入回国。在人机口语对话交互的主要核心技术领域进行了广泛研究，在国际一流期刊和会议上发表论文 80 余篇，获得 ISCA 颁发的 2008-2012 Computer Speech Language 最优论文奖等多个国际期刊和会议优秀论文奖。

来源：个人主页

吴恩达人物

斯坦福大学教授，人工智能著名学者，机器学习教育者。2011年，吴恩达在谷歌创建了谷歌大脑项目，以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日，吴恩达加入百度，负责“百度大脑”计划，并担任百度公司首席科学家。2017年3月20日，吴恩达宣布从百度辞职。2017年12月，吴恩达宣布成立人工智能公司Landing.ai，并担任公司的首席执行官。2018年1月，吴恩达成立了投资机构AI Fund。

相关技术

机器人操作系统

所属机构

百度研究院

来源：个人网站 Ng, A. Y.Twitter

杨强人物

杨强现任香港科技大学新明工程学讲席教授、计算机科学和工程学系主任，大数据研究所所长。他是人工智能研究的国际专家和领军人物，在学术界和工业界做出了杰出的服务和贡献，尤其近些年为中国人工智能(AI)和数据挖掘(KDD)的发展起了重要引导和推动作用。

来源：百度百科 Yang, Q.

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

few shot learning技术

在标注数据量比较少时，试图让算法学习好的特征，并可以泛化这些罕见的类别，而不需要额外的训练。few shot learning包括基于Finetune、基于metric、基于graph neural network、基于元学习meta learning等方向。如果只有一个标注样本，称为one shot learning。

来源：CSDN

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法，也是监督学习的一个变化，是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant（1988,1989）提出的问题：一组弱学习器能创造一个强大的学习器吗？一个弱的学习器被定义为一个分类器，它与真实的分类只有轻微的相关性（它可以比随机猜测更好地标注示例）。相反，强大的学习器是一个与真实分类任意相关的分类器。

来源：Wikipedia

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

TensorFlow技术

TensorFlow是一个开源软件库，用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品，如语音识别、Gmail、Google 相册和搜索，其中许多产品曾使用过其前任软件DistBelief。

来源：维基百科

语音助理技术

虚拟助理（virtual assistant）是一种能替个人执行任务或服务的软件代理（software agent）。有时候“聊天机器人”泛指虚拟助理，亦或专指网络聊天使用的软件机器人（有时候更专指娱乐而非实用的网络聊天）。但也可以指一种职业，或者企业组织，其乃是透过网络执行远端服务。

来源：维基百科

表征学习技术

在机器学习领域，表征学习（或特征学习）是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前，机器学习研究人员需要利用手动特征工程（manual feature learning）等技术从原始数据的领域知识（domain knowledge）建立特征，然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效，但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点，它使得机器不仅能学习到数据的特征，并能利用这些特征来完成一个具体的任务。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程，其目的在于充分有效地发挥数据的作用。

来源：百度百科

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

遥感技术

遥感（remote sensing）是指非接触的、远距离的探测技术。一般指运用传感器/遥感器探测物体的电磁波辐射、反射特性。遥感通过遥感器这类对电磁波敏感的仪器，在远离目标和非接触目标物体条件下探测目标。

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

数据迁移技术

数据迁移(又称分级存储管理，hierarchical storage management，hsm)是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备，然后将磁盘中常用的数据按指定的策略自动迁移到磁带库（简称带库）等二级大容量存储设备上。当需要使用这些数据时，分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说，上述数据迁移操作完全是透明的，只是在访问磁盘的速度上略有怠慢，而在逻辑磁盘的容量上明显感觉大大提高了。

来源：百度百科

MXNet技术

MXNet是开源的，用来训练部署深层神经网络的深度学习框架。它是可扩展的,允许快速模型训练,并灵活支持多种语言（C ++，Python，Julia，Matlab，JavaScript, Go，R，Scala，Perl，Wolfram语言）

来源：Wikipedia

在线学习技术

在计算机科学中，在线学习是一种机器学习方法。和立即对整个训练数据集进行学习的批处理学习技术相反，在线学习的数据按顺序可用，并在每个步骤使用未来数据更新最佳预测器。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

港科大机构

香港科技大学（The Hong Kong University of Science and Technology），位于中国香港，简称港科大（HKUST），为环太平洋大学联盟、全球大学校长论坛、东亚研究型大学协会、亚洲大学联盟、中国大学校长联谊会重要成员，并获AACSB和EQUIS双重认证，是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重，尤以商科和工科见长。截至2019年9月，学校设有理学院、工学院、工商管理学院、人文社会科学学院等4个学院及跨学科课程事务处；校园占地超过900亩，有教员697人，各类学生16054人，其中本科生10148人，研究生5906人。

https://hkust.edu.hk/

阿里巴巴机构

阿里巴巴网络技术有限公司（简称：阿里巴巴集团）是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/

百度智能云机构

百度是全球最大的中文搜索引擎，是一家互联网综合信息服务公司，更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村，公司创始人李彦宏拥有“超链分析”技术专利，也使中国成为美国、俄罗斯、和韩国之外，全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com

相关技术

(本地/随机)集束搜索

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习，这部分研究被称为「联邦学习」（Federated Learning）。

群体智能技术