2018/10/18 11:42

当国际贸易撞上AI，会产生怎样的化学反应？

阿里妹导读：单证是国际贸易中非常重要的一环，由于单证数量多、格式复杂、大量以图像形式存在等问题，给工作效率和风险控制带来极大的影响。在这种情况下，如何利用技术提高处理效能、防控风险就显得迫在眉睫。接下来，我们一起看看阿里工程师是如何解决这一问题。

业务背景

国际贸易的流程非常复杂，特别是B类贸易。为了防控各种风险，每个环节都有很多单证的交叉验证，以及基于单证构建的风控策略。比如：企业信息、银行卡等的交叉验证；信用证、提单、保单、箱单、发票、报关单等的风险审核。这些单证多而复杂，比如信用证业务，需要审核各种条款，并且做到单证一致、单单一致，往往需要非常专业的领域人员负责。整个审核周期耗时长，而且存在各种操作风险。因此，智能单证应运而生，通过使用机器学习和人工智能等技术，提高处理效率，降低成本和风险，开辟国际贸易的新模式。智能单证的价值在于：

提供订单决策报告，条款、信用和贸易风险报告，制单审单解决方案，服务更多国际贸易的中小企业。
利用人工智能技术，降低成本和风险，提高效率，提升客户体验，助力电商相关核心业务的优化升级。

技术方案

直接面临的是三个问题：

处理对象：大量格式复杂的单证，其中五成以上是扫描或者拍照的图片，质量层次不齐。
知识沉淀：各种术语、规则、名单、策略都是线下或者人工经验，没有沉淀，不成体系。
借力创新：项目时间紧，业务线多，需要平衡时间和扩展性，通过借力和创新落地产品。

因此，整体技术方案主要抽象成四大部分：图像处理服务、自然语言处理、领域知识图谱、统一技术架构。

图像处理服务

图像质量比较好时，集团内已有的图像、人脸等识别技术可以达到高的Accuracy。但是，实际业务中的图像往往要复杂很多，直接调用已有的技术，整体Recall差不多只有五成不到。而且，通常的识别技术没有理解能力，比如：对于形变的图像，即使OCR识别出了字符，也无法正确恢复语义；图像的哪部分是实际需要的，也无法分析和判断。因此，图像处理服务，除了借力集团内的识别技术，更大的挑战是结合实际业务，落地好预处理（模糊检测、形变复原等）以及后处理（版面分析等）工作。

自然语言处理

由于单证的类型很多，并且五成以上都是图像，集团内外最好的OCR产品，都存在至少一成的词识别错误，因此，需要抗噪能力强的文本分类模型，先将单证进行自动分拣归类。另外，即使字符的识别错误较少，由于没有针对领域进行优化和分词，无法直接阅读和无人化使用。因此，将识别结果进行领域相关的纠错分词，也是势在必行。然后，通过解析引擎进行内容解析和Key-Value关系重建，结合基于文本构建的领域知识图谱和风控策略，完成语义理解和智能审核。

领域知识图谱

本文构建的知识图谱主要沉淀三部分内容：领域知识，包括国际贸易中的术语、缩写、港口信息等；专家策略，包括条款策略、冲突策略、融资策略、审核意见等；风险地图，包括风险国家、银行、地区、企业等。领域知识图谱是智能单证的根基所在，所有的前序处理都是为了与其结合，真正落地实现智能审核和风险防控。

统一技术架构

技术架构上肯定不能重复造轮子，而且必须考虑项目时间，以及业务和技术的可扩展性。因此，根据团队已有的沉淀，抽象出统一的技术架构。首先，所有的服务接口收拢到统一的任务引擎。然后，充分借力集团已有的成熟技术和平台，比如：雷音（OCR技术），阿里云（证件、人脸识别技术），MTEE（实时决策引擎），PAI（模型训练、部署平台）等等。最后，针对实际业务中面临的问题，在算法和模型上深耕并且落地创新。

算法创新

本节阐述落地和创新的一些算法及模型，主要集中在图像处理和自然语言处理方面，包括模糊检测、形变复原以及纠错分词。

模糊检测

模糊检测，或者称为图像质量评估（Image Quality Assessment），需要轻量、快速地达到目标：智能处理 if 图像质量好 else 提示重传/人工处理。很多传统方法可以实现特定模糊类型的检测，比如Laplacian算子法，通过计算二阶微分，然后求方差，根据阈值可以确定图像是否模糊。

传统方法在特征提取及特征表现上存在局限性。本文改进MobileNetV2的网络结构，实现一种新的模糊检测算法。模糊检测需要特别关注图像细节的差异，因此，先通过随机切片及HSV颜色空间筛选的方法生成样本集合，然后基于OCR识别率指标划分正负样本。

原始MobileNetV2网络包含十七层Bottleneck，模型层数较深，并且每层还进行扩展，在实际训练中，不易收敛且模型较大。因此，通过对原始网络进行裁剪和改进，新的结构仅包含两层卷积、两层池化、两层Bottleneck以及一层全连接，网络更浅更窄，模型参数更少。目前，该模糊检测算法的准确率约93.4%，模型原始大小约2M，而使用原始MobileNetV2训练的模型大小约26M。

形变复原

图像形变的类型有很多，比如旋转，折痕，卷曲等。这些问题除了直接影响OCR的识别效果，更严重的是影响语义重建。要做到实用的无人化审核，图像的形变复原工作至关重要。很多传统方法可以解决特定的简单的形变问题，比如对于简单的旋转形变，可以通过Hough Transform先检测直线，然后通过旋转角度进行复原。

近年来，基于深度学习的方法，比如FCN，STN，Unet等，也被尝试用来处理形变问题。本文结合深度学习语义分割领域的相关知识，针对已有方法的不足设计优化方案，提出一种新的形变复原算法。

首先，利用数据合成的方法构造样本。通过的不同形式模拟多种形变类型，比如折痕、卷曲等；通过的大小变化模拟不同的形变程度。然后，通过插值和图像修复的方法，解决模拟图像的缺失像素问题。

已有的基于Stacked Unet的前沿方法，容易出现裂痕、文本行扭曲、字符形变严重等问题。本文基于Dilated Convolution优化网络结构，并且通过调整损失函数、平滑预测值等方法，提出一种新的形变复原算法，提升模型的效果。

本文采用MS-SSIM作为算法复原效果的评价指标，其全称为Multi-Scale Structural Similarity，指的是多尺度下的结构相似性的综合评估。新算法的MS-SSIM达到0.693，而基于前沿论文的MS-SSIM为0.490，提升效果很明显。更详细的介绍见：

OCR如何读取皱巴巴的文件？深度学习在文档图像形变矫正的应用详解。

纠错分词

前文提到，集团内外最好的OCR产品，都存在至少一成的词识别错误。另外，即使字符的识别错误较少，由于没有针对领域进行优化和分词，无法直接阅读和无人化使用。因此，将识别结果进行领域相关的纠错分词，也是势在必行。

通常传统的实现方案中，纠错是基于分好的词级别进行的，而分词是基于没错的文本进行的。直接将纠错和分词结合的HMM模型，由于文本比较长，预测阶段的搜索空间很大，很耗时。因此，本文从新的视角看这个问题：将分词看成是纠错的一个特例，空格也作为有效字符，缺了空格也是一种错误；将纠错看成是一个翻译问题，是将一个错误的字符序列，翻译成一个正确的字符序列。这样，将纠错分词抽象成Sequence to Sequence的问题。

通过数据合成（根据概率转移矩阵，对字符进行增、删、改等编辑操作），以及迁移优化，训练得到满足目标要求的模型。目前，图片质量较好时，OCR识别结果与Ground Truth的差错率（编辑距离）为15.91%（若忽略空格：2.91%）；经过本文的纠错分词模型，差错率降到2.24%，词准确率提升到93.56%。

应用实例

智能单证切入的业务环节，新模式的提效至少都在50%以上，成本和风险都大大降低，部分环节实现零风险和无人化。本节介绍智能单证在两个实际业务环节的应用。

信用证审核

客户拍照或者扫描上传信用证，经过一系列的图像处理和自然语言处理，智能审核每条条款，标记风险信息，返回审核和决策报告。

单证核对

客户拍照或者扫描上传单证（比如：保单、提单、报关单等），智能解析和核对每条栏位，标记信息（一致：紫色；可疑：黄色；缺失：红色），返回核对和建议报告。

总结展望

本文总结智能单证的业务背景及技术方案，阐述落地和创新的一些算法及模型，介绍实际业务中的一些应用。智能单证，作为一种国际贸易的新模式，除了使用机器学习和人工智能技术，提供风险和决策报告，以及整体的解决方案；同时也在推进其他前沿技术（比如：区块链技术）的落地，更好地服务更多国际贸易的中小企业。

阿里技术

分享阿里巴巴的技术创新、实战案例、经验总结，内容同步于微信公众号“阿里技术”。

理论国际贸易AI智能单证

相关数据

区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。中本聪在2008年，于《比特币白皮书》中提出“区块链”概念，并在2009年创立了比特币社会网络，开发出第一个区块，即“创世区块”。

来源：维基百科

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

池化技术

池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

来源：cs231n

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

图像处理技术

图像处理是指对图像进行分析、加工和处理，使其满足视觉、心理或其他要求的技术。图像处理是信号处理在图像领域上的一个应用。目前大多数的图像均是以数字形式存储，因而图像处理很多情况下指数字图像处理。

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

交叉验证技术

交叉验证，有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段，以便减少像过拟合的问题，得到该模型将如何衍生到一个独立的数据集的提示。

来源：维基百科