达观数据原创

2018/11/15 12:19

陈运文作者

达观数据：文字的起源与文本挖掘的前世今生

01 / 08、人类的文明，始于文字诞生。

100万年前，古猿进化成人类。50万年前，人类学会使用火。5000年前，人类发明文字。

文明并非从天而降，人类从蒙昧、野蛮步入文明，是个漫长而坎坷的过程。远古智人和禽兽并没有什么区别，和动物一样，只有一种把信息传递下去的方式：基因。

文字诞生后，人类学会用字把信息保存下来，才逐渐脱离了动物状态。人们开始了解历史不同时期所发生的事。历史是前人走过的道路，了解来路，人才知道接下来该往哪里去，不至于在原地踏步。

文字，是一切的载体。

02 / 08 、有史以来发现最早的人类文字：库辛石板，始于财务记录。

最早出现的文字共有四种：楔形文字、圣书文、玛雅文、甲骨文。

公元前2500年，西亚地区的居民们开始用芦苇秆在泥板上写字，因书写的痕迹形状像楔子，后人称为楔形文字。

“库辛石板”被认为是迄今人类文明最早发现的文字，它由楔形文字刻写：290086单位大麦37个月库存库辛。现代翻译为“在37个月间，总共收到29086单位的大麦，由库辛签核”。

人类最早留下来的文字，既不是诗歌，也不是法律、占卜和宗教内容，而是枯燥的财务借贷账本。

这和人类的大脑构造有关，人脑偏向于记忆图像、路线，却天生不擅长记忆数字。做交易时，数量一旦超出记忆范围，古人类就用土块记录，现代更多依靠计算机来实现。

库辛石板

在距今5400年前的两河流域，苏美尔人写在泥板上的一段财务纪录，穿越了亘古漫长的历史，成为当今文明的见证。

03 / 08 汉谟拉比法典，现代法律文本的起源。

自从数字出现，便有了借贷关系。当交易出现纠纷时，怎么办呢？

在第一部成文法典：《汉谟拉比法典》中，人们便有了规训和准则。

这部人类文明最早的法律，共3500行条例，其中大多是条例法：“打自己父亲的人，要被砍断双手”，“打掉同等地位者牙齿的人，将会被敲掉牙齿”。

“以眼还眼，以牙还牙”的价值观在圣经旧约中也有体现。

这部法律文本的起源，由楔形文字写作。至今还印在许多教科书的封面上。

汉谟拉比法典

汉谟拉比王

04 / 08 甲骨文是中国最早的象形文字，汉字的演变是由繁至简的过程。

楔形文字在古西亚地区广泛使用，象形文字则发源于埃及。

象形文字即刻画动物形态，圣书文、玛雅文、甲骨文都是象形文字。

甲骨文，早期的象形文字

甲骨文因篆刻于龟甲和兽骨上而得名，发掘于公元前1600年的殷商时期。它以象形手法描述事物，历经千年演化，汉字就成为了人类史上最早诞生的文字中，唯一没有消亡的文字，也是迄今为止唯一在使用的象形文字。

历经悠长岁月，汉字是如何演变的呢？

“达观”在不同年代的不同写法

中国文明源远流长，一脉相承，与汉字的进化也离不开。

随着时代的变迁和语言的丰富，汉字的笔画也逐渐减少，记录文明的方式越是简单，文明的发展也就越快。

古代中国领先世界，除却地大物博，物产丰富，更是文明的先进。造纸术在公元1世纪就已发明，一千年前后才传播到欧洲。自汉代“丝绸之路”开辟，文化交流与融合，继有盛唐万国来朝，海晏河清的繁华景象。

李白曾颂长安“万国同风共一时，锦江何谢曲江池。”鲜为人知的是，李白不仅是个诗人，还是位翻译。唐时渤海国来朝，使者呈书，字体非草非隶，迹异形奇，满朝文武均不识得。为难间，玄宗想到李白，李白果然认识，宣诵如流，玄宗大悦。

05 / 08 罗塞塔石碑，是最早的“破译机”，是人类跨越语言障碍的象征。

翻译是文化交流的重要的桥梁。《圣经·旧约》记载，人类曾有联合起来、建造通往天堂的巴别塔的宏愿。为阻止人类的计划，上帝让人类说不同的语言，使人类之间不能相互沟通。不同语言的隔阂给人类交流带来许多障碍。

最早的“破译机”是公元前196年，古埃及国王托勒密的登基诏书。它同时由古埃及文、希腊文、圣书文记录，刻在黑色大理石上，后世人称为“罗塞塔石碑”。

罗塞塔石碑

罗塞塔石碑，是人类跨越语言障碍的象征。石碑上的对照文本为后人成功破译这三种语言发挥了巨大价值。翻译也逐渐从交流工具变成一门艺术。

时至今日，计算机也可以做一些简单的翻译工作，但机器翻译仍是世界难题。

有人说，机翻远不如人工翻译来的准确，更遑论“信、达、雅”。

一项新发明是需要时间来验证的。蒸汽船刚出现的时候，速度比不上精制的帆船，汽车也跑不过马车，计算机刚诞生的时候，是几十吨重的庞然大物。新技术是通过不断的升级迭代，改进人类的生活。

06 / 08 文字语义理解四代的发展历程。

古人类主动使用文字，就像是使用火，为文明带来了光与热。

30年前，人类进入计算机时代。当下，我们活在互联网时代，对文字的处理，已由人工进化到了计算机。文字由笔画精简、语义渐丰到可用代码破译。

现在计算机做文字处理，是先认识字词、句子，通过字词>语句>篇章三级结构，来进行文字语义分析。

文字语义分析技术的升级有四代进程：

第一代技术（1950s）：符号主义，用计算机的符号操作来模拟人的认知过程。

第二代技术（1970s）：语法规则，依赖于专家人工制定的语法规则和本体设计（ontological design）。

第三代技术（1990s）：统计学习，即让计算机阅读大量文章。

第四代技术（2010s）：深度学习，用一个复杂的模型像人脑神经网络一样运作。

符号主义

语法规则

统计学习

深度学习

07 / 08 用词向量（Word2Vec）技术来获取相关词汇。

我们以《全唐诗》为例，来看计算机是如何对文字进行处理。

分析了《全唐诗》5万多首，我们发现，均每5首诗里有3.9首有“人”，充分体现了唐诗的以人为本。

季节方面，“春”的出现比“冬”多得多，出现颜色最高频率是白色，其次是绿和黄。

唐诗的出现的情绪词：77%是悲，17%是思。剩下情绪都是打酱油的存在。

图片6.png

其中悲、思的情感，在唐诗中有许多的替代词。

汉语中很多词都有替代词，其中替代词最多的，是“我”，有超过一千多种表达方式。

寡人、洒家、奴家、老夫、咱、俺、朕，怎么让计算机去理解不同的“我”的意思？

这里用到的是word2vec技术。

通俗的说，是把词映射成向量，转换成意义相近的字，从而找到相同情绪的不同表达。再通过深度分析，判定唐诗里的“悲”是“晨起动征铎，客行悲故乡”，是“少壮不努力”，还是“商女不知亡国恨，隔江犹唱后庭花”。

这是计算机对唐诗的情感分析。今天，我们达观可以把消费者对产品的评论进行分析：比如手机，消费者态度是满意还是不满意、是对电池不满意，还是对拍摄效果不满意？再针对产品的某个点、某个模块做深入的情感分析，从而获取消费者的态度倾向，更好的服务于消费者，这是达观在做的事。

（此段内容部分参考：用文本挖掘分析了5万首《全唐诗》，竟然发现这些秘密）

08 / 08 活字印刷和古腾堡印刷让文字大范围复制和传播，“知识使人自由”。

“清明时节雨纷纷，路上行人欲断魂。借问酒家何处有，牧童遥指杏花村。”清新隽永的诗句流传至今，是得益于印刷技术的发明。

印刷术是中国古代四大发明之一，从雕版印刷到活字印刷，为知识传播创造了条件。

而真正使印刷术流行起来的，是18世纪的古腾堡印刷术，让人类具备了大规模的文字传播能力。

18世纪，欧洲笼罩在天主教的阴影之下。

当时的普通老百姓，是没有资格阅读圣经的。圣经的生产，要靠手工抄写。抄写需要大量抄书的人，培养抄书的人又需要大量的书，这就陷入了先有鸡还是先有蛋的困境。

于是圣经只能由少数识字的人，誊写在羊皮纸上，往往一本圣经册子，就需要两年的时间。因此稀少而珍贵，只有神父可以阅读传诵。于是，天主教拥有了对圣经的绝对解释权，便通过宗教去控制人的思想。

印刷术发明后，纸质本的圣经大量传播，普通人才可以阅读。人们直接和上帝对话，并恍然大悟，摆脱了天主教思想上的洗脑控制，这也间接引发了马丁路德的宗教改革，创立“新教”基督教。

约翰内斯·古腾堡

2005年，德国曾评选过历史上最具影响的德国人，古腾堡排在第八，远在爱因斯坦和铁血宰相俾斯麦之前。

古腾堡印刷术大大加速了知识的传播效率和范围，保存下了人类许多珍贵的思想、故事、诗歌。摧毁了一个文化上封闭、技术上停滞不前的旧世纪，并带来了欧洲中世纪思想启蒙，唱响了“黑暗中世纪”的挽歌，使欧洲从蒙昧走向开化，大幅度加速了人类文明的进化速度。文化的先进促进了欧洲近现代在世界的霸主地位，这一切源于文字传播的便捷。

无论对于人类总体或国家，知识的增加促进文明的发展，会给个体带来更多的自由度。而文明的发展、知识的增加，又使人对人类自身的存在意义有更深的理解。某种角度上，文明即人类个体自由意识的发展史，知识的启蒙和普及又推动文明的进程。

知识使人自由，拥有知识，就拥有了获得自由的权利。人类文明璀璨如银河，知识，即是宇宙中浩瀚的星海。人类对文字处理方式的升级迭代，恰如划破寂寂长夜的流星，在茫茫宇宙中不过转瞬即逝，却照亮整片夜空。

达观数据

达观数据是一家专注于文本智能处理技术的国家高新技术企业，获得2018年度中国人工智能领域最高奖项 “吴文俊人工智能科技奖”，也是本年度上海市唯一获奖企业。达观数据利用先进的自然语言理解、自然语言生成、知识图谱等技术，为大型企业和政府客户提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。

产业文本挖掘深度学习Word2Vec机器翻译语义分析

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

语义分析技术

语义分析是编译过程的一个逻辑阶段，语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查，进行类型审查。语义分析是审查源程序有无语义错误，为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查，审查每个算符是否具有语言规范允许的运算对象，当不符合语言规范时，编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制，那么当二目运算施于一整型和一实型对象时，编译程序应将整型转换为实型而不能认为是源程序的错误。

来源：百度百科

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

word2vec技术

Word2vec，为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。Word2vec为托马斯·米科洛夫（Tomas Mikolov）在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

来源：维基百科

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等，大致相当于文字分析，一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘通常涉及输入文本的处理过程，产生结构化数据，并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性，新颖性和趣味性。

来源：维基百科