尽管全世界语言多达5600种,但大部数人类使用的语言集中在图中的前15种(覆盖全球90%以上人群)。其中英语为母语和第二语的人数最多,近14亿人,是事实上的世界通用语。其次是汉语,约占世界人口的23%。英语和汉语相加的人数占世界总人数的近一半,因此处理中英文两种语言非常关键。
人工智能时代,让计算机自动化进行文字语义理解非常重要,广泛应用于社会的方方面面,而语言本身的复杂性又给计算机技术带来了很大的挑战,攻克文本语义对实现AI全面应用有至关重要的意义。相应的自然语言处理(Natural Language Processing,NLP)技术因而被称为是“人工智能皇冠上的明珠”。
中国和美国作为AI应用的两个世界大国,在各自语言的自动化处理方面有一些独特之处。接下来笔者对中文和英文语言特点的角度出发,结合自己的从业经验来归纳下两种语言下NLP的异同点。(达观数据陈运文)