Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

颠覆乔姆斯基的语言学习理论?没那么容易

9 月初,Yann LeCun 转发了一条推特,推荐 Scientific American 上 的一篇颠覆乔姆斯基语言学理论的文章,并认为此文在乔姆斯基的普遍语法理论的棺木上又多钉了几枚钉子。然而,Scientific American 近日又发了一篇文章推翻了之前的那篇文章,认为其对乔姆斯基的理论存在根本性误解。看来围绕乔姆斯基的争论远未止息......

没读过 Ibbotson 和 Tomasello(以下 I&T)最近在科学美国人(Scientific American)上发表的文章「Evidence Rebuts Chomosky's Theory of Language Learning」的朋友,或许会对文章的标题不明所以。同时你也可能在猜测,这篇文章中或许会列举很多具体的实证来驳斥诺姆乔姆斯基的语言学习理论。但是,文章中并没有这样的实证论述。回顾乔姆斯基的语言学思想,这位语言学生成学派泰斗并没提出任何关于语言习得的具体理论。他的思想是通过对人类可能的语言空间的初始条件定义来论述语言习得在理论上的可能。这也是 I&T 无法在其文中列举具体实证来反驳乔姆斯基的原因之一。另外,I&T 也几乎没有找到任何与生成学派的语言习得理论完全相左的强有力证据。I&T 对乔姆斯基语言学思想的根本性误解是其文章中没有相关论述的原因所在。

Synced (179).jpg

诺姆乔姆斯基(Noam Chomsky),麻省理工学院荣誉退休教授,有史以来论文被引用数量第 8 的学者。

20 世纪 50 年代到 60 年代,乔姆斯基提出了一个研究人类语言机能的范式。这个范式包含三部分:(1)语言学知识的正式明确性模型的构建,(2)普遍语法规则的检索对可能语法空间的精准勾勒,(3)语法知识和语法使用可以被视为不同的方法性假说。这项研究曾经宣称其最终的理论是为了解释普遍语法规则的运用是语言习得理论的一个重要组成部分。语法规则将和语言学习者的经验及其他能力共同推进语言学习者语法知识的增长。在乔姆斯基的研究中,对语言学习者的语言习得作用因素进行了明确的区分,这种区分与生物体的生长是由其基因结构、外部环境以及其他内部因素三部分互相作用的区分类似。就如没有生物学家会认可基因结构理论和生物进化理论等价一样,任何语言学家(当然乔姆斯基本人除外)都不会认可语法结构和语言习得理论是等价的。

人类可能习得的语言理论能够为语言习得提供理论支撑的论断部分来源于刺激贫乏论,刺激贫乏论认为相比于普通孩子所在的语句环境,我们在以后的成长过程中可以逐渐学到更加复杂的语言知识。这个学说的论证可以遵从以下例子的步骤进行:

基本语料:

(1)a.Val is a good volleyball player and Al is too

b.Val is a better volleyball player than Al is

在这两句话中,第二个从句中有一个未明确指出的谓语,这个谓语来源于第一个从句(即:a good volleyball player)。为了简化,我们把(1a)称为并列省略(coordinate ellipsis),(1b)称为比较省略(comparative ellipsis)。我们还进行进一步区分,在省略谓语的句子里,中括号中的补充文字即为所省略的谓语内容。

(2) a. Val is a good volleyball player and Al is [a good volleyball player] too

b. Val is a better volleyball player than Al is [a good volleyball player]

这些省略的结构对孩子们的口语来说是很普遍的。我们同样能观察到这些未说出口的谓语动词和他前期能理解多从句(multi-clause)之间的关系,即使是在孩子们没有听到许多这种多从句(multi-clause)类型的句子时候。

(3) a. Val is a good volleyball player and I think that Al is [a good volleyball player] too

b. Val is a better volleyball player than I think that Al is [a good volleyball player]

c. Val is a good volleyball player and I heard you say that Al is [a good volleyball player] too

d. Val is a better volleyball player than I heard you say that Al is [a good volleyball player]

然而,当嵌入从句是关系从句的时候,这两种省略句将会区分开来。并列省略(coordinate ellipsis)仍然能组成一些英语的句子,但是比较省略(comparative ellipsis)就不能这样(意味着不能组成英语句子)。

(4) a. Valentine is a good value-ball player and I heard a rumor that Alexander is [a good volleyball player] too

b.  Valentine is a better value-ball player than I heard a rumor that Alexander is [a good volleyball player]

这里要解释的是,为什么这个儿童学习者在为并列和比较省略组织表达时,不会将沉默的谓词以同样的方式用在两个例子中。这个两个例子都可以被解释为等同于在(1)和(3)的所有句子中的主句谓语。然而,如果省略的谓词是在一个关系从句里面,它就可以被解释为等同于并列省略而不是比较省略中的主句谓语。这可能会得出一个类比,但是事实上不可以。英语学习者不会遇上像(4a)或(4b)那样的句子,但是有时我们都会意识到英语中可能会有像(4a)那样的句子吗,它会是什么样子的?

这种乔姆斯基式的答案只能提供部分解答。它表示像 (1b) 中那样的比较结构(comparative constructions)有一个与问题共同的结构特征。要了解这能够使 (4b) 不可能的原因,让我们先考虑一下被构建出来的问题。类似 (5) 这样的成分问题(constituent questions)可以将句子起始处的一个短语和该句子中后面的一个动词联系起来:

(5) What did Ellen take?

这里的动词 take 是及物动词,它需要一个直接宾语,这使得 (6a) 是一个可能的句子而 (6b) 并不是:

(6) a. Ellen took a picture

b.  Ellen took

在 (5) 中,直接宾语是 what,其出现在句子开头,但其作用和 (6a) 中的 a picture 这个短语是一样的。

这种依赖(dependency)也可以跨多个从句进行延伸:

(7) a. What do you think that Ellen took? 

b. What did you hear Tonia say that Ellen took?

但如果这个动词本身就在一个关系从句(relative clause)中,那么这种依赖就不能形成:

(8)  What did you hear a rumor that Ellen took?

像 (7b) 和 (8) 这样的句子都不在典型的儿童语言学习者的经验范围内,但我们都能认识到 (7 a/b) 是可能的句子而 (8) 并不是。

如果我们通过检查许多依赖和许多语言来在英语中的这些观察上进行构建,那么我们会发现人类语言中(至少)存在两种依赖(dependency)。一类可被构建成关系从句,另一类则不能。给定这两种分类,我们可能会提出这些依赖的类别内建于学习者的语言机能中。这个观点会改变语言学习问题的本质。学习者的工作并不是去发现被学习的语言的每一种属性,而是(在这个领域内)去发现该语言中的依赖是属于哪种类别。对其中依赖进行了分类之后,学习者就会知道它们之中哪些特定的元素可以被用在关系从句中(如:并列省略(coordinate ellipsis)),或不能这么用(如:比较省略(comparative ellipsis)和成分问题)。该学习者并不需要搞清楚每一种依赖能否出现在关系从句中,他只需要明白一种依赖属于哪一类。根据这个类别,与相关性(relativization)的交互作用便遵循一开始定义这些类别的普遍语法(Universal Grammar)原则。

I&T 宣称:这都是错的,而且事实已经证明了这一点。但他们给出的证据只牵扯到语言特征中最简单最容易观察的部分,比如一个动词是否需要一个直接宾语,这些对于构建一种学习理论来说太过简单了,因为它们在学习者的经验中是非常丰富的。乔姆斯基的观点允许观察(observation)、进行类比(analogy making)和分布式分析(distributional analysis)的概念,以解释它们被学习到的方式,就像 I&T 所支持的基于使用的理论(usage-based theory)一样。

但当其涉及到高度抽象的和跨语言稳定的性质(如:依赖的分类)时,基于使用的理论就沉默得可疑。这种沉默是可以从这种理论的形状(shape of the theory)上预见到的。任何曾经精确和正式地学习过学习和归纳(learning and generalization)的人都知道,分布式分析、类比进行和归纳的理论开始于可观察特征的类别的陈述(statement)和可投射谓词(projectible predicates)的类别的陈述——这些谓词定义了归纳时所遵循的维度(dimensions)。因为基于使用的理论没有提供归纳的可能维度的规范,那么它就在设计上没有给学习者归纳的方式提供解释;而更重要的是,除了学习者无法使用的数据,其也没有给与数据一致的归纳提供解释。

最后,基于使用的理论学家告诉我们:语言知识和语言使用部分独立的方法原理是一个不连贯的(incoherent)思想,几乎不能解释语言的习得。因此,他们认为这种方法原理应当被拒绝。但是,他们既没有解释这种不连贯是如何产生的,也没有解释语言行为(linguistic behavior)是如何在没有这种区分的情况下取得成功的。举一个简单的例子,我知道如何拼写 language,但是有时候我打字太快时我会把它写成 langauge——其中 a 和 u 的位置被写反了。关于我打字这种情况可以通过两个因素进行解释:(1)我对于这个词的拼写的正确表示、(2)我的运动规划和行动系统导致了这一情况,使得序列 g-u-a 的输入需要交替使用我的左右手,而尽可能快速打字的压力使得正确交替的模式变得更加困难,从而导致有时候我用左手打出 g-a 序列时,我的右手还没有来得及按下 u。这是否意味着我并不知道正确的拼写,还是说我在表示这个语言的拼写时,80% 是这个方式,20% 是另一种方式?甚至 I&T 也不会这么想。那么为什么我的语言能力会有所不同呢?

为什么我们说话的过程不能通过类似的方式进行解释呢?这个过程涉及到我们对知识的整合,其中包括:句子的构建方式、词的发音方式、概念上的知识、记忆系统、预测过程等等。实际上,识别这种区别能让我们可以将特定的事实归属于我的语法知识或使用这些知识的处理系统。

稍微举个例子说明一下,考虑一下一致性吸引现象(phenomenon of agreement attraction):

(9) The key to the cabinets is/#are on the table

这个现象是指人们偶尔会在上面这样的句子中使用 are 而非 is(据 Kay Bock 的研究,在实验生产的任务中有大约 8% 的可能性),而且在加速的可接受性判断任务(speeded acceptability judgment task)中,他们甚至无法注意到 are 的怪异。为什么会发生这种事?一些心理学家认为这和在句子理解的过程中句子的部件在工作记忆(working memory)中的存储和重新获取有关。也就是说,使用独立理解的工作记忆模型并将其应用到句子理解上,这些作者解释了英语说话者注意或没有注意到的这种类型的一致性错误(agreement errors)。所以,在一些情况中,表现(performance)掩蔽了能力(competence)。这种情况允许我们将解释分配到语法理论和处理理论上,这使得我们不需要去复杂化我们的主语-动词一致性的语法理论。这样的解释难道没有那些不能将解释跨领域分配的解释科学吗?明显不是。

I&T 还宣称这种知识和使用(用乔姆斯基的术语来说是能力(competence)和表现(performance))之间的区别是有害的,并且削弱了关于语言习得的观点的可证伪性。但是原因为何?考虑以下情况。所有的语言使用者都是逐渐理解句子的——他们一边听句子一边构建自己的理解,而不是等待句子结束才开始理解。这有时候会带来问题。比如这个例子:

(10)Put the frog on the napkin in the box.

当听到这种语句时,我们最初的理解是词组「on the napkin」是说话者希望把青蛙摆放的位置。随着对话继续,我们修改了之前的理解,「on the napkin」是对于「the frog」目前状态的解释,相当于「the frog that is on the napkin.」这一修正过程可在被实验者的视觉轨迹中观察到。孩子们会难以理解这句话,这从他们的视觉轨迹和行动中都可以看出来,有时他们会把青蛙放在餐巾上。有可能这表示人类在年幼时期这些机制仍未发展完全,这些机制抑制快速理解或反应。实际上,大脑受损的患者和做出错误反应的人显示出了类似的行为。

这种理解困难可以解释为什么儿童有时在学习语言上遇到了障碍。例如,Akira Omaki 测试了英语和日语母语的 4 岁儿童对下面一句话的解释:

Where did Lizzie tell someone that she was going to catch butterflies?

这句话难以理解之处在于「where」和主动词到底是「tell」还是「catch」。现在,如果把孩子比作增量分析程序,他们可能会难以修改第一印象形成的判断,我们假定英语儿童会难以分析动词,他们强烈地倾向于第一个动词为主动词。而日语儿童却存在相反的强烈偏见,因为在日语中这句话的语序会出现颠倒。事实上,这正是 Omaki 的发现,分析系统的性能和可以独立理解的短语可以解释孩子的行为。因此,理解系统的机制可以让我们解释为什么同样的意思不同语言里会出现不同的表达。

综上所述,Paul Ibbotson 和 Michael Tomasello 宣称乔姆斯基语言学已经灭亡,但他们并不会引起大多数学者的严肃对待。I&T 和他们引用的研究都没有证伪任何乔姆斯基语言学的核心观点。它们也没有反驳乔姆斯基在 20 世纪 60 年代理论框架中的逻辑;也没有检验这一框架存在的基础。这样一篇未能理解乔姆斯基理论关键思想框架的文章,作者天真的语言结构、语言习得、语言使用观点和其提供的 「证据」 导致其错误地认为自己颠覆了原有理论,这一切并没有看上去那样深刻。

入门人物语言自然语言处理NLP理论
暂无评论
暂无评论~