最近一个可以评估作者的「风格指纹(stylistic fingerprint)」的算法发现莎士比亚的一些戏剧作品是合作完成的,并且还揭示了他的合作者的身份。
从头骨到写作上的问题,传奇剧作家威廉·莎士比亚在得到了大量的赞誉的同时也引起了很多争议。现在,研究人员已经使用了一种机器学习算法对这位传奇人物及其同时代作家的写作风格进行了分析,并确定了他的哪些戏剧很有可能是和谁一起合作完成的。基于他们的研究,他们即将发表的论文将会首次揭示 Christopher Marlowe 是所有三部《亨利六世》戏剧的合作者。
对莎士比亚的作品的争议已经持续了几个世纪。一些戏剧(比如《两个贵亲戚》)已经被广泛接受是合作的作品,但其它一些(比如《泰特斯·安德洛尼克斯》)则只是被人们怀疑。这些疑问成为了宾夕法尼亚大学信息学科学家 Alejandro Ribeiro、Santiago Segarra 和 Mark Eisen 所开展的一项研究的核心,他们的研究还得到了莎士比亚学者 Gabriel Egan 的帮助。
该团队使用了一个算法来研究被选择的文本的写作风格。这种实验背后的基本思想并不新鲜:用计算的方法分析一个作者的词选择和用词频率等风格。但是这种方法也有缺点:容易受到写作主题的影响。于是乎,这些研究者忽略了依赖于主题的关键词,而选择分析基本的、「功能性(functional)」的词,然后基于这些词获取作者的风格指纹,看这些作者的风格到底有多接近。
「一种更可靠的方法是使用功能性的词,而非有含义的词:the、and、or、to 等等,」Segarra 解释说,「每个人都会用这些词,所以在这方面分析作者之间的不同可以让我们更客观地测量『风格』。」
词邻接网络(word adjacency network)可以确定给定文本中词对之间相距的距离,然后可以基于它构建一个分数
为了描绘出作者的风格,该团队从文本中选出了 50 到 100 个功能词,然后在莎士比亚的完整作品集上训练了一个算法,从而构建了一个这位大师的「词邻接网络(word adjacency network)」。这些网络会计算每个目标词对(pair of the target words)之间的词的数量,并给该词对分配一个分数。据研究者介绍,当所有的组合都被给出的分数并得出了结果之后,它就会构建出该作者的风格的一个「指纹(fingerprint)」,当与其它文本比较时,就可以将其作为识别作者身份的非常可靠的方式。
Ribeiro 说:「比如说,如果我们在一部我写的剧本和一部 Santiago 写的剧本上训练这个系统,然后再向其展示一部我们中的某个人所写的另一部剧本,那么它就能以 98% 的精确度是谁写了它。」
左边是莎士比亚的词邻接指纹(word adjacency fingerprint),右边是 Christopher Marlowe 的
将该系统应用到了莎士比亚的作品之后,该团队发现三部《亨利六世》戏剧存在统计学上的异常值,所以它们很可能不是由莎士比亚一人独自完成的。为了确定这些作品上还有谁的指纹,该团队还为 John Fletcher、Christopher Marlowe、Thomas Middleton、Ben Jonson 和 George Peele 等一些同时代的作家开发了相同的网络,这些作者是已知的或被怀疑的莎士比亚的合作者。
结果发现在这个案例中,Christopher Marlowe 和 George Peele 是最有可能参与了合作的,尽管 Marlowe 的看起来更强一点,但实际上这是因为 Peele 作品数量较少,不足以形成一个完整的图景。结合历史证据以及最近其它一些研究所补充的结论,该团队表示自己有足够的信心确定 Marlowe 是这些戏剧的合作者之一。其所使用的数据集是 New Oxford Shakespeare Complete Works(新牛津莎士比亚全集),该研究的参与者 Egan 是该书的编辑之一。
「我们看到许多使用不同方法的独立研究都得出了相同的结论,」Egan 说,「这些独立的方法越收敛,我们就越有信心。」
「在《亨利六世》第二部分有一个非常有名的暴动情节,其中革命者 Jack Cade 的一位追随者说:『我们要做的第一件事,让我们杀了所有律师。』」Egan 继续说,「我认为是 Marlowe 写出了这个场景。当然,我们不知道他们是不是以合作者的身份在一起工作的。比如,莎士比亚可能在后面采用了那些段落。」
该研究的详细情况将刊登在下一期的 Shakespeare Quarterly 期刊上。