朱會(huì)鑫
隨著科技的不斷進(jìn)步,A I已經(jīng)可以給文學(xué)作品做“親子鑒定”,進(jìn)而判定其作者是誰(shuí)了。
下面,我們就以利用A I判定英國(guó)著名戲劇文學(xué)《亨利八世》的作者是誰(shuí)為例。與《紅樓夢(mèng)》究竟是誰(shuí)寫的一樣,《亨利八世》也存在同樣的問題。可以說,在長(zhǎng)達(dá)一個(gè)世紀(jì)里,關(guān)于《亨利八世》作者是誰(shuí)的爭(zhēng)論一直沒有停息,直到最近的一項(xiàng)研究才使這個(gè)問題的答案變得明朗起來。
布拉格捷克科學(xué)院的研究員普列查奇最近使用了機(jī)器學(xué)習(xí)技術(shù)來識(shí)別《亨利八世》的作者,并取得了具有說服力的結(jié)果。那么,究竟是如何利用AI判定《亨利八世》的作者呢?
簡(jiǎn)單地說,就是從詞匯和節(jié)奏入手,辨別文本的來源。在了解作者的風(fēng)格和常用的字詞與樣式后,再去辨別新作品中的文本習(xí)慣樣式,以判定它是不是出自同一個(gè)作者。即通過算法模型對(duì)文本常用詞、常用語(yǔ)句和節(jié)奏模式進(jìn)行分析,使算法學(xué)會(huì)辨別相關(guān)作者的寫作特征。
具體來說,就是先將劇本《亨利八世》細(xì)化到多個(gè)小場(chǎng)景,再使用支持向量機(jī)對(duì)《亨利八世》的各個(gè)場(chǎng)景進(jìn)行歸因分析和分類。其中,以500種最常見的節(jié)奏類型的頻率,以及500個(gè)最常見單詞的頻率作為分類器的功能集。鑒于作者在不同時(shí)期可能出現(xiàn)的風(fēng)格差異,普列查奇采用了同時(shí)期其他戲劇的場(chǎng)景(如《暴風(fēng)雨》《科里奧拉納斯》)作為訓(xùn)練樣本,對(duì)于可能的作者也同樣收集了訓(xùn)練樣本。
最終,普列查奇收集了53個(gè)莎士比亞訓(xùn)練樣本、90個(gè)弗萊徹訓(xùn)練樣本和46個(gè)馬辛格訓(xùn)練樣本。為了估計(jì)模型的準(zhǔn)確性,還通過交叉驗(yàn)證的方式進(jìn)行了檢驗(yàn)。完成訓(xùn)練學(xué)習(xí)后,在《亨利八世》的文本上運(yùn)行該模型,最后結(jié)合詞匯和多功能化的綜合分析,確定哪些作者參與了劇本的寫作,以及他們的具體貢獻(xiàn)。
最后的結(jié)果證明,這是區(qū)分莎士比亞、弗萊徹和馬辛格風(fēng)格非常可靠的判據(jù)。尤其是使用常用詞和常用節(jié)奏的組合模型,在三位作者的風(fēng)格鑒定上,準(zhǔn)確率高于96%。當(dāng)模型應(yīng)用于《亨利八世》的分析時(shí),結(jié)果清楚地表明,莎士比亞和弗萊徹都參與其中,另一位傳聞的劇作家馬辛格在算法的層面上表明和劇本無關(guān)。
對(duì)于文學(xué)研究者和愛好者來說,利用A I對(duì)文學(xué)作品進(jìn)行“親子鑒定”,以破解名著的作者之謎,是一件很有價(jià)值的事情,同時(shí)也提供了一個(gè)數(shù)據(jù)維度的視角,去解決此類問題。
//摘自《知識(shí)窗》2020年第2期/
