999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析人工智能在辭書編纂中的應(yīng)用
——以收詞立目為例

2019-01-24 01:23:12
新聞傳播 2018年23期
關(guān)鍵詞:語義人工智能

(上海理工大學(xué) 上海 200093)

近年來,人工智能發(fā)展勢頭迅猛,對各行各業(yè)都產(chǎn)生了深遠(yuǎn)的影響,體現(xiàn)在辭書出版領(lǐng)域即人工智能技術(shù)在辭書編纂現(xiàn)代化中的應(yīng)用。眾所周知,傳統(tǒng)的辭書編纂是一項勞力費時的工作,動輒“十年磨一劍”。尤其是收詞立目,工作量巨大。因此,收詞立目的智能化對辭書編纂現(xiàn)代化至為關(guān)鍵。本文試圖對如何利用人工智能促進(jìn)收詞立目的智能化進(jìn)行初步探討。

一、收詞立目是辭書編纂的基礎(chǔ)

一部嚴(yán)肅編纂的辭書,基本上要經(jīng)歷“確定體例、收詞立目、編寫條目、編輯加工”等諸多知識創(chuàng)造的過程。新辭書的編纂體例確定之后,收詞立目就成了辭書編纂的基礎(chǔ)。《漢語大詞典》的編纂中,動用了華東地區(qū)五省一市的專家學(xué)者,從1萬多部典籍(報刊)中,制作了800多萬張資料卡片,才編寫出了5000萬字、37萬多條目的皇皇巨著。這1萬多部典籍(報刊)中,《新民晚報》《魯迅全集》《四庫全書》各算1種。

(一)資料的積累

實際上一些中小型辭書的編寫,是在作者平時資料的積累之上實現(xiàn)的。如王均熙先生的《漢語新詞詞典》,就是其積累了大量漢語新詞的資料后,開始了這一辭書的編寫。其編寫和修訂長達(dá)二三十年。

陳尚君先生在《我作〈辭海〉修訂》一文中也曾闡述,“1989版《辭海》,唐宋文學(xué)部分修訂費時在半年以上。此后幾次費時沒有這么多,因所涉問題已熟悉,且有長期關(guān)注積累。”

可見,收詞立目是傳統(tǒng)辭書編纂的重要一環(huán),也就是說,資料的積累是辭書編纂的基礎(chǔ)。

(二)收詞立目是知識含量巨大的工作

在辭書的編纂中,收詞立目是一項曠日持久、費力巨大的工作,也是知識含量巨大的工作。

如以《漢語大詞典》為例,從1萬多部典籍(報刊)中,制作了800多萬張資料卡片,平均每部典籍(報刊)約收錄了800張資料卡片。考慮到這些典籍中不乏《四庫全書》《四部備要》《四部叢刊》《二十四史》《全唐詩》《全宋詞》《魯迅全集》等叢書、類書、合集等,因此一部書平均只制作800張資料卡片——其圈詞率非常之低,所制作的資料卡片質(zhì)量極佳。這與《漢語大詞典》編纂初期,有大批被閑置的專家學(xué)者參與了《漢語大詞典》的編纂工作有關(guān)。他們淵博的知識極大地提高了這批資料卡片的質(zhì)量。在國家轉(zhuǎn)入四個現(xiàn)代化建設(shè)后,專家學(xué)者紛紛回到了自己的工作崗位上。現(xiàn)在如果再有類似項目,將無法召集如此多的專家學(xué)者參與其中。

二、計算機(jī)技術(shù)的應(yīng)用對收詞立目的幫助

計算機(jī)技術(shù)中漢字顯示技術(shù)、漢字輸入法、數(shù)據(jù)庫等技術(shù)的發(fā)展,極大地幫助了辭書編纂工作的數(shù)字化,推進(jìn)了辭書編纂現(xiàn)代化的發(fā)展。國內(nèi)多家出版社紛紛建立了各類辭書數(shù)據(jù)庫,編纂平臺的研究與應(yīng)用也十分火熱。尤其是計算機(jī)技術(shù)中統(tǒng)計與匹配技術(shù)的運用,解決了漢語詞語的切詞問題,使?jié)h語新詞的發(fā)現(xiàn)變得不費吹灰之力,從而解決了漢語新詞的收詞立目難題,極大地幫助了辭書編纂與修訂工作。

例:2004年復(fù)旦大學(xué)宋國梁老師在易文網(wǎng)演示的漢語新詞確認(rèn)原理

計算機(jī)技術(shù)解決漢語新詞的發(fā)現(xiàn)與確認(rèn),對于解決辭書編纂中新詞的例證收集與語義分析有很大的幫助,解決了新詞的收詞立目問題。然而對于辭書編纂中舊詞新義的發(fā)現(xiàn),以及漢語高頻詞如何能精選出有典型意義的例證,目前的實際發(fā)展情況仍然是困難重重。

三、語義理解的瓶頸下收詞立目的兩大難題

(一)難題一:舊詞新義的發(fā)現(xiàn)

舊詞新義主要有兩類。

一是舊詞中被遺漏的義項。

數(shù)千年傳承的中華民族文化博大精深,卷帙浩繁,在已經(jīng)編纂的辭書中遺漏一些不常用的義項,是很正常的事。在渺如煙海的典籍中檢索某個詞,檢索的結(jié)果可能會達(dá)數(shù)萬個,甚至數(shù)十萬個。這數(shù)萬、數(shù)十萬個用例中,有很多的義項都是相同的。從中找出被遺漏的義項,無疑是沙里淘金,需要花費大量的功夫。以前的這類工作,主要靠學(xué)者在平時的積累與發(fā)現(xiàn)。而面對浩繁的典籍,無法再用專家學(xué)者收詞立目時的傳統(tǒng)閱讀辨識方法進(jìn)行。

二是舊詞在新環(huán)境下產(chǎn)生的新義項、新的語法功能。

在語言的發(fā)展中,很多新的義項的表達(dá),往往采用舊詞賦以新義的方法來實現(xiàn)。由于目前的辭書編纂平臺中缺乏語義的辨析功能,因此還無法實現(xiàn)對這類舊詞新義的發(fā)現(xiàn)。

舊詞新義的發(fā)掘,是辭書編纂中,新辭書編纂和舊辭書修訂的一個重要部分。目前仍是靠個別專家學(xué)者日常閱讀中的發(fā)現(xiàn)進(jìn)行記錄保存。誠如陳尚君先生所言,只能靠“長期關(guān)注積累”。

(二)難題二:如何精選出高頻詞的經(jīng)典例證

高頻詞在語料庫中大量存在。編纂一部新的辭書,如果僅僅依靠對語料進(jìn)行切詞處理來解決高頻詞的義項和例證,一些高頻詞的數(shù)量將是成千上萬。篩選的工作將不堪之重。如副詞“的、地、得”,在語料庫中的數(shù)量非常多,篩選的工作量非常之大。

從目前來說,舊詞新義的發(fā)現(xiàn)以及如何精選出高頻詞的經(jīng)典例證,仍然是辭書編纂現(xiàn)代化中還沒有逾越的一個頑障,計算機(jī)語義理解的瓶頸阻礙了辭書編纂現(xiàn)代化的發(fā)展。

四、運用人工智能高效率解決收詞立目難題的可行性

與辭書出版界在詞匯的語義分析前躊躇不前相反,中文信息的計算機(jī)處理卻在高歌猛進(jìn)。2014年的中國計算機(jī)學(xué)會中文信息處理專業(yè)委員會的學(xué)生會員比賽中,已經(jīng)能對140字的微博進(jìn)行情感分析。因此運用中文信息處理的人工智能,將之與辭書編纂平臺技術(shù)相結(jié)合,可以高效率地解決收詞立目中舊詞新義的識別難題。

在辭書編纂現(xiàn)代化中,人工智能施展的舞臺極其廣闊。僅從收詞立目的角度來看,起碼可以在兩個方面著手,解決收詞立目的瓶頸問題。

(一)可以幫助發(fā)現(xiàn)舊詞新義

上面談到了在浩繁的典籍中,尋覓舊詞新義的難度在于對語義的分析。而在下面的工作流程中,添加了人工智能對語義的分析,就可以幫助實現(xiàn)舊詞新義的辨析。

上面的處理過程中,在完成詞庫匹配并確認(rèn)為一個詞時,智慧系統(tǒng)可以自動進(jìn)行該詞的資料卡片制作。

如果是初級的智慧系統(tǒng),在制作資料卡片時可以自動截取出現(xiàn)該詞部分的前80字和后80字(此處80字僅為舉例說明),并自動將這段文字中最早出現(xiàn)的表示句子完成的標(biāo)點符號(如句號、感嘆號、問號等)之前的文字和該標(biāo)點符號剔除,再剔除這段文字最后出現(xiàn)的表示句子完成的標(biāo)點符號之后的文字和符號。然后自動配上該文本的篇名、作者名、章節(jié)等基本信息,即完成了該詞的資料卡片制作。

如果是高級的智慧系統(tǒng),可以直接對該詞的前后文字進(jìn)行截取和分析,然后完成該詞資料卡片的制作。

完成資料卡片的制作后,智慧系統(tǒng)將自動進(jìn)行語義的辨析,隨后與已有的釋義庫進(jìn)行匹配比對。如果釋義庫已經(jīng)有了該項釋義,則該詞將被另行處理或直接放棄。如果釋義庫中沒有該詞(即匹配不合格),即呈送專家進(jìn)行人工干預(yù),確認(rèn)為舊詞新義后,歸入舊詞新義數(shù)據(jù)庫。

(二)可以解決高頻詞經(jīng)典例證的精選

之所以說辭書編纂過程中的圈詞是含金量非常高的工作,在于專家圈詞時可以自動將一些高頻詞的出現(xiàn)忽略,但同時對具備典型義項的高頻詞例證非常敏感,不會疏漏。這就對模仿人工智能的智慧系統(tǒng)提出了更高的要求:既要能自動篩選掉高頻詞中無典型語義的例證,又要能迅速抓取高頻詞中具有典型語義的例證。

上面的處理過程中,要求智慧系統(tǒng)能夠自動分析高頻詞在具體語境中的語義,然后自動與釋義庫該詞條下的所有義項進(jìn)行語義的匹配比對。如果釋義庫中已經(jīng)有了該項釋義,則該詞將被另行處理或直接放棄。而解決高頻詞義項的精選,正是“另行處理”中的一例。例如可以補(bǔ)充某個詞的某個義項的更早出處,或更典型的用例。

結(jié)語

在計算機(jī)技術(shù)的推動之下,辭書編纂的現(xiàn)代化已經(jīng)有了長足的發(fā)展。但應(yīng)該說,還沒有充分利用計算機(jī)學(xué)界已經(jīng)研發(fā)的新技術(shù)和新成果,導(dǎo)致在辭書編纂的某些環(huán)節(jié)中遇到了瓶頸,阻滯了辭書編纂現(xiàn)代化的進(jìn)程。而從本文的初步探討中,我們可以看到,充分運用人工智能技術(shù)對語料進(jìn)行語義的智能分析,從而突破舊詞新義的發(fā)現(xiàn)和高頻詞經(jīng)典例證精選的兩大難題,是切實可行的。可以說,人工智能是新時代背景下推進(jìn)辭書編纂現(xiàn)代化的最佳利器,其發(fā)展空間極為廣闊,有待業(yè)內(nèi)人士進(jìn)一步探索。

猜你喜歡
語義人工智能
我校新增“人工智能”本科專業(yè)
語言與語義
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
下一幕,人工智能!
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
“深+N季”組配的認(rèn)知語義分析
主站蜘蛛池模板: 性欧美在线| 亚洲色图欧美激情| 国产v精品成人免费视频71pao| 性视频一区| 91精品情国产情侣高潮对白蜜| 国产一区自拍视频| 久热re国产手机在线观看| 久久香蕉欧美精品| 久久精品66| 国产熟睡乱子伦视频网站| 99热这里只有精品在线播放| 九色综合视频网| 91网红精品在线观看| 国产成人夜色91| 国产农村1级毛片| 午夜丁香婷婷| 在线免费不卡视频| 亚洲三级片在线看| 福利视频一区| 欧美精品在线免费| 91精品国产一区自在线拍| 国产综合色在线视频播放线视| 久久久久人妻一区精品| 伊人久久综在合线亚洲2019| 国产va在线| 欧美伊人色综合久久天天| 91国语视频| 久久狠狠色噜噜狠狠狠狠97视色 | 国产美女丝袜高潮| 国产白浆视频| 久久黄色毛片| 久久大香伊蕉在人线观看热2| 网友自拍视频精品区| 精品久久综合1区2区3区激情| 日韩精品一区二区三区swag| 五月婷婷精品| 激情无码视频在线看| 国产99视频精品免费视频7| 在线视频亚洲欧美| 国产精品福利导航| 青青国产在线| 伊人久久婷婷五月综合97色| AⅤ色综合久久天堂AV色综合| 国产免费看久久久| 直接黄91麻豆网站| 狠狠综合久久| 亚洲午夜福利精品无码不卡| 国产乱子伦视频三区| 国产人在线成免费视频| 无码网站免费观看| 99re免费视频| 欧洲成人在线观看| 欧美视频在线播放观看免费福利资源 | 欧美性猛交xxxx乱大交极品| 婷婷色一二三区波多野衣 | 国产欧美专区在线观看| 日韩在线播放欧美字幕| 亚洲国产日韩视频观看| 国产激情在线视频| 成人福利免费在线观看| 91久久性奴调教国产免费| 伊人福利视频| Aⅴ无码专区在线观看| 久久99精品久久久久久不卡| julia中文字幕久久亚洲| 亚洲天堂免费观看| 狠狠色丁婷婷综合久久| 91免费片| 国产高清无码第一十页在线观看| 亚洲第一区精品日韩在线播放| 国国产a国产片免费麻豆| 久久久久久高潮白浆| 91成人免费观看在线观看| 国产三级视频网站| 天堂成人在线| 欧美综合一区二区三区| 亚洲天堂在线免费| 亚洲精品动漫在线观看| 奇米影视狠狠精品7777| 国产女人在线观看| 中文字幕免费视频| 99国产在线视频|