999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web檢索的陜北民歌語料庫設計

2010-04-12 00:00:00張統宣
現代電子技術 2010年22期

摘 要:運用語料庫語言學的基本觀點,探討陜北民歌語料庫構建原則及Web管理系統的設計實現設計了陜北民歌ACCess語料數據庫,其中包含全文語料數據表、句子語料數據表、陜北民歌詞表數據表共3個。介紹語料庫的在線檢索和管理功能,提出字詞頻統計功能和Web在線檢索功能實現的方法,開發基于ASP的陜北民歌開放性語料庫Web管理系統,用戶可以方便地通過IE瀏覽器進行語料檢索、詞頻統計、語料提取等操作。關鍵詞:語料庫; 陜北民歌; 頻度統計; Web檢索

中圖分類號:TN911-34; TP311 文獻標識碼:A

文章編號:1004-373X(2010)22-0038-02

Design of Folk Song Corpus Based on Web Retrieval

ZHANG Tong-xuan

(Management Office of South Campus, Weinan Teacher University, Weinan 714000, China)

Abstract: The structuring principle of folk song corpus of WEB management system is investigated with the basic features of corpus linguistics. The ACCess corpus database of folk songs of northern Shaanxi province is created, in which the full-text corpus form, the sentence corpus form and the lyric corpus form are contained. The online retrieval and management functions of the corpus are introduced. The implementation method of the word frequency statistics function and Web online retrieval function is proposed. The Web management system of the folk song corpus based on the ASP is developed. As a result, users can carry out the online retrieval, word frequency statistics and corpus extraction through IE browser.Keywords: corpus; folk song of northern Shaanxi province; frequency statistics; Web search

收稿日期:2010-06-28

基金項目:渭南師范學院2010專項基金資助項目(10YKZ055)

語料庫作為基礎研究是近年來應用語言學研究的一個重要發展。建立陜北民歌語料庫是一個浩大工程,也是陜北民歌研究取得新突破的基礎工程。陜北民歌是特定的時代、特定地理環境中的特定產物,是陜北勞動人民抒發感情的最好手段。陜北民歌研究始于20世紀初,到20世紀80年代中后期,在各個方面的研究都取得了不少成績[1]。不過,傳統研究往往著眼于作品的人文及藝術特征,研究者多半依靠自身良好的文化修養與“強聞博記”,憑感悟直接把握作品的內涵,對作品的語言全貌進行橫向或縱向的細密分析時,往往顯得力不從心[2]。20世紀80年代以來,隨著計算機應用技術的不斷發展,以語料庫為基礎的研究在語言學和計算機科學研究中都取得了豐碩的成果。無論是在語言學研究,還是在自然語言處理領域,語料庫都已經成為重要的基礎資源,發揮了越來越重要的作用。

1 陜北民歌語料庫設計

1.1 陜北民歌語料庫建設原則

語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現的書面語或口語樣本匯集而成,用來代表特定語言或語言變體。通過語料庫可以觀察和把握語言事實,分析和研究語言系統規律。語料庫已經成為語言學理論研究和語言工程不可缺少的基礎資源,對它的研究已發展成為一個跨世紀、跨學科的語言研究學科。

陜北民歌語料庫是“專用性語料庫”(Specialized Corpus),是為陜北民歌研究服務的。在語料樣本的選擇上,力求反映陜北民歌語言的真實面貌,以采集到的民歌原始文本作為樣本。單個語料樣本的大小是由原始文本的篇幅決定的,篇幅較小的原始樣本單獨成篇,作為一個樣本,篇幅較大的(如陜北說書、陜北道情等)則切分成大小相當的片斷,每個片斷作為一個樣本。這樣的語料樣本提供的上下文語境更為廣泛,更加適合進行語篇研究。在語料的代表性上,一是保持口語語料與書面語料的平衡,如實反映陜北民歌的基本面貌,語料庫以民間采集的口語文本為主,同時兼顧各種已經匯編出版的陜北民歌著作;二是保持方言語料與普通話語料的平衡,以采集當地原生態民歌(特別是采集年齡大、沒有接受過文化教育的老年人唱的土歌)為主,適當采集一些專業歌手的新陜北民歌。

1.2 陜北民歌語料數據庫設計

陜北民歌語料庫中樣本沒有進行語言屬性標注,建設的語料庫是“生語料庫”。根據研究者對語料庫的檢索要求,該語料庫設計研制了3個數據表,一是全文語料庫數據表,即每個語料庫樣本作為一條數據記錄存放在數據表中,以提供全文語境,方便于語篇的研究。檢索項包括篇章標題、作者、演唱者、流傳地區、體裁形式、內容分類以及篇章全文;二是將全文樣本切分成句子,然后將每個句子當1條數據記錄存放在數據表中,目的是進行句子單位的語言研究,可以實現詞語搭配、例句提取、句型檢索等;三是陜北民歌詞表數據表,此表是基于統計抽詞并結合劉育林編著的《陜北方言詞典》[3]、張崇編著的《陜西方言詞匯集》[4]等文獻典籍進行補充建立的,詞庫有2個主要字段:1個是詞條,1個是詞條使用頻度(該字段初始值為0,用來存放詞頻統計結果)。

2 陜北民歌語料庫語料的加工

語料庫的功能主要與3個因素有關,一是語料庫的規模;二是語料的分布;三是語料的加工程度。語料的加工主要指文本格式處理和文本描述,而語料加工的深度決定了這個語料庫能為使用者提供什么樣的語言學信息。沒有篇體描述信息的語料叫做生語料,經過詞語切分、詞性標注處理的語料可以獲得更多的語言學信息。陜北民歌語料數據庫共包括陜北民歌2 000余首,通過以詞語為單位的切分和標注詞性加工成熟語料。陜北民歌詞切分標注的基本加工規范是從詞義的整體性、詞結構的整體性和定型性、具體的語言環境等標準和參考《陜北方言詞典》、《陜西方言詞匯集》等工具書來確定的,同時從適合計算機處理的角度出發,把詞按詞性分類修訂為13大類:名詞n,動詞v,形容詞a,數詞m,量詞q,代詞r,副詞d,介詞p,連詞c,助詞u,嘆詞e,語氣詞y,擬聲詞o。名詞類可以分為時間詞t,方位詞f,人名nr和地名ns;按結構分為12大類:名詞性并列結構CN、動詞性并列結構CV、形容詞性并列結構CA、動賓結構VO、動補結構VC、主謂結構SP、名詞性偏正結構XN、動詞性偏正結構XV、形容詞性偏正結構XA、方位結構NF、數量結構MQ、介賓結構PO。為了得到高精度的加工結果,有效的方法是首先由機器進行初步切分,然后由人工進行校對。加工項目包括“詞切分”和“詞性標注”。例如對生語料《半夜里來了你這勾命的鬼》的切分和標注結果如下:

騎上/v 那個/r 毛驢/n 喲/y 狗/n 咬/v 腿/n ,/w 半夜里/t 來/v 了/u 你/r 這/r 勾/v 命/n 的/u 鬼/n 。/w

摟住/v 那個/r 親人/n 喲/e 親上個嘴/v ,/w 肚子/n 里/f 的/u 疙瘩/n 化/k 成/v 了/u 水/n 。/w

3 陜北民歌語料庫的Web管理

系統設計有語料庫查看和語料庫管理兩大功能。語料庫是開放的,所以任何用戶都可以通過Web在線進行查看,可以實現語料瀏覽、語料檢索、詞頻統計功能。語料庫管理是通過授權用戶進行管理,可以進行語料和詞表的添加、編輯、刪除等。

3.1 字詞頻統計功能的實現

字詞頻度統計是對全文數據記錄樣本文檔內容進行字詞頻度統計,并分析統計結果。

字頻統計是對多個漢字使用頻度的統計,實現方法是先取得全文樣本數據表里面存放的全部漢字字符串,然后依次取出1個漢字,根據漢字的內碼值和類型,將其內碼轉化為一維線性地址,該一維線性地址對應一個數組的下標,把對應數組項值加1,做累計操作,最后記錄這個漢字串的特征信息,并保存統計結果。

詞頻統計是對2個或2個以上漢字組成的詞的使用頻度進行統計。實現方法是先取得全文數據表里存放的漢字串,按最長優先匹配算法將漢字串進行自動切分成詞,詞的切分是基于詞表數據表這個基本詞庫,做累計操作,最后記錄特征信息[5]。

3.2 Web在線檢索功能的實現

該語料庫管理系統采用B/S結構,數據庫采用Access,檢索程序采用ASP語言編寫。檢索功能利用 SQL語句支持的 “like” 與 “%” 聯合使用的匹配方式,限定包含指定關鍵字的匹配條件。在數據庫查詢設計中采用了 ADO 2.0中 RECORDSET記錄集對象封裝的get string方法,提高數據庫查詢效率,即把輸出的全部結果放在一個很長的字符串里,服務器只需解釋一遍 Response.Write 語句[6]。通過ReplaceWith語句即可實現檢索字符串的高亮顯示。

該系統實現了全文模糊檢索、檢索結果分頁顯示及語料提取和詞頻統計。檢索字符串可以是簡體漢字的任意字符串,符合檢索條件的語料樣本均可分面顯示出來。顯示檢索結果時,檢索關鍵字紅色高亮顯示,以便快速找到關鍵詞在語料中的位置。進行句子語料數據庫檢索時,顯示結果進行“關鍵字居中”。所有檢索結果允許復制或保存。

4 結 語

構建基于文學研究的陜北民歌語料庫及Web管理系統,為陜北民歌的搜集整理、理論研究、開發利用提供了新的手段,打開新的領域,將為全國乃至全世界陜北民歌、語言文化研究者提供豐富、有價值的第一手資料,為保護和搶救陜北民歌這一人類文化瑰寶,搶救性地發掘這一逐漸消失的文化中的活化石,加強陜西的對外文化交流做出新的貢獻。該語料庫目前收集了各類體裁陜北民歌樣本2 000多首,是國內首個專門為陜北民歌研究設計的完全開放性語料庫和Web管理系統。“從方法論的角度,它不僅可以用于研究語言系統的各個層面,而且可以應用于語言學之外的其他領域”[7]。本語料庫方法在未來保護、研究各民族民歌工作中有極大的推廣價值。

參考文獻

[1]王克文.陜北民歌藝術初探[M].北京:中國民間藝術出版社,1986.

[2]胡友筍.陜北民歌研究的現狀與問題[J].交響:西安音樂學院學報,2008(1):27-31.

[3]劉育林,安宇柱.陜北方言詞典[M].西安:陜西人民出版社,1991.

[4]張崇.陜西方言詞匯集[M].西安:西安交通大學出版社,2007.

[5]周麗琴,楊季文,呂強.基于Web的字詞頻統計程序的設計與應用[J].蘇州大學學報:自然科學,2002(1):38-44.

[6]張統宣.基于網絡數據庫的植物志管理系統設計[J].計算機與數字工程,2010(1):46-48.

[7]丁信善.語料庫語言學的發展及研究現狀[J].當代語言學,1998(1):4-12.

主站蜘蛛池模板: 成人免费一区二区三区| 午夜视频日本| 欧美区一区| 成人免费午夜视频| 中文字幕在线日韩91| 欧美精品啪啪一区二区三区| 国产极品美女在线播放| 国产精品偷伦视频免费观看国产| 国产av一码二码三码无码| 最新亚洲av女人的天堂| 欧美α片免费观看| 国产你懂得| 91视频首页| 婷婷色一二三区波多野衣| 3D动漫精品啪啪一区二区下载| 人妻无码一区二区视频| 亚洲永久视频| 伊伊人成亚洲综合人网7777| 奇米影视狠狠精品7777| 久久影院一区二区h| 99精品国产电影| 欧美日韩在线成人| 亚洲欧美另类中文字幕| 日韩AV无码免费一二三区| 国产理论最新国产精品视频| 99色亚洲国产精品11p| 伊人久久大香线蕉成人综合网| 亚洲an第二区国产精品| 亚洲无线视频| 精品乱码久久久久久久| 国产免费久久精品44| 青青草a国产免费观看| 欧美精品亚洲精品日韩专区va| 一级黄色网站在线免费看| 天天综合天天综合| 亚洲欧美色中文字幕| 欧美亚洲国产精品久久蜜芽| 日韩 欧美 国产 精品 综合| 欧美激情视频一区二区三区免费| 亚洲区第一页| 欧美一区二区三区国产精品| 国产成人AV大片大片在线播放 | 婷婷伊人五月| 狠狠久久综合伊人不卡| 亚洲最大福利网站| 国产正在播放| 亚洲第一av网站| 99精品在线看| 伊人色天堂| 日韩中文字幕免费在线观看 | 国产av色站网站| 久久国产拍爱| 无码视频国产精品一区二区| 欧美va亚洲va香蕉在线| 2022国产无码在线| 国产96在线 | 亚洲国内精品自在自线官| 亚洲成人播放| 在线观看免费黄色网址| 国产一级α片| 日韩精品中文字幕一区三区| 成人字幕网视频在线观看| 亚洲一区二区三区中文字幕5566| 亚洲91精品视频| 婷婷色狠狠干| 亚卅精品无码久久毛片乌克兰| 日韩天堂在线观看| 人禽伦免费交视频网页播放| 亚洲日韩图片专区第1页| 免费女人18毛片a级毛片视频| 国产男女免费视频| 永久免费av网站可以直接看的| 国产不卡网| 国产高清免费午夜在线视频| 国产亚洲欧美在线中文bt天堂 | 波多野结衣久久高清免费| 久996视频精品免费观看| 国产综合色在线视频播放线视| 天堂亚洲网| 亚洲欧美日韩成人在线| 亚洲天堂免费在线视频| 欧美不卡在线视频|