999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于國(guó)內(nèi)現(xiàn)存文本語(yǔ)料庫(kù)規(guī)范化的現(xiàn)狀研究及改進(jìn)

2016-11-11 02:57:12孫溫穩(wěn)
河南科技 2016年11期
關(guān)鍵詞:規(guī)范化可視化文本

孫溫穩(wěn)

(鄭州師范學(xué)院信息科學(xué)與技術(shù)學(xué)院,河南 鄭州 450044)

基于國(guó)內(nèi)現(xiàn)存文本語(yǔ)料庫(kù)規(guī)范化的現(xiàn)狀研究及改進(jìn)

孫溫穩(wěn)

(鄭州師范學(xué)院信息科學(xué)與技術(shù)學(xué)院,河南鄭州450044)

當(dāng)前國(guó)內(nèi)對(duì)于文本可視化的研究還停留在初級(jí)階段,存在著許多方法處理文本語(yǔ)料庫(kù)。隨著科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)變得越來(lái)越普及,人們可以從網(wǎng)絡(luò)上獲得大量的文本資料信息,本文主要針對(duì)如何獲取序列化、規(guī)范化的漢語(yǔ)的語(yǔ)料庫(kù)提出了一種新的框架。

語(yǔ)料庫(kù);工具包;文本規(guī)范化

1 文本可視化概述

目前國(guó)內(nèi)對(duì)于文本可視化的研究還處在初級(jí)階段,主要停留在新技術(shù)的發(fā)展和新系統(tǒng)開(kāi)發(fā)等方面。對(duì)于文本集合可視化系統(tǒng),先通過(guò)文本采集模塊、中文分詞模塊、特征詞權(quán)重計(jì)算模塊和XML文件組織模塊構(gòu)成本地?cái)?shù)據(jù)庫(kù),然后通過(guò)可視化圖形界面模塊與本地?cái)?shù)據(jù)庫(kù)的接口交互,對(duì)用戶的檢索關(guān)鍵詞圖形化地顯示結(jié)果。其中,文本采集模塊在互聯(lián)網(wǎng)上搜集網(wǎng)頁(yè)文本,將采集到的文本作為原始數(shù)據(jù)源傳入中文分詞模塊;中文分詞模塊,對(duì)文本采集模塊中得到的文本內(nèi)容進(jìn)行分詞處理,獲得以詞為單位的語(yǔ)料,并統(tǒng)計(jì)詞頻,保存在本地文本,供后續(xù)的詞語(yǔ)權(quán)重計(jì)算模塊讀取詞頻信息計(jì)算權(quán)重;詞語(yǔ)權(quán)重計(jì)算模塊,用于對(duì)分詞后的結(jié)果進(jìn)行特征抽取即特征詞權(quán)重的計(jì)算,將計(jì)算結(jié)果連同對(duì)應(yīng)的特征詞,以及所在文本的標(biāo)題交給XML文件組織模塊;可視化圖形界面模塊以上述XML文件組織模塊保留在本地的結(jié)果數(shù)據(jù)為基本語(yǔ)料庫(kù),通過(guò)與用戶的交互取得用戶命令,并顯示出結(jié)果。

2 文本語(yǔ)料庫(kù)規(guī)范化概述

文本可視化涉及到信息采集,隨著科學(xué)技術(shù)的逐步發(fā)展,網(wǎng)絡(luò)也變得越來(lái)越普及。而絕大部分信息就分布在遍及世界各地大大小小的網(wǎng)站上,所以如何從互聯(lián)網(wǎng)上獲取信息并進(jìn)行規(guī)范化就變得迫在眉睫。本文著重講述提出一個(gè)新的框架用來(lái)處理和規(guī)范多語(yǔ)種文本語(yǔ)料庫(kù),為了擴(kuò)大語(yǔ)料庫(kù)的來(lái)源,可以直接創(chuàng)建互聯(lián)網(wǎng)的接口,將網(wǎng)頁(yè)作為語(yǔ)料庫(kù)的直接來(lái)源[1]。

文本語(yǔ)料庫(kù)收集需要一個(gè)加工步驟才能構(gòu)成所需要的序列,這種序列可用于語(yǔ)音的識(shí)別和對(duì)話,比如在感知空間用多種方式交互的語(yǔ)音處理等。XML被構(gòu)想成為一門獨(dú)立的語(yǔ)言,其可提供一種可能性在同一個(gè)文件中能存儲(chǔ)多種語(yǔ)音。對(duì)一種已知的語(yǔ)言,且對(duì)于相同的一個(gè)語(yǔ)句,可以一樣地保存多種語(yǔ)言層次的分析。比如一篇文獻(xiàn)的整體包括作者、標(biāo)題、日期、正文等,正文部分可被劃分成為一些段落和一些語(yǔ)句。我們可保存這些原始的語(yǔ)句,然后將這些語(yǔ)句進(jìn)一步劃分詞、音節(jié)、短語(yǔ);將文本信息格式化成XML的形式,其將為我們提供一種適用于文本文件的模本化、序列化的形式,這種形式將帶來(lái)一系列的好處,快速、便利地開(kāi)發(fā)和使用。比如,當(dāng)需要增加、修改、提取一些新的模本時(shí),將會(huì)變得非常容易。而且這些模本將會(huì)使從一種語(yǔ)言變成另一種語(yǔ)言變得非常容易。文本信息以標(biāo)準(zhǔn)化、模塊化的形式存在,一方面能繼承一些工具集中處理、加工的特性,另一方面將能夠快速、特定地適用于其他工具的處理。當(dāng)一種語(yǔ)言翻譯成另一種語(yǔ)言時(shí),可以繼承兩種語(yǔ)言一些共有的部分,而且使得每種語(yǔ)言固有的模塊進(jìn)行匹配[2]。

本文提出了一種通用XML格式的文本語(yǔ)料庫(kù)和介紹了一些工具轉(zhuǎn)換,規(guī)范多語(yǔ)種文本語(yǔ)料庫(kù)。更具體地說(shuō),在工作中,一個(gè)基于XML的文本語(yǔ)料庫(kù)是一套文件,包括描述(作者、標(biāo)題、等)和文字內(nèi)容。文件的內(nèi)容將分解成段落和句子。在句子層面把原來(lái)的句子(因?yàn)檫@是寫在源文件)進(jìn)一步分解成為短語(yǔ)、詞、語(yǔ)素、音節(jié)等,當(dāng)然也涉及一些額外的信息,如引理、詞性或類。

3 語(yǔ)言GAWK編寫程序的應(yīng)用

將原始的中文網(wǎng)頁(yè)轉(zhuǎn)化成為一個(gè)可行的電子語(yǔ)料庫(kù),這需要編寫許多應(yīng)用程序來(lái)實(shí)現(xiàn)。所有程序都是使用語(yǔ)言GAWK編寫程序來(lái)實(shí)現(xiàn)的,包括文件的過(guò)濾、處理、加工、轉(zhuǎn)化成XML形式等。同樣的一件工作,以gawk程式來(lái)寫會(huì)比用其他程式語(yǔ)言來(lái)寫短很多。下面介紹所需要做的一些工作。

3.1將原始的文本信息轉(zhuǎn)換成為結(jié)構(gòu)化的文件

中文網(wǎng)頁(yè)的編碼一般使用GB2312,而我們的工作環(huán)境是LINUX,它不能處理使用編碼GB2312的文件,所以進(jìn)行編碼的轉(zhuǎn)換,由GB2312轉(zhuǎn)換為UTF-8??墒褂胕conv命令將一種編碼形式轉(zhuǎn)換成另一種形式。具體的工作中可以創(chuàng)建一個(gè)工具箱,在工具箱內(nèi)創(chuàng)建許多文件,這些文件分別實(shí)現(xiàn)不同的功能最終可以將原始的語(yǔ)料庫(kù)逐步規(guī)范成所需要的序列化的語(yǔ)料庫(kù)。下面分別介紹這些文件的功能,其中HtmltoText.awk將輸入的文件utf-8編碼格式的HTML文件轉(zhuǎn)換成為一個(gè)特定的格式化的XML文件,在XML文件中可以建立許多標(biāo)簽分別用來(lái)存放網(wǎng)頁(yè)上不同類別的信息。比如,中文網(wǎng)頁(yè)上導(dǎo)航欄上的信息可以放在XML文件中的標(biāo)簽中,再者“<>< >‘表示網(wǎng)頁(yè)上一個(gè)新的段落開(kāi)始,’<>”表示網(wǎng)頁(yè)上一個(gè)新的句子開(kāi)始。具體目標(biāo)文件內(nèi)容格式如下所示(以網(wǎng)頁(yè)作為原始的HTML文件)。

3.2將結(jié)構(gòu)化的文件進(jìn)一步進(jìn)行其他形式的轉(zhuǎn)換

Text2XML.awk將上一步生成的XML文件(exple.1)進(jìn)一步規(guī)范化。在上一個(gè)步驟中將網(wǎng)頁(yè)上的內(nèi)容分成了許多段落,在這個(gè)階段中將每一個(gè)段落分離成為多個(gè)句子??稍赬ML文件中繼續(xù)添加一些標(biāo)簽,如標(biāo)簽中放置被分離的句子。SplitOrig2Wd.awk可將上一步分離出的句子再進(jìn)一步分割成每一個(gè)中國(guó)字符,為了實(shí)現(xiàn)這個(gè)功能可向這一階段生成的目標(biāo)文件中增添一系列的標(biāo)簽如,將每個(gè)字加入到這些標(biāo)簽中。如、等。Stick.awk根據(jù)已創(chuàng)建Lexique-cn.vocab中文詞典文件(這本詞典主要包括2個(gè)字的詞匯象中國(guó)、美國(guó)、經(jīng)濟(jì)等之類常用詞匯)將已經(jīng)分割成的中文字符(也就是每一個(gè)字)粘貼成詞匯。這一步在執(zhí)行過(guò)程中,有一個(gè)重要的規(guī)則需要用到,粘貼成一個(gè)詞的順序是以每一個(gè)字出現(xiàn)在原始句子中的先后順序?yàn)榍疤岬?。要粘貼成2個(gè)字的詞匯,如果一個(gè)句子中包含“ABC”,而字典中既有“AB”這個(gè)詞,也有“BC”這個(gè)詞匯,那么在粘貼成詞匯時(shí),選擇的是前者即“AB”,而不是后者即“BC”。Num2Letter.awk要將上一步所產(chǎn)生的目標(biāo)文件當(dāng)中的阿拉伯?dāng)?shù)字轉(zhuǎn)換成為中文形式,比如50轉(zhuǎn)換成為伍拾等。Remove.awk鑒于詞匯,一些文字中的標(biāo)點(diǎn)符號(hào),可以從文檔中移除。

上面所建立的工具包主要應(yīng)用于對(duì)中文文本語(yǔ)料庫(kù)的規(guī)范化,也可以對(duì)工具包進(jìn)行擴(kuò)展用于加入其他一些功能或者是對(duì)其他的一些語(yǔ)言進(jìn)行規(guī)范化??舍槍?duì)其他語(yǔ)言與漢語(yǔ)的不同之處,對(duì)程序進(jìn)行相應(yīng)的修改,很容易就能獲取一個(gè)新的模塊用以處理其他語(yǔ)言。目前存在著許多方法處理文本語(yǔ)料庫(kù),但是本文描述的該工具包可獲得一個(gè)完整、清潔和統(tǒng)一版本不同語(yǔ)言的文本語(yǔ)料庫(kù)。

[1]Brigitte Bigi,Viet-Bac Le.Normalisation et alignement de corpus fran?ais etvietnamiens:Format et Logiciels[J].JADT,2008(9):199-207.

[2]Habert B,F(xiàn)abre C,Issac F.De l'écrit au numérique:constituer,normaliser,exploiter lescorpus électroniques[J].Paris:InterEditions-Masson,1998.

Research and Improvement on the Current Situation of the Standardization of the Existing Text Corpus in China

Sun Wenwen
(Information Science&Technology College,Zhengzhou Normal University,Zhengzhou Henan 450044)

The current domestic for text visualization research still stays in the primary stage,there are many ways to deal with text corpus.With the continuous development of science and technology,network has become more and more popular.We can get a lot of text information from the Internet,this paper focusedon how to obtain the serialization and standardization of the corpus of Chinese to propose a new framework.

corpus;toolkit;text normalization

TP311

A

1003-5168(2016)06-0019-02

2016-05-21

孫溫穩(wěn)(1974-),女,碩士,助理經(jīng)濟(jì)師,研究方向:人工智能。

猜你喜歡
規(guī)范化可視化文本
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
在808DA上文本顯示的改善
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
價(jià)格認(rèn)定的規(guī)范化之路
商周刊(2017年23期)2017-11-24 03:24:09
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
狂犬?、蠹?jí)暴露規(guī)范化預(yù)防處置實(shí)踐
高血壓病中醫(yī)規(guī)范化管理模式思考
主站蜘蛛池模板: 精久久久久无码区中文字幕| 99久久精品久久久久久婷婷| 性欧美在线| 亚洲第一页在线观看| 久久这里只有精品66| 亚洲欧美日韩另类在线一| 91系列在线观看| 国产成人综合亚洲欧洲色就色| av大片在线无码免费| 国产欧美日韩专区发布| 久久永久免费人妻精品| 久久久波多野结衣av一区二区| 日韩欧美色综合| 亚洲国产精品久久久久秋霞影院| 五月婷婷综合网| 久久精品国产一区二区小说| 亚洲综合色在线| a色毛片免费视频| 全部毛片免费看| 免费在线看黄网址| 91小视频在线| 亚洲欧美另类中文字幕| 国产欧美性爱网| 国产91熟女高潮一区二区| lhav亚洲精品| 国产成人免费手机在线观看视频| 欧美www在线观看| 欧美日韩一区二区三区在线视频| 国产拍在线| 丁香六月激情综合| 毛片网站免费在线观看| 国产AV毛片| 国产成人无码AV在线播放动漫 | 第一页亚洲| 999国产精品永久免费视频精品久久| 99免费在线观看视频| 免费人成在线观看成人片| 精品少妇人妻无码久久| 啦啦啦网站在线观看a毛片| 日韩欧美国产三级| 精品福利网| 999国内精品视频免费| 亚洲黄色视频在线观看一区| 国产手机在线ΑⅤ片无码观看| 国产乱人乱偷精品视频a人人澡| 熟女日韩精品2区| 伊人丁香五月天久久综合| 制服丝袜国产精品| jizz国产在线| 久久精品人人做人人爽97| 91无码网站| 欧美精品一二三区| 精品福利一区二区免费视频| 久久婷婷综合色一区二区| 呦女精品网站| 欧美精品在线免费| 亚洲首页国产精品丝袜| 亚洲男人的天堂久久香蕉| 国模极品一区二区三区| 欧美伊人色综合久久天天| 亚洲成人免费看| 亚洲天堂高清| 亚洲免费黄色网| 中文字幕第4页| 依依成人精品无v国产| 亚洲综合色婷婷| 精品福利视频网| 久久国产精品77777| 伊人欧美在线| 国产精品嫩草影院视频| 真人高潮娇喘嗯啊在线观看| 国产欧美中文字幕| 九九热精品在线视频| 青草精品视频| igao国产精品| 亚国产欧美在线人成| 日韩精品中文字幕一区三区| AV无码无在线观看免费| 国产欧美日韩综合在线第一| 亚洲成人网在线播放| vvvv98国产成人综合青青| 91视频区|