基于電子商務(wù)時(shí)代的中文字典數(shù)據(jù)庫(kù)生成設(shè)計(jì)

2016-12-23 11:18:42范萍

電子設(shè)計(jì)工程 2016年24期

關(guān)鍵詞：數(shù)據(jù)庫(kù)分析設(shè)計(jì)

范萍

（陜西職業(yè)技術(shù)學(xué)院陜西西安710038）

基于電子商務(wù)時(shí)代的中文字典數(shù)據(jù)庫(kù)生成設(shè)計(jì)

范萍

（陜西職業(yè)技術(shù)學(xué)院陜西西安710038）

近幾年，隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，人們逐漸進(jìn)入電子商務(wù)時(shí)代，在網(wǎng)絡(luò)環(huán)境下必須注意發(fā)展電子字典經(jīng)濟(jì)，拓展中文字典智能化功能。中文字典在設(shè)計(jì)的過(guò)程中每個(gè)屬性都需要手工識(shí)別、計(jì)算和生成到漢子數(shù)據(jù)庫(kù)中，給系統(tǒng)帶來(lái)較大的麻煩。而進(jìn)行較好的數(shù)據(jù)庫(kù)生成設(shè)計(jì)能夠解決數(shù)據(jù)庫(kù)生成困難等問(wèn)題，提高工作效率。本文基于電子商務(wù)環(huán)境分析中文字典數(shù)據(jù)庫(kù)生成設(shè)計(jì)，采用數(shù)據(jù)庫(kù)生成算法結(jié)合其實(shí)現(xiàn)方式，得出中文字典數(shù)據(jù)庫(kù)生成設(shè)計(jì)步驟實(shí)施證明這種方法能夠?qū)⑾到y(tǒng)處理效率可達(dá)到50%以上。

電子商務(wù)；中文字典數(shù)據(jù)庫(kù)；生成設(shè)計(jì)

信息技術(shù)迅速發(fā)展，帶動(dòng)我國(guó)各行各業(yè)經(jīng)濟(jì)的發(fā)展。中文信息處理技術(shù)發(fā)展迅速，這種技術(shù)主要是利用計(jì)算機(jī)對(duì)漢語(yǔ)信息進(jìn)行有效的處理，但是由于漢字屬性比較復(fù)雜，而這些漢字字典又是中文字典中必不可少的因素，在分析、計(jì)算的過(guò)程中容易出現(xiàn)錯(cuò)誤，降低工作效率。而在電子商務(wù)環(huán)境下，信息技術(shù)的應(yīng)用能夠通過(guò)對(duì)已有工具、技術(shù)的應(yīng)用和分析，利用漢字信息的生產(chǎn)算法解決問(wèn)題，從而能夠有效提高工作效率。文中主要分析的是中文字典數(shù)據(jù)庫(kù)生成設(shè)計(jì)方法。

1 系統(tǒng)結(jié)構(gòu)分析

中文字典數(shù)據(jù)庫(kù)系統(tǒng)采用的是典型的Mediated系統(tǒng)提攜結(jié)構(gòu)，引入數(shù)據(jù)字典后的數(shù)據(jù)庫(kù)結(jié)構(gòu)如圖1所示。數(shù)據(jù)集成系統(tǒng)一般主要通過(guò)中介模式將各個(gè)部分的數(shù)據(jù)源的數(shù)據(jù)集成起來(lái)，而整個(gè)系統(tǒng)的數(shù)據(jù)仍然存儲(chǔ)在各個(gè)局部數(shù)據(jù)源中，通過(guò)包裝器對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換[1-3]。用戶在利用數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)查詢的過(guò)程中能根據(jù)局部數(shù)據(jù)源模式進(jìn)行一系列的查詢，引入本體層以后，中介器將對(duì)用戶的查詢進(jìn)行分析，并提取有效信息進(jìn)行查詢，并將查詢結(jié)果反饋到中介器中重新組合查詢，并對(duì)每個(gè)數(shù)據(jù)庫(kù)進(jìn)行結(jié)果數(shù)據(jù)分析，將符合數(shù)據(jù)可使用要求的信息反饋出現(xiàn)，解決數(shù)據(jù)源數(shù)據(jù)更新問(wèn)題，降低系統(tǒng)工作效率[4-5]。

圖1 系統(tǒng)結(jié)構(gòu)框架圖

2 中文字典數(shù)據(jù)庫(kù)生成分析

2.1 數(shù)據(jù)庫(kù)生成思路

在電子商務(wù)時(shí)代，電子字典數(shù)據(jù)庫(kù)生成以后，必須將其匯總到總數(shù)據(jù)庫(kù)中進(jìn)行統(tǒng)一的分析，以便能夠更好的生成中文字典數(shù)據(jù)庫(kù)。目前，我國(guó)數(shù)據(jù)庫(kù)技術(shù)已經(jīng)相當(dāng)成熟，下一步的主要進(jìn)度是將生成的數(shù)據(jù)庫(kù)進(jìn)行進(jìn)一步的分析和研究，重視數(shù)據(jù)庫(kù)本身的發(fā)展。由于漢字的復(fù)雜性，需要大量的手術(shù)操作技術(shù)，如果自動(dòng)生成一些部分的數(shù)據(jù)，可能會(huì)使系統(tǒng)建立生成更加具有效率。一般情況下，在電子詞典中漢字要素包含：簡(jiǎn)體字、ID、拼音、聲調(diào)、內(nèi)碼、偏旁、筆劃、注釋以及拼音等[6-7]。而在電子字典數(shù)據(jù)庫(kù)的開(kāi)發(fā)中，要注意Windows程序開(kāi)發(fā)難度分析，而操作系統(tǒng)的提供的應(yīng)用程序接口直接關(guān)系著程序開(kāi)發(fā)的難易程度。

2.2 GB2312字庫(kù)全集的生成

GB2312編碼是我國(guó)漢字信息專用編碼，收錄的漢字信息比較多，比如字母、簡(jiǎn)體化漢字等圖形字符，中文字典的漢字收集數(shù)量比較龐大，能夠達(dá)到6763個(gè)漢字收集數(shù)，中文字典字庫(kù)中的所有漢字字均按照區(qū)位分步法進(jìn)行分析，可以將她們分為A1-FF區(qū)進(jìn)而位，然后生成中文字典字庫(kù)文件，生成字庫(kù)的主要代碼如下：

3 中文字典數(shù)據(jù)庫(kù)生成設(shè)計(jì)分析

3.1 數(shù)據(jù)庫(kù)維護(hù)設(shè)計(jì)

在電子商務(wù)環(huán)境發(fā)展下，中文字典的基礎(chǔ)數(shù)據(jù)庫(kù)形式為SMART軟件核心構(gòu)成部位，其是該軟件中的一個(gè)重要字典，它的主要數(shù)據(jù)結(jié)構(gòu)字段見(jiàn)表1。從表1中我們可以看出車站代碼和電報(bào)略碼均具有唯一性，能夠用于記錄數(shù)據(jù)，如果將電報(bào)簡(jiǎn)碼作為主鍵處理，根據(jù)不同的需求，車站名稱和站名簡(jiǎn)稱兩個(gè)字段用于顯示和報(bào)表；根據(jù)輸入方式的不同，設(shè)置不同的輸入碼處理方式，并且將拼音略碼和電報(bào)略碼的用于標(biāo)明字典或其他字典關(guān)系，車站等級(jí)主要用于標(biāo)記車站所述范圍，起始有效期和終止有效期主要用于數(shù)據(jù)有局限性的字典[9-10]。處理這些關(guān)鍵技術(shù)以外，為了提高字典訪問(wèn)下來(lái)，還要按照站名略碼及車站名稱建立多個(gè)索引。字典的維護(hù)與一個(gè)普通表的形式滅有太大的區(qū)別，但是SMRAT系統(tǒng)中這種字典一般數(shù)據(jù)數(shù)據(jù)字典，必須有專用軟件進(jìn)行專門的維護(hù)和管理[11]。另外，還要注意基礎(chǔ)字典本身在建立過(guò)程中漢字的輸入只能在Windows操作系統(tǒng)提供的中文輸入法中進(jìn)行。

表1 字典Station主要數(shù)據(jù)結(jié)構(gòu)

3.2 數(shù)據(jù)庫(kù)查詢模塊設(shè)計(jì)

在電子商務(wù)數(shù)據(jù)分析環(huán)境下，數(shù)據(jù)字典存儲(chǔ)在服務(wù)器中，能夠在前臺(tái)應(yīng)用中采用用嵌入式SQL語(yǔ)句進(jìn)行數(shù)據(jù)查詢，這種數(shù)據(jù)查詢功能的實(shí)現(xiàn)一般在存儲(chǔ)過(guò)程中實(shí)現(xiàn)[12-13]。在數(shù)據(jù)庫(kù)生成系統(tǒng)實(shí)際應(yīng)用中擦用數(shù)據(jù)緩沖技術(shù)實(shí)現(xiàn)數(shù)據(jù)查詢。此技術(shù)實(shí)現(xiàn)的方法首先是在本地設(shè)置一個(gè)高速數(shù)據(jù)緩沖區(qū)，進(jìn)行數(shù)據(jù)檢索的過(guò)程中首先判定數(shù)據(jù)是否在緩沖區(qū)，然后根據(jù)具體情況在緩沖區(qū)實(shí)施數(shù)據(jù)檢索。這種檢索方法能夠有效減少服務(wù)器下端數(shù)據(jù)數(shù)量，提高工作效率。同時(shí)能夠減少與服務(wù)器的交互次數(shù)，改善服務(wù)器性能[14]。

3.3 字典表自定義數(shù)據(jù)錄入模塊設(shè)計(jì)

數(shù)據(jù)錄入模塊的主要設(shè)計(jì)思路是根據(jù)后臺(tái)數(shù)據(jù)維護(hù)程序利用字典表進(jìn)行數(shù)據(jù)錄入程序設(shè)計(jì)思路的構(gòu)想，是設(shè)計(jì)實(shí)現(xiàn)步驟如下：首先編寫數(shù)據(jù)字典查詢所用的存儲(chǔ)過(guò)程代碼，并在數(shù)據(jù)庫(kù)中建立該存儲(chǔ)過(guò)程[15]；其次在窗口設(shè)計(jì)窗組件中用于顯示查詢結(jié)構(gòu)集，能夠直接選用上面的存儲(chǔ)過(guò)程作為數(shù)據(jù)源，并指定用戶輸入碼為被動(dòng)參數(shù)，然后在應(yīng)用程序界面設(shè)置一個(gè)名為Sle-station-name的單行編輯器組件用于顯示站名，而后再設(shè)計(jì)一個(gè)名為sle shortcode單行編輯器組件用于輸入站名略碼；而后為事件編寫腳本：dw_dictiotmryretrieve（sleshortcode text）；最后利用自定義的輸入碼進(jìn)行字段輸入分析。

4 數(shù)據(jù)庫(kù)生成實(shí)現(xiàn)方案

中文電子字典的實(shí)現(xiàn)主要包含核心技術(shù)和檢索效率等方面的設(shè)計(jì)，首先我們應(yīng)該考慮的是如何生成和維護(hù)數(shù)據(jù)庫(kù)，另一個(gè)需要我們考慮的問(wèn)題是如何快速有的對(duì)數(shù)據(jù)進(jìn)行檢索。數(shù)據(jù)庫(kù)的生產(chǎn)方法采用的是轉(zhuǎn)換算法[16]，漢字之間的一一對(duì)應(yīng)關(guān)系可以通過(guò)API編程獲得。同時(shí)利用記事本和IE生成漢字CB2312編碼及其之間的對(duì)應(yīng)關(guān)系表。

4.1 字符映射表的讀取

字符映射表程序的主要功能是漢字編碼與漢字之間的映射表，在高級(jí)查看分組里按照偏旁部首排序方法和拼音分類排序方法列出字符映射表。在映射表中利用光鍵盤單機(jī)S鍵，將漢字編碼選擇到“復(fù)制字符”文本中，將所選擇的的漢字復(fù)制到剪貼板里。上述操作手術(shù)操作可以實(shí)現(xiàn)，編程模擬也可以實(shí)現(xiàn)，首先準(zhǔn)確的找到字符映射表，及其控件，通過(guò)WindWindow函數(shù)找到字符映射表，這些窗口會(huì)記錄下需要發(fā)送的消息。找到所需窗口以后，查找窗口中的空間，通過(guò)編寫函數(shù)中文字典中字符映射表的讀取，而后根據(jù)一定的條件尋找字符映射表的控件，找到以后應(yīng)用GetClassName讀取字符映射表的類名。然后進(jìn)行代碼分析，具體的分析過(guò)程不再敘述，經(jīng)過(guò)代碼分析后升本文本格式控制，并保存好臨時(shí)文件，并將這些信息在兩個(gè)窗口之間連續(xù)轉(zhuǎn)換，而后進(jìn)行信息延時(shí)處理，再分析窗口設(shè)置問(wèn)題，以便能夠更好的設(shè)置字符映射分析和讀取。另外，拼音、偏旁的讀取方法和字符映射表的讀取方式比較相似，在這里我們就不再一一詳細(xì)說(shuō)明。

4.2 Unicode的讀取

在中文字典數(shù)據(jù)庫(kù)生成設(shè)計(jì)中Unicode的讀取比偏旁讀取更簡(jiǎn)單，用戶只需要找到CharGridWClass類窗口后連續(xù)發(fā)送右移消息。并將這些消息保存生成漢字就可以是想其正確讀取。Unicode讀取方式也有和偏旁讀取不同的地方，比如Unicode讀取只需要對(duì)漢字或該漢字的Unicode碼進(jìn)行對(duì)應(yīng)關(guān)系的分析，成員設(shè)計(jì)的順序并沒(méi)有那么重要。這個(gè)設(shè)計(jì)要點(diǎn)的實(shí)現(xiàn)比較容易，主要是因?yàn)樽址成浔碇械臐h字表排列的順序往往是根據(jù)Unicode碼順序?qū)嵤┑脑敿?xì)排列，所以，我們?cè)谶M(jìn)一步分析的過(guò)程中僅僅需要知道一個(gè)漢字的Unicode碼就能夠?qū)⑵渌麧h字的編碼推算預(yù)測(cè)出來(lái)[17]。同時(shí)在讀取的過(guò)程中為了提高效率，可以手工選擇字符集，然后利用漢字“一”實(shí)現(xiàn)中文字符的查找，同時(shí)相關(guān)人員要在程序修改方面制定漢字“一”的編碼，這樣有利于中文字符的編寫，我們?cè)诜治龅倪^(guò)程中將漢字編碼設(shè)置為16進(jìn)制4E00，在讀取的過(guò)程中每次讀到漢字“一”后編碼會(huì)自動(dòng)加一，這樣就能夠?qū)崿F(xiàn)中文字典的自動(dòng)化程序管理和讀取。

5 結(jié)束語(yǔ)

在電子商務(wù)環(huán)境下，數(shù)據(jù)分析技術(shù)迅速發(fā)展，漢字?jǐn)?shù)據(jù)庫(kù)體系結(jié)構(gòu)分析直接關(guān)系著中文電子字典數(shù)據(jù)庫(kù)生成情況。在實(shí)際操作中往往由于換這妮子數(shù)據(jù)庫(kù)信息量比較大，數(shù)據(jù)分析結(jié)構(gòu)復(fù)雜等因素，降低工作效率，為了解決以上問(wèn)題，必須實(shí)現(xiàn)中文字典數(shù)據(jù)庫(kù)生成設(shè)計(jì)模式，解決漢字錄入困難、工作效率低等問(wèn)題，根據(jù)各種模塊的設(shè)計(jì)和實(shí)現(xiàn)，提高中文字典數(shù)據(jù)庫(kù)生成效率和質(zhì)量。緩解數(shù)據(jù)庫(kù)生成中遇到的各種問(wèn)題，并在字典數(shù)據(jù)庫(kù)中實(shí)現(xiàn)其價(jià)值。

[1]徐尤南.大型數(shù)據(jù)字典在客戶/服務(wù)器環(huán)境下的應(yīng)用[J].計(jì)算機(jī)工程，2001，27（7）:161-163，169.

[2]杜根遠(yuǎn)，李瑞民，苗放，等.中文電子字典數(shù)據(jù)庫(kù)生成算法研究[J].計(jì)算機(jī)工程與設(shè)計(jì)，2009，30（17）:4134-4137.

[3]王艷.族性結(jié)構(gòu)的計(jì)算機(jī)輔助標(biāo)引及結(jié)構(gòu)詞典的建立[D].大連：大連理工大學(xué)，2006.

[4]蔡冬林.基于ACCESS數(shù)據(jù)庫(kù)的船舶動(dòng)力裝置故障診斷專家系統(tǒng)[D].上海：上海海事大學(xué)，2004.

[5]張海江.Android平臺(tái)下手機(jī)資源搜索系統(tǒng)的研究與設(shè)計(jì)[D].金華：浙江師范大學(xué)，2013.

[6]劉國(guó)峰.面向關(guān)系數(shù)據(jù)庫(kù)的模式匹配方法研究[D].哈爾濱：哈爾濱工程大學(xué)，2013.

[7]馬麗艷，郭子平，程慧芬等.數(shù)據(jù)庫(kù)英文字段的中文顯示研究[J].計(jì)算機(jī)應(yīng)用與軟件，2007，24（4）:168-170.

[8]侯筱婷，蘇變萍，魯萍，等．建設(shè)法規(guī)政策知識(shí)庫(kù)智能化查詢分析與設(shè)計(jì)[J]．微電子學(xué)與計(jì)算機(jī)，2012（6）：176-177．

[9]TUCK N，SHERWOOD T，CALDER B，et a1．Deterministic memory-efficient string matching algorithms for intrusiondetection[C]．IEEE INFOCOM 2004，2004：333-340．

[10]杜旭，邱慶哲，黃建．基于FPGA的字符串匹配算法[J]．微電子學(xué)與計(jì)算機(jī)，2010，25（3）：91-94．

[11]孫春風(fēng)，馮徑，王占豐.基于本體數(shù)據(jù)字典的異構(gòu)數(shù)據(jù)庫(kù)集成方法[J].計(jì)算機(jī)與信息技術(shù)，2008，36（11）:1-4.

[12]黃洋.基于SSH架構(gòu)與本體的異構(gòu)數(shù)據(jù)集成技術(shù)研究[D].北京：北京郵電大學(xué)，2015.

[13]何麗.支持復(fù)雜產(chǎn)品快速設(shè)計(jì)的網(wǎng)絡(luò)化零件資源庫(kù)系統(tǒng)研究[D].烏魯木齊：新疆大學(xué)，2013.

[14]馬永恒.異構(gòu)數(shù)據(jù)庫(kù)集成技術(shù)在港航信息資源庫(kù)開(kāi)發(fā)中的應(yīng)用研究[D].武漢：武漢理工大學(xué)，2005.

[15]高潔羽.一個(gè)通用電子貨架的設(shè)計(jì)與實(shí)現(xiàn)[D].蘇州：蘇州大學(xué)，2004.

[16]董冬，喬江暉，朱成亮，等.淺談液體火箭發(fā)動(dòng)機(jī)試驗(yàn)數(shù)據(jù)入庫(kù)解析技術(shù)[J].火箭推進(jìn)，2015(4)：105.

[17]陳文麗，馬軍強(qiáng)，楊思鋒，等.基于FIG-SVR的姿控發(fā)動(dòng)機(jī)推力校準(zhǔn)斜率預(yù)測(cè)[J].火箭推進(jìn)，2015(3)：103.

Chinese Dictionary database is generated based on the age of electronic commerce

FAN Ping
（Shaanxi Vocational and Technical College，Xi’an 710038，China）

In recent years，with the development of network technology，people gradually into the age of electronic commerce，in a network environment must pay attention to the development of electronic dictionaries economy，expanding Chinese dictionary intelligent features.Chinese dictionary in the design process need to manually identify each attribute，calculate and generate the database to man，to the system to bring greater trouble.It performed better database generation database designed to solve difficult issues such as generation，improve work efficiency.This article is generated based on analysis of Chinese ecommerce environment dictionary database，using the database generation algorithm combined with its implementation，draw Chinese Dictionary database generation design procedure of this method is proved to be able to handle the system efficiency can reach 50%or more.

E-commerce；chinese dictionary database；generating design

TN99

1674－6236（2016）24-0105-03

2016-02-22 稿件編號(hào)：201602100

范萍（1988—），女，山西晉中人，碩士，助教。研究方向：語(yǔ)言文字學(xué)。