999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

筆跡樣本提取專家知識庫的實踐應用探析

2017-04-14 10:34:40黃李彥
軟件 2017年2期
關鍵詞:系統

黃李彥

筆跡樣本提取專家知識庫的實踐應用探析

黃李彥

(福建警察學院刑事科學技術系,福建 福州 350007)

為解決筆跡樣本提取專家系統無法解析生僻字、繁體字以及系統所輸出的設計文稿質量不夠理想等問題,我們需要對原有的專家知識庫進行升級。具體做法是從筆跡樣本提取流程、漢字庫、漢字特征庫入手,對筆跡專家知識庫進行重新構建。實踐證明,升級完知識庫的筆跡樣本提取專家系統對漢字的解析能力更強,輸出文稿質量更高,更具實用性和拓展性。

筆跡鑒定;樣本提取;專家系統;知識庫

1 引言

筆者曾于2014年研發了一套筆跡鑒定樣本提取專家系統V 1.0(下面簡稱筆跡專家系統),系統主界面如圖1所示,該系統主要包含筆跡樣本提取專家知識庫(下面簡稱筆跡知識庫)、筆跡樣本提取業務邏輯庫以及智能推理機等模塊,系統可以實現對待檢驗筆跡內容按偏旁、筆畫、固定搭配等特征進行分解,并按照檢材文稿格式生成筆跡樣本提取文稿[1]。

該系統的主要用戶包括公檢法系統的工作人員、司法鑒定機構的工作人員及公安、司法類院校開設文件檢驗相關課程的師生。通過使用該系統,用戶可以自行完成當事人設計筆跡樣本的提取。經過兩年多的實踐應用,筆者陸續收到用戶的一些反饋,有褒有貶,下面筆者將用戶反饋的主要問題進行歸納,并探析相應的改進方案。

圖1 主界面Fig.1 The main interface

2 原有系統知識庫問題分析

用戶所反饋的問題,大致可以歸納為以下幾類:

(1)生僻字無法分析

在用戶反饋中,生僻字無法解析所占的比重比較大,諸如“犇”、“焺”、“燚”、“珄”、“贇”、“菥”、“媺”、“鰆”等字都曾有人反饋過,而且這些字是出現在人名當中,正是筆跡鑒定的重點對象。

(2)繁體字無法分析

也有很多用戶反饋繁體字無法解析,這些字主要出現在兩個地方:一是和臺資企業、臺胞來往的文件,幾乎全是繁體;二是一些老人家書寫的文書,里頭也有大量的繁體字,甚至還有很多異體字。比如“墻”字,有寫“墻”的,有寫“牆”的,還有寫“廧”的。

(3)筆畫分析不夠細致

對筆畫特征的分析不夠深入、細致,比如“力”的第一個筆畫、“月”字的第二個筆畫,都解析為“橫折鉤”,但是在筆形上前者更準確的說應該是“橫撇鉤”,后者應該是“橫豎鉤”;相同偏旁不同單字也可能出現筆形的區別,比如“玥”、“情”字,雖然都有“月”,解析筆畫也一致,但是前者的“月”的第一筆畫在筆形上是“撇”,后者的“月”的第一筆畫則是“豎”。

(4)固定搭配分析不全面

對漢字的構件拆分方法比較單一,比如“戴”字,系統把它分解為“異”,但實際上它還可以分解為“田共”、“土田八戈”,再比如“糊”字,系統把它分解為“米胡”,但實際上它還可以分解為“米古月”、“米十口月”。

(5)沒有考慮間架結構

系統缺乏對漢字間架結構的歸類解析,在實踐中,很多書寫者曾練習過書法,并閱讀過《間架結構摘要九十二法》、《結字三十六法》、《黃自元書法間架結構九十二法》、《大字結構八十四法》之類的書籍,其筆跡在間架結構上有明顯特征,但是系統之前沒有考慮到。

3 系統知識庫改進方案分析

3.1原因分析

筆者之前在設計系統時采用的是用戶界面層、業務邏輯層及數據庫層三層分開的系統架構[2],如圖2所示,在整套系統中,處于數據庫層的知識庫是整套系統運行的基礎。由此可見上述問題之所以會出現,其根本原因是當時設計知識庫時考慮不夠全面,和實踐應用存在一定的脫節,另外所填充的數據也不夠完善。因此,想解決用戶反饋的那些問題,只有一個方案,那就是對原有的筆跡知識庫進行更新換代。

圖2 系統架構Fig.2 The structure of system

3.2改進思路

要想完成筆跡知識庫的更新換代,首先需要全面查閱專業書籍、網站及相關文獻,重新收集、歸納筆跡樣本提取的方法,同時聯系一批在一線工作的筆跡鑒定專家、從業人員,進行實地調研,全面分析、歸納提取筆記樣本的流程、要點以及操作技巧。在此基礎上,再從漢字的數量、使用頻率、偏旁部首、外觀結構、異體字、字體、書寫習慣等方面入手,重新分析、歸納漢字的特征。在完成上述兩項工作的前提下,召集計算機編程方面的專家進行研討,重新設計專家知識庫的數據庫模型及數據庫表結構,并設計出自動、人工構建專家知識庫所需要的方法、流程及輔助工具,最終完成專家知識庫的升級、改進。

3.3數據來源

筆者通過大量調研,最終選定以下四個網站作為本次專家知識庫升級的主要數據來源:

(1)HTTPCN

該網站網址為http://www.httpcn.com/,網站有一個漢語字典功能,可提供漢字在拼音、簡繁體、異體字、部首、筆畫、筆順、首尾分解查字、漢字部件構造等方面的信息查詢。

(2)漢典

該網站網址為http://www.zdic.net/,網站有一個漢字條目查詢及拆分功能,可提供漢字在拼音、部首、字形分析、異體字、筆順、漢字結構、構件等方面的信息查詢。

(3)國學大師

該網站網址為http://www.guoxuedashi.com/,網站有一個漢字條目查詢功能,可提供漢字在拼音、部首、總筆畫數、筆順、異體字等方面的信息查詢。

(4)911查詢

該網站網址為http://www. 911cha.com/,網站有一個新華字典功能,可提供漢字在拼音、簡繁體、異體字、部首、總筆畫數、筆順、漢字結構等方面的信息查詢。

3.4升級方案

筆跡專家知識庫的升級由數據抽取、數據轉換及數據加載三個步驟組成[3],如圖3所示,其中數據抽取步驟負責將來自不同網站的異構數據抽取到臨時數據區;數據轉換步驟負責將臨時數據區中的數據進行驗證、替換、補缺、拆分、清洗、規范化以及合并匯總;數據加載步驟負責將轉換后的數據完整的存儲至知識庫[4]。

圖3 知識庫升級Fig.3 Knowledge base upgrade

4 新系統知識庫改進效果分析

通過實施上述改進方案,筆者成功構建了一套新筆跡專家知識庫,并對用戶發布了數據庫升級包,用戶通過安裝升級包便可完成筆跡專家系統知識庫升級[5]。

表1是筆跡專家系統在知識庫升級前后的主要指標對比。

從升級用戶反饋的情況來看,升級完知識庫后的專家系統明顯比升級之前更好用,主要表現在對漢字的解析能力增強,輸出文稿質量提高以及更具實用性和拓展性等方面。

4.1對漢字解析能力增強

舊知識庫僅采集GB2312中所包含的6763個簡體漢字的信息,而新知識庫由于選定了四大專業研究漢字的網站作為數據來源,可采集81408個字的信息,基本克服了生僻字、繁體字無法解析的現象。升級知識庫前的系統大概只能解析實踐中70%左右的檢材,而升級后至今還未出現無法解析的檢材,可見,知識庫的升級使系統在檢材的解析能力方面得到了大幅度提升。事實上,從新知識庫的字庫覆蓋程度來看,系統對漢字檢材的解析能力已經接近100%。

4.2輸出文稿質量提高

實踐中,筆跡檢材字數往往不多,比如常見的簽名筆跡鑒定,僅2-4個漢字,鑒定難度大;樣本質量對鑒定工作是至關重要的,樣本必須包含一定數量的檢材相同字或偏旁部首,但如果樣本文稿設計的過于簡單,比如完全采用檢材一樣的字或者相同的偏旁部首,就容易引起樣本書寫者的注意而導致偽裝現象頻繁出現。專家系統的設計理念是既要保證樣本文稿中檢材特征部位的出現率,又要保證樣本文稿的隱蔽性。

使用舊知識庫的專家系統雖然可以從單字的偏旁、筆畫、固定搭配對漢字進行解析,但是由于對筆畫的解析沒有考慮筆形變化,對固定搭配的設置也很有限,所以整體上對漢字的解析能力不強。用戶反饋的意見是,實踐中基本上只能用偏旁進行漢字解析,如果檢材中漢字特征出現在某個筆畫上,需要人為對輸出文稿進行調整,無形中增加了用戶設計文稿的難度。使用新知識庫的專家系統由于增加了從間架結構、筆形以及多種構件對漢字進行歸類、分解的功能,系統對漢字的解析能力增強了[6],對書寫者書寫特征出現次數、概率、分布位置的設計更加全面、隱蔽、科學,設計思路更加接近人類專家[7],因此系統所給出的推薦文稿質量比升級前有明顯提升,基本不用再做人工干預、修改即可直接投入使用。

表1 系統功能對比Tab.1 Function comparison of systems

4.3更具實用性和拓展性

用戶使用筆跡專家系統來設計文稿的目的是為提取書寫者的設計筆跡樣本服務。在實踐中,通常由樣本提取者采用不同的語速朗讀設計文稿,書寫者把聽到的文稿內容書寫在指定的紙張上。在聽寫過程中,設計文稿可能出現朗讀者自己也不認識的字,按照以前的做法是要去查字典,有時候這些字還不太容易查找到。為此,新知識庫特地增加了對漢字的拼音標注功能,并附帶了相應的語音文件,這個功能不僅可以解決實踐中工作人員由于不認識生僻字難以讀稿所帶來的尷尬局面,未來還可以作為電腦語音自動播報的支撐[8],系統比原來更具實際操作性和拓展性。

5 小結

筆跡專家知識庫是筆跡專家系統的基礎,由于之前在設計知識庫時考慮不夠全面,導致筆跡專家系統在實踐應用中出現了一些問題,為此,筆者從筆跡樣本提取流程、漢字庫、漢字特征庫入手,對筆跡專家知識庫進行了全面升級,升級完知識庫的筆跡專家系統無論是功能、還是性能都得到了大幅度提升,普遍得到了用戶的認可,整套系統具有更高的實用價值、更廣闊的推廣空間。

[1] 黃李彥, 筆跡樣本提取專家系統及其應用研究[J]. 福建警察學院學報, 2014(5): 20-24.

[2] 葛管庫. MVC 模式下程序設計[J]. 軟件, 2013, 34(2): 49-51.

[3] 操牡丹, 基于知識庫的企業異構數據集成[D]. 北京: 北京郵電大學, 2010.

[4] 趙健, 馮喬生, 何娟娟. 面向漢字識別的新特征及其提取方法[J]. 軟件, 2015, 36(3): 31-36.

[5] 劉超, 張明安. 基于Oracle數據庫系統的備份與恢復技術研究[J]. 軟件, 2014, 35(3): 125-128.

[6] 謝輝程, 郭莉. 小型漢字字庫設計與查詢算法分析[J]. 軟件, 2014, 35(10): 43-45.

[7] 曾霖. 基于Web數據庫的數據庫挖掘技術探究[J]. 軟件, 2013, 34(2): 58-60.

[8] 曾誰飛, 王仁波. 語音合成技術在智能語音播報系統中的應用探析[J]. 電信科學, 2010(3): 64-68.

Study on Practical Application of Knowledge Base for Expert System of Handwriting Sample Collection

HUANG Li-yan
(Criminal Science Technology Department of Fujian Police Academy, Fuzhou 350007, China)

In order to solve the problems that expert system of handwriting sample collection cannot analysis rarely-used Chinese characters, traditional Chinese characters and the quality of system output is poor. We need to upgrade the original expert knowledge base. The specific working means is to reconstruct the knowledge base starting from the process of handwriting sample collection, the Chinese character library and the Chinese character database. Practice has proved that after the upgrade of the knowledge base, the analytical ability of Chinese characters is stronger, the quality of output is higher, and the expert system has more practicability and expansibility.

Handwriting identification; Sample collection; Expert system; Knowledge base

D918.92

A

10.3969/j.issn.1003-6970.2017.02.005

福建省教育廳中青年教師教育科研項目(JA15565)

黃李彥(1982-),女,副教授,碩士研究生,研究方向:文件檢驗。

黃李彥(1982-),福建警察學院刑事科學技術系。

本文著錄格式:黃李彥. 筆跡樣本提取專家知識庫的實踐應用探析[J]. 軟件,2017,38(2):19-22

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 国产精品自在在线午夜| 97国产精品视频自在拍| 国产麻豆福利av在线播放 | 亚洲一区黄色| 亚洲αv毛片| 成人噜噜噜视频在线观看| 色AV色 综合网站| 在线精品自拍| 999国产精品永久免费视频精品久久 | 欧美有码在线| 免费无码AV片在线观看国产| 国产精品综合久久久| 97人人模人人爽人人喊小说| 2020国产精品视频| 在线视频一区二区三区不卡| 亚洲一级毛片在线观播放| 国产成人AV综合久久| 视频一区视频二区中文精品| 国产激爽大片在线播放| 国内精品久久九九国产精品 | 波多野结衣中文字幕久久| 九九久久精品免费观看| 91精品视频在线播放| av在线无码浏览| 国产日本视频91| 91日本在线观看亚洲精品| 97国产成人无码精品久久久| 九九九久久国产精品| 黄色在线网| 久草中文网| 国产成人精品一区二区三区| 欧美性久久久久| 色欲国产一区二区日韩欧美| 国产天天射| 亚洲日韩精品综合在线一区二区| 日韩高清成人| 亚洲av无码人妻| 欧美黄网在线| 日本黄色不卡视频| 精品视频91| jizz在线观看| 国产一级妓女av网站| 真实国产乱子伦视频| 综1合AV在线播放| 婷婷午夜天| 久热re国产手机在线观看| 色天堂无毒不卡| 亚洲男女在线| 国产精品亚洲αv天堂无码| 中国一级特黄视频| 99一级毛片| 国产精欧美一区二区三区| 91免费国产高清观看| 国产男女免费视频| 久久这里只有精品国产99| 久久精品人人做人人爽97| 国产 日韩 欧美 第二页| 欧美色99| 女高中生自慰污污网站| 日韩无码黄色网站| 中国国语毛片免费观看视频| 中文字幕2区| 伊人激情久久综合中文字幕| 无码在线激情片| 亚洲av片在线免费观看| 国产内射一区亚洲| 久久久久亚洲av成人网人人软件 | 91视频99| 国产在线98福利播放视频免费| av无码一区二区三区在线| 色久综合在线| 欧美日韩亚洲综合在线观看 | 国产成人在线小视频| 毛片网站观看| 欧亚日韩Av| 国产一级毛片在线| 亚洲第一成年网| 无码啪啪精品天堂浪潮av| 欧美午夜性视频| 在线综合亚洲欧美网站| 国产美女无遮挡免费视频网站 | 乱人伦视频中文字幕在线|