何怡
【文章摘要】
網絡教育和網絡教學平臺隨著互聯網的飛速發展而發展。網絡教育平臺中對智能答疑系統的研究和探索一直是業內的重點。本文就E-learning教學平臺中智能答疑系統的架構進行來搭建,并重點對答疑系統的知識庫設計中的推理決策樹機制進行了探討。
【關鍵詞】
智能答疑;知識庫;推理決策樹
中圖分類號:TP319
時至今日,互聯網正給我們的生活帶來越來越多的便利,同時也給我們的學習和工作帶來更為廣闊的學習渠道。正因如此,各種網絡學習平臺和網絡教育平臺也給我們的生活和學習帶來前所未有的便利。現在在教育領域中,國內外科研人員對于人工智能技術的應用和推廣做出了深入的研究,出現了很多優秀的智能答疑系統。
然而,就中文的智能答疑系統而言,由于中文本身的博大精深,普遍存在著以下問題: 1.全文遍歷部分截取的方式使得答案不準確;2.系統在智能分詞上的表現不盡如人意;3.不同用戶對問題描述的角度和語言不同給系統的理解帶來了很大的問題。4.系統普遍不具備自我完善功能;當然,所有的智能答疑系統都無法做到盡善盡美。我們通過對智能答疑系統和網絡教學平臺的研究,對其中存在的一些普遍問題做了研究和探討,在此我們對數據庫中的答案庫進行討論和研究。
在我們對網絡教學平臺的研究中的,智能答疑系統是我們急需解決的問題的重中之重。在對智能答疑系統的研究中,我們的流程進行設計如下:
1.首先學員在網上先提出問題,2.當服務器收到問題再反饋給解答系統,3.系統對學員提出的問題再分門別類,4.分門別類后,再按類型問題做出相應的分析和解答。在這樣的流程設計中系統提取問題的途徑是對關鍵詞的提取和擴展。綜上所述,在這種情況下系統可以直接搜索相關文檔中的答案,如答案和問題請求相匹配,則可以把答案返回給學員。如反饋的答案不是最佳答案,則返回文檔庫重新搜索更高層問題和答案。所以這樣就可以看出,知識庫的設計是系統平臺中最為關鍵的問題就。
通過對智能答疑系統的實際運行過程中,最初的問題是由于投入的物力和人力十分有限,知識庫中的答案不會在最初時就能滿足所有學員的需求。所以,如何才能從知識庫現有問題和答案中尋找出更合適學員的答案,是我們目前最需要解決的問題。為了使用數據挖掘引擎對系統的關聯提問與解答的知識庫進行數據挖掘,我們使用了微軟發布的Analysis Services引擎。通過這一工具,可以發掘用戶的知識點掌握情況及隱含的的關鍵詞信息。對用戶知識庫的設計又可以分為以下幾種: 1、解決答案庫solution,2、疑難問題庫oquession,3、需要解決的問題庫quession隨著系統逐步的完善和對學員問題的不斷積累,問題與答案的數據會越來越多。如果系統運行中答疑效果非常好,服務器的相關數據也會越來越多。
依據上文所敘述設計的系統架構,學員提出問題請求后,答疑系統會對數據庫查詢并產生相關問題集Qunion。再針對學員提出的問題,對Qunion進行分門別類,查詢到相應答案后再將答案返回給學員。如返回答案與用戶的問題請求不太相匹配,則可再次提出問題并提交,系統則會再次根據學員提出的問題進行更高層次的推理和查詢,而推理查詢的依據就是智能答疑推理的概率決策樹系統進行分析。
那么什么是決策樹呢?我們先說下決策樹的構造,決策樹的構造都是從上到下的構造。任何事件或決策(即自然狀態)都可能引出多個事件,每個事件則都會造成不同的結果,把這些因一個決策而引發的不同結果分支畫成一張圖時就很像是一棵樹上的每個枝干,因此也就是決策樹的由來。
決策樹所表達的就是一種展示類似在什么條件下會得到什么值的一種規則的方法。以本系統為例,當學員在網上提出問題時,智能答疑系統就會通過推理得出答案再將答案返回給學員,返回的答案可能對學員有用,也可能因為各種原因不是學員所想要的,例如學員對提出的問題所用的語言、詞組的歧義性、系統的關聯規則以及知識庫的建設更新等各方面的問題對結果產生的差異較大,這種情況就形成決策樹的另外一條分支,繼續應用決策樹系統進行細化深入。以此類推,最終對各種可能出現的情況進行較為全面的解決和分析。
各種決策樹也不完全相同,決策樹算法之間有著不同的差異,“差異”衡量方式的區別也就是決策樹算法的主要區別。對本系統的問題,我們采用概率決策樹算法的方式來解決。通常情況下,我們需要把問題的切分看成是一組數據分為幾份,份與份之間應保持不盡相同,但同一份內的數量應該盡量相同。
以概率形式表示答案是否正確的不確定性也就是概率決策樹的主要特征。決策樹中每個節點代表一個答案節點,就本系統而言,我們設點節點的先驗概率為0.5,即答案正確和錯誤的概率就是各占百分之五十。從學員初次提出問題,數據庫就不斷接收學員提出的查詢信息或最佳答案設置信息,并進行分層逐步篩選。就整個推理過程而言,運算呈推理決策樹形式體現。具體推算過程如圖1所示:
成立。退出否。繼續展開下級節點是。退出否,繼續展開下級節點是。退出否。繼續展開退出否。轉到待解區知識層應用層舉例層拓展層用戶提出問題生成的相關問題組Qunion
決策樹進行初始化后建立根節點(即初始事件)概率為我們設定的0.5,此時等待相應用戶的進一步操作時,有兩種可能,即學員認為答案滿意,不進入下層查詢;學員不滿意,則進入下層查詢。根據系統對題目涉及的知識層次分類可知,一次數據挖掘最多只需要4層細化的查詢即可完成。
中文智能答疑系統的設計中,歧義性和命中率的問題一直困擾著廣大設計者。利用推理決策樹機制,可以在命中率這一問題上得到一定的改善,提高系統的性能和效率。
【參考文獻】
[1]韓家煒,孟小峰,王靜,李盛恩.Web挖掘研究.計算機研究與發展.2001.4:405~414
[2]汪啟軍,申瑞民.基于Web的遠程教育系統模型的研究.計算機工程.2000.12:157~159
[3]蘇群,申瑞民,王武,基于知識樹的概化預處理和關聯模式挖掘的智能答疑模型[J],計算機工程,2006,(17).
[4]MSDN library. Microsoft決策樹算法. http://msdn.microsoft.com/zh-cn/library/ms175312.aspx, 2008-05-14.