張興旺 劉旭樓
(1.山西省萬通電子商務(wù)研究所,山西 太原 030000;2.山西太原鋼鐵公司醫(yī)院,山西 太原 030000)
山西國際商務(wù)信息智能收集監(jiān)測服務(wù)系統(tǒng)是為了提高企業(yè)、政府有關(guān)部門等單位了解、研究掌握國內(nèi)外貿(mào)易、招商等市場動態(tài)信息,提高獲取各種商務(wù)信息情報(bào)、商務(wù)決策和市場競爭能力,加快發(fā)展國內(nèi)外經(jīng)貿(mào)規(guī)模和水平,面向國內(nèi)外商務(wù)領(lǐng)域而研發(fā)的互聯(lián)網(wǎng)商務(wù)信息智能整合服務(wù)系統(tǒng),系統(tǒng)采用.Net框架和SOA架構(gòu),基于智能技術(shù)的互聯(lián)網(wǎng)商務(wù)信息整合平臺。保證獲取國內(nèi)外商務(wù)信息的及時性和準(zhǔn)確性,為商務(wù)主管部門、企業(yè)了解國內(nèi)外市場動態(tài)、變化趨勢,進(jìn)行招商、投資、進(jìn)出口貿(mào)易等商務(wù)決策提供信息支持服務(wù)。
Agent技術(shù)是目前計(jì)算機(jī)、控制和信息等技術(shù)領(lǐng)域的研究熱點(diǎn),被一些專家、文獻(xiàn)稱為軟件領(lǐng)域意義深遠(yuǎn)的突破。該技術(shù)在基于網(wǎng)絡(luò)分布計(jì)算這一當(dāng)今計(jì)算機(jī)主流技術(shù)領(lǐng)域中,正越來越發(fā)揮著重要作用。它不但為解決新的分布式應(yīng)用問題提供了有效途徑;而且為全面準(zhǔn)確地研究分布計(jì)算系統(tǒng)特點(diǎn)提供了合理概念模型。Agent中文即 “代理”,故名思意,接受用戶指令、代替用戶完成某些復(fù)雜繁瑣工作。研究表明:從人機(jī)工程角度考慮,若賦予電腦或程序更多人性化色彩,如支持語音合成輸出信息、語音識別指令、智能提示等,就能充分提高人機(jī)交互的有效性和易用性。
本系統(tǒng)采用的Agent是指軟件機(jī)器人,它代表用戶或程序,以主動服務(wù)方式完成一組操作的機(jī)動計(jì)算機(jī)實(shí)體。實(shí)質(zhì)就是研究如何使系統(tǒng)盡量不打攪用戶,自動完成用戶委托的復(fù)雜和繁瑣任務(wù),與傳統(tǒng)技術(shù)的區(qū)別就是具有自制能力、智能和目標(biāo)驅(qū)動屬性,通過各種社交、學(xué)習(xí)、推理等方法感知適應(yīng)復(fù)雜的動態(tài)環(huán)境,自動追求目標(biāo)、理解用戶信息需求和興趣愛好,在用戶發(fā)出請求后即定位搜索,并盡快完成用戶需求。Agent技術(shù)是傳統(tǒng)檢索技術(shù)的發(fā)展和飛躍,有強(qiáng)大的開放性、靈活性和協(xié)作性。是解決現(xiàn)有WWW信息查詢系統(tǒng)收集率低、處理能力差的有效方法。
由于系統(tǒng)采用了先進(jìn)的Multi-Agent框架結(jié)構(gòu)和智能技術(shù),每個Agent均有很強(qiáng)的學(xué)習(xí)、分析和處理問題的能力,能基于獨(dú)立知識,采用機(jī)器學(xué)習(xí)方法自主完成用戶賦予的信息搜集和處理;針對不同任務(wù)擁有不同的知識庫、工作策略,以求最佳效果;另外它還有互相配合協(xié)作性:通過不同的機(jī)器學(xué)習(xí)機(jī)制,不斷提高其性能和效果;用協(xié)作方式完成對各種復(fù)雜的競爭情報(bào)搜索和分析任務(wù)。正是基于智能系統(tǒng)框架結(jié)構(gòu),使系統(tǒng)具有了高度擴(kuò)展性,能根據(jù)不同信息結(jié)構(gòu)和內(nèi)容方便地為其量身定制,使系統(tǒng)功能不斷完善而不累贅。
中文搜索引擎的查全率需保證不遺漏任何重要的結(jié)果,而且能找到最新的網(wǎng)頁,這需要搜索引擎有一個強(qiáng)大的網(wǎng)頁收集器,俗稱 “網(wǎng)絡(luò)蜘蛛”。
(1)網(wǎng)絡(luò)蜘蛛基本原理
網(wǎng)絡(luò)蜘蛛,英文即:Web Spider,是對網(wǎng)絡(luò)信息智能搜索技術(shù)的比喻,把互聯(lián)網(wǎng)比作蜘蛛網(wǎng),則Spider即網(wǎng)絡(luò)蜘蛛。搜索時,通過網(wǎng)頁鏈接地址來尋找目標(biāo),從網(wǎng)站某個頁面開始,讀取其內(nèi)容,找到在該網(wǎng)頁中與其它網(wǎng)頁的鏈接全部地址,然后通過鏈接地址一一尋找其鏈接的下一個網(wǎng)頁,再從下一個網(wǎng)頁中所有鏈接中尋找下下層所有網(wǎng)頁,以此類推直到把該網(wǎng)站所有網(wǎng)頁中所鏈接的全部網(wǎng)頁都抓取完為止。通常網(wǎng)絡(luò)蜘蛛有兩種策略:廣度優(yōu)先和深度優(yōu)先。廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇該網(wǎng)頁中一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。以此類推直至抓取完所有鏈接網(wǎng)頁中的所有鏈接;深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會從起始頁開始,按照每個鏈接跟蹤下去,處理完該網(wǎng)頁中全部鏈接后再轉(zhuǎn)入下一層次鏈接的起始頁業(yè)直至所有網(wǎng)頁,然后繼續(xù)跟蹤鏈接。該方法優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛設(shè)計(jì)簡單易行。當(dāng)然網(wǎng)絡(luò)蜘蛛訪問網(wǎng)站時,經(jīng)常會遇到網(wǎng)頁權(quán)限和加密數(shù)據(jù),但大多數(shù)企業(yè)、政府網(wǎng)站以及商務(wù)、營銷網(wǎng)站,他們是希望搜索引擎能搜索到他們的信息,以提高它們的點(diǎn)擊率和業(yè)務(wù)量,這些網(wǎng)站信息欄目不會加密或會提供權(quán)限和密碼。網(wǎng)絡(luò)蜘蛛通過所給權(quán)限進(jìn)行采集。
(2)內(nèi)容提取
搜索引擎建立網(wǎng)頁索引時,處理對象是文本文件。對于網(wǎng)絡(luò)蜘蛛來說,抓取的網(wǎng)頁格式為html和動態(tài)網(wǎng)頁等。這些文件抓取后,需要把其中文本信息提取出來。因?yàn)闇?zhǔn)確提取這些信息對網(wǎng)絡(luò)蜘蛛搜索準(zhǔn)確性至關(guān)重要;而且對網(wǎng)絡(luò)蜘蛛進(jìn)一步正確跟蹤鏈接影響巨大。例如HTML文檔,HTML文檔和文本文檔不同,它有自己語法,通過不同的命令標(biāo)識符來表示不同的字體、顏色、位置等,提取文本信息時需要把這些標(biāo)識符都過濾掉。在識別這些信息時,需要同步記錄諸多版式信息,例如字體大小、是否是標(biāo)題、是否加粗顯示、是否為頁面關(guān)鍵詞等,這些信息有助于計(jì)算詞匯在網(wǎng)頁中的頻度和重要度。對于自動分詞、提取關(guān)鍵詞、生成摘要等信息處理至關(guān)重要。
動態(tài)網(wǎng)頁:動態(tài)網(wǎng)頁是網(wǎng)絡(luò)蜘蛛自動追求目標(biāo)、理解用戶信息需求和興趣愛好,會在用戶發(fā)出請求后就定位搜索信息,并盡早完成用戶需求。Agent技術(shù)是傳統(tǒng)檢索技術(shù)的發(fā)展和飛躍,有強(qiáng)大的開放性、靈活性和協(xié)作性。是解決現(xiàn)有WWW信息查詢系統(tǒng)收集率低、查詢處理能力差的有效方法。系統(tǒng)采用了先進(jìn)的Multi-Agent框架結(jié)構(gòu)和智能技術(shù),在Multi-Agent協(xié)作區(qū)框架結(jié)構(gòu)下,各個Agent均有自主性,能基于獨(dú)立的知識采用機(jī)器學(xué)習(xí)方法自主完成用戶信息搜集和處理任務(wù);每個Agent具有個性化特點(diǎn),擁有針對不同任務(wù)不同的知識庫、工作策略,以求得最佳效果;另外每個Agent都還有學(xué)習(xí)性和協(xié)作性:通過不同的機(jī)器學(xué)習(xí)機(jī)制,不斷提高其性能和效果;通過協(xié)作方式完成各種復(fù)雜競爭情報(bào)搜索和分析任務(wù)。正是基于智能系統(tǒng)框架結(jié)構(gòu)上,使系統(tǒng)具有高度擴(kuò)展性,能根據(jù)不同的信息結(jié)構(gòu)和內(nèi)容方便地為其量身定制,使系統(tǒng)功能完善而不臃腫。
(3)更新周期
本系統(tǒng)的網(wǎng)絡(luò)蜘蛛,采用深度優(yōu)先策略搜索。由于網(wǎng)站內(nèi)容經(jīng)常變化,網(wǎng)絡(luò)蜘蛛也要不斷更新抓取網(wǎng)頁內(nèi)容,需要網(wǎng)絡(luò)蜘蛛按照一定周期掃描網(wǎng)站,查看哪些頁面需要更新,哪些頁面是新增的,哪些網(wǎng)頁是過期的死鏈接。搜索引擎更新周期對查全率影響很大,若更新周期太長,會有新生成的網(wǎng)頁搜索不到;周期過短,技術(shù)實(shí)現(xiàn)有一定難度,還會對帶寬、服務(wù)器資源造成浪費(fèi)。網(wǎng)絡(luò)蜘蛛不是對所有網(wǎng)站都采用相同周期更新,重要、更新量大的網(wǎng)站,更新周期短,反之,更新周期就長,一般是1~4周。通常網(wǎng)絡(luò)蜘蛛在更新網(wǎng)站內(nèi)容時,無需把網(wǎng)站網(wǎng)頁重抓一遍,只把新網(wǎng)頁日期屬性與上次抓取的相比,若相同則不更新。
網(wǎng)站監(jiān)測在國外早已習(xí)以為常,而國內(nèi)卻是小荷才露尖尖角。Internet普及給人們生活和消費(fèi)帶來了革命性變化:通過Internet進(jìn)行商品買賣使電子商務(wù)大行其道;在線閱讀使人們懶于奔波書店而在方寸屏幕前獲得源源不斷信息和知識;網(wǎng)絡(luò)游戲使眾多游戲迷樂此不彼狂熱迷戀;網(wǎng)絡(luò)論壇和社區(qū)更是形成了虛擬社區(qū),讓人們情感、遐想在這里得到滿足;隨著光纖高速、web3.0技術(shù)的快速發(fā)展,人們越來越離不開Internet,而Internet細(xì)胞-互聯(lián)網(wǎng)網(wǎng)站,更成了數(shù)以千萬計(jì)用戶關(guān)注焦點(diǎn)。網(wǎng)上營銷、購物、授課、會議成了企業(yè)、商家、學(xué)校等業(yè)務(wù)的主流渠道,網(wǎng)上搜索、獵奇、商務(wù)、商品信息成了越來越多的人賴以生活的手段,網(wǎng)絡(luò)孕育著網(wǎng)站監(jiān)測、服務(wù)的產(chǎn)生和發(fā)展。
(1)監(jiān)測對象(網(wǎng)站)的網(wǎng)絡(luò)模型
監(jiān)測對象大多數(shù)是由用戶根據(jù)需求提供的,主要是國內(nèi)外各有關(guān)政府、行業(yè)、駐外機(jī)構(gòu)、企業(yè)的網(wǎng)站及各大商務(wù)網(wǎng)站。這些網(wǎng)站分兩類:
①傳統(tǒng)型C/S或B/S/D網(wǎng)絡(luò)架構(gòu)。優(yōu)點(diǎn)是監(jiān)測點(diǎn)吞吐量大、性能優(yōu)越;缺點(diǎn)是布點(diǎn)成本大,且監(jiān)測源覆蓋面有限,監(jiān)測數(shù)據(jù)不夠完整準(zhǔn)確,不能客觀全面反映監(jiān)測的網(wǎng)頁信息。
②基于P2P分布式網(wǎng)絡(luò)模式,監(jiān)測的網(wǎng)絡(luò)節(jié)點(diǎn)可隨著用戶數(shù)增加無限擴(kuò)張,監(jiān)測源的覆蓋可以伸展到世界各個角落,會從監(jiān)測不同站點(diǎn)來印證系統(tǒng)提供的信息和數(shù)據(jù)是否客觀、準(zhǔn)確,對商務(wù)決策更具有參考價值。
(2)網(wǎng)頁監(jiān)測技術(shù)
網(wǎng)頁監(jiān)測是基于網(wǎng)絡(luò)蜘蛛技術(shù),使用戶實(shí)時監(jiān)測目標(biāo)網(wǎng)站群內(nèi)容的變化,針對具有相關(guān)主題最新發(fā)布的內(nèi)容和信息數(shù)據(jù)的網(wǎng)頁進(jìn)行監(jiān)視,一有更新變化,即報(bào)告給用戶,以人機(jī)對話采取相應(yīng)措施。網(wǎng)頁監(jiān)測技術(shù)是本系統(tǒng)應(yīng)用創(chuàng)新,它有以下特點(diǎn):
①配置簡單。用戶可以通過簡單配置即可達(dá)到監(jiān)測目標(biāo)網(wǎng)頁目的。
②高效率。由于監(jiān)測網(wǎng)頁深度有限制,所以不存在監(jiān)測網(wǎng)頁數(shù)量的指數(shù)級增長。
③節(jié)約網(wǎng)絡(luò)服務(wù)器和帶寬資源,同時也能保證系統(tǒng)的實(shí)時性和高效性。
④監(jiān)測網(wǎng)頁動態(tài)。網(wǎng)頁監(jiān)測不僅監(jiān)測網(wǎng)頁內(nèi)容,還能監(jiān)測網(wǎng)頁內(nèi)容變化來識別哪些是新內(nèi)容,以解決互聯(lián)網(wǎng)信息量大、更新快的問題。
本系統(tǒng)采用了目前幾種先進(jìn)可靠的中英文信息智能處理技術(shù),能從大量的互聯(lián)網(wǎng)信息中有效地篩選出有價值的內(nèi)容,具有強(qiáng)大的信息處理和分析功能,并通過各種技術(shù)的綜合運(yùn)用來實(shí)現(xiàn)對目標(biāo)信息的準(zhǔn)確抽取。系統(tǒng)中應(yīng)用的技術(shù)包括:自然語言理解處理技術(shù)、中文自動分詞、自動提取關(guān)鍵詞、內(nèi)容去重、Html網(wǎng)頁處理技術(shù)等。
自然語言理解、處理作為語言信息處理技術(shù)高層次的重要研究方向,一直是人工智能領(lǐng)域核心課題,也是困難問題之一。由于自然語言多義性、上下文關(guān)聯(lián)性、模糊性、非系統(tǒng)性及和環(huán)境密切相關(guān)性、涉及的知識面廣,使得很多系統(tǒng)采取了回避方法;另外,由于理解并非絕對的概念,它與所應(yīng)用的目標(biāo)相關(guān),例如用于回答問題、執(zhí)行命令,還是機(jī)器翻譯等。因此,對于自然語言理解,至今尚無一致的、各方可接受的定義,因此對它的處理也就帶來了很多困難。
從微觀上講,計(jì)算機(jī)對自然語言理解是指從自然語言到機(jī)器內(nèi)部的一個映射;從宏觀上看,計(jì)算機(jī)對自然語言理解是指機(jī)器能夠執(zhí)行人類所期望的回答問題(計(jì)算機(jī)能正確地回答用自然語言輸入的有關(guān)問題),文摘生成(機(jī)器能產(chǎn)生輸入文本的摘要),釋義(機(jī)器能用不同的詞語和句型來復(fù)述輸入的自然語言信息),翻譯語言功能。
自然語言有兩種基本形式:書面語和口語,書面語比口語規(guī)范性強(qiáng),且噪聲小。口語信息包括很多語義上不完整的句子,如果聽眾對演講主題背景、相關(guān)知識不很了解,可能無法理解這些口語信息。書面語理解包括詞法、語法和語義分析,而口語理解還需要加上語音分析。我們只涉及書面語的理解問題,不考慮口語分析。如果計(jì)算機(jī)能夠理解、處理自然語言,人-機(jī)之間信息交流能夠以人們熟悉的母語來進(jìn)行,將是計(jì)算機(jī)技術(shù)的重大突破。另外,由于創(chuàng)造和使用自然語言是人類高智能的表現(xiàn),因此對自然語言理解、處理研究也有助于揭開人類高度智能的奧秘,深化對語言能力和思維本質(zhì)認(rèn)識。所以對自然語言理解研究方向在應(yīng)用和理論方面都有重大意義。
在檢索語言發(fā)展過程中,自然語言是必然要取代人工語言的,自然語言理解技術(shù)是計(jì)算機(jī)人工智能與語言學(xué)結(jié)合的產(chǎn)物,是解決自然語言檢索的核心技術(shù)。回顧其發(fā)展,分析它與網(wǎng)絡(luò)檢索結(jié)合應(yīng)用中的問題,不難看出自然語言理解是檢索技術(shù)發(fā)展方向。互聯(lián)網(wǎng)信息處理技術(shù)核心是自然語言理解與處理技術(shù)。而中文自然語言處理技術(shù)核心是中文分詞、詞性標(biāo)注、加權(quán)詞頻統(tǒng)計(jì)、復(fù)合詞組生成算法、自動提取關(guān)鍵詞、句頻統(tǒng)計(jì)分析、相關(guān)度計(jì)算、內(nèi)容去重、自動分類、用戶興趣模型等技術(shù)等。
3.1 技術(shù)指標(biāo)
分詞正確率98.21% ;未登錄詞識別召回率95.48%。
3.2 技術(shù)思想
中文分詞是針對現(xiàn)代漢字序列文本自動分解為漢語詞組序列文本的技術(shù)。英文是以詞為單位,詞之間是靠空格隔開,而中文是以字為單位,句子中所有字連起來才能描述一個意思。把中文漢字序列切分成有意義的詞,即中文分詞。分詞技術(shù)是中文信息處理從字符處理邁向語義處理的關(guān)鍵,也是中文信息智能處理的基礎(chǔ)。我們采用的是N-最短路徑非統(tǒng)計(jì)粗分方法,目標(biāo)是:快速(粗分結(jié)果集盡量少)、高召回率(即可能的涵蓋最終結(jié)果)。研究思路是:先快速的找出包含正確結(jié)果在內(nèi)的N(N≥1)種粗分結(jié)果。然后綜合考慮速度和召回率,通過試驗(yàn),確定N的最佳值,最終得到涵蓋最終結(jié)果在內(nèi)的盡量小的粗分結(jié)果集。
基本思想:根據(jù)詞典,找出字串中所有可能的詞,構(gòu)造詞語切分有向無環(huán)圖。每個詞對應(yīng)圖中的一條有向邊,并賦給相應(yīng)的邊長(權(quán)值)。然后針對該切分圖,在起點(diǎn)到終點(diǎn)的所有路徑中,求出長度值按嚴(yán)格升序排列(任何兩個不同位置上的值一定不等,下同)依次為第1, 第2,…,第i,…,第N的路徑集合作為相應(yīng)的粗分結(jié)果集。如果兩條或兩條以上路徑長度相等,那么他們的長度并列第i,都要列入粗分結(jié)果集,而且不影響其他路徑的排列序號,最后粗分結(jié)果集合大小將≥N。數(shù)學(xué)模型為:設(shè)待分字串 S=c1c2……cn,其中ci(i =1,2,…n)為單個的字,
n為串的長度,n≥1。建立一個節(jié)點(diǎn)數(shù)為n+1的切分有向無環(huán)圖G,各節(jié)點(diǎn)編號依次為V0、V1…Vn,通過以下兩種方法建立G所有可能的詞邊。
(1)相鄰節(jié)點(diǎn)Vk-1,Vk之間建立有向邊
(2)若w=cici+1……cnj是一個詞,則節(jié)點(diǎn)Vi-1,Vj之間建立有向邊 這樣待分字串S中的所有詞與切分有向無環(huán)圖G中的邊一一對應(yīng),如圖1所示。 在非統(tǒng)計(jì)粗分模型中,我們假定所有詞都是對等的,為了計(jì)算方便,不妨將詞的對應(yīng)邊的邊長均設(shè)為1。設(shè):Path(i,j)為所有從Vi到Vj的路徑集合;Length(path)為路徑path的長度,其值等于path中所有邊的長度之和;LS為G中所有從V0到Vn路徑的長度集合;NLS為V0到Vn的N-最短。 NLS的定義:NLS LS,|NLS|=min(|LS|,N);a∈LS-NLS,b∈NLS→ a RS={w1w2…wm|wi是path的第i條邊對應(yīng)的詞,i=1,2,…,m,其中path∈NSP}。 RS是NSP對應(yīng)的分詞結(jié)果,即我們所求的粗分結(jié)果集。因此,N-最短路徑方法詞語粗切問題轉(zhuǎn)化為:如何求解有向無環(huán)圖G的集合NSP。 目前分詞算法分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。本系統(tǒng)采用基于概率統(tǒng)計(jì)正向最大匹配分詞算法,利用分詞結(jié)果對網(wǎng)上信息進(jìn)行更有效處理。 4.1 技術(shù)指標(biāo) 準(zhǔn)確率≥90%,查全率≥90% 互聯(lián)網(wǎng)信息的特點(diǎn)之一是信息量非常龐大。在這海量文字信息中快速、準(zhǔn)確地尋找需要的信息,無疑非常重要。因此人們提出了用幾個詞語來表述一篇文章主要內(nèi)容的需求,這幾個詞語就是關(guān)鍵詞。關(guān)鍵詞是簡要描述一篇文章內(nèi)容的重要數(shù)據(jù),用戶可以通過關(guān)鍵詞迅速了解文章內(nèi)容而判斷自己是否對文章感興趣。傳統(tǒng)的關(guān)鍵詞都是以人力手工標(biāo)注得到,效率低,準(zhǔn)確性不高。如何利用計(jì)算機(jī)快速準(zhǔn)確地從文章中自動提取關(guān)鍵詞,成為一個新課題。本項(xiàng)目的自動關(guān)鍵詞提取技術(shù)就是有效解決這一課題的最佳方案。一般講,把Html文檔的關(guān)鍵詞提取技術(shù)分為兩部分來實(shí)現(xiàn),一是Html文檔分析,一是關(guān)鍵詞提取。Html文檔分析主要是識別出Html文檔中主體內(nèi)容,并對不同位置的內(nèi)容確定不同的權(quán)重。關(guān)鍵詞提取技術(shù)分以下步驟進(jìn)行:分詞→詞頻統(tǒng)計(jì)→加權(quán)計(jì)算→特征選擇。 4.2 技術(shù)思想 在對Html文檔分析基礎(chǔ)上,我們提取Html文檔的關(guān)鍵詞。Html文檔分析主要是識別出Html文檔中主體內(nèi)容,對不同位置的內(nèi)容確定不同的權(quán)重。相關(guān)算法數(shù)學(xué)模型如下: (1)加權(quán)詞頻統(tǒng)計(jì) 其中,VTFik表示此條Tk在文檔di中的頻數(shù),N表示全部訓(xùn)練文本的文檔數(shù),Nk表示含有二個詞連在一起出現(xiàn)的次數(shù)。此條Tk的文檔數(shù)目。 (2)復(fù)合詞組生成公式 其中:公式(4)中的P(*)代表詞出現(xiàn)的概率,我們用文章中出現(xiàn)的次數(shù)替代,其中P(W1)表示第一個詞出現(xiàn)的次數(shù),P(W2)表示第二個詞出現(xiàn)的次數(shù),P(W1W2)是第一、二個詞同時出現(xiàn)的次數(shù)。 (3)文本相似度計(jì)算的公式、算法 相似度是指兩對比物具有共性大小的程度,系統(tǒng)在自動對文本分類時,常常用相似度來比較分析兩個文本共性大小而決定其是否能劃為同一類中。在向量空間模型中,文本泛指各種機(jī)器可讀的記錄。用D(Document)表示,特征項(xiàng)(Term,用t表示)是指出現(xiàn)在文本D中且能代表該文本內(nèi)容的基本語言單位,主要是由詞或短語構(gòu)成,文本可以用特征項(xiàng)集表示為D(T1,T2,…,Tn),其中Tk是特征項(xiàng),1≤k≤N。例如文檔中有a、b、c、d四個特征項(xiàng),那么該文本就可以表示為D(a,b,c,d)。對含有n個特征項(xiàng)的文檔而言,通常會給每個特征項(xiàng)賦予一定的權(quán)重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),簡記為D=D(W1,W2,…,Wn),我們把它叫做文本D的向量表示。其中Wk是Tk的權(quán)重,1≤k≤N。在上面那個例子中,假設(shè)a、b、c、d的權(quán)重分別為30,20,20,10,那么該文本的向量自然語言理解與處理技術(shù)余弦值表示,公式為: 其中,W1k、W2k分別表示文檔D1和D2第K個特征項(xiàng)的權(quán)值,1≤k≤N。 自動歸類中,我們利用類似的方法來計(jì)算待歸類文本和某類目的相似度。例如文本D1的特征項(xiàng)為a,b,c,d,權(quán)值分別為30,20,20,10,類目C1的特征項(xiàng)為a,c,d,e,權(quán)值分別為40,30,20,10,則D1的向量表示為D1(30,20,20,10,0),C1的向量表示為C1(40,0,30,20,10),則根據(jù)上式計(jì)算出的文本D1與類目C1相關(guān)度是0.86。 數(shù)學(xué)中,若n維向量為:V{v1,v2,v3,...,vn},則它的模為: 兩個向量的點(diǎn)積: 物理意義就是兩個向量的空間夾角余弦值相關(guān)度=(m×n)/(|m|×|n|),即余弦系數(shù)或相似度函數(shù)。余弦值為“1”,兩個向量的空間夾角為“0°”,即兩個文本完全相似;同樣道理,余弦值為0,兩個向量的空間夾角為“90°”兩個文本完全不同。 (4)余弦系數(shù) 假設(shè)Di、Dj是兩個不同的文本,經(jīng)過特征向量選取后得到的向量為Di=(d1i,d2i,…dmi)T與Dj=(d1j,d2j,…dmj)T,其中dkj(dki)表示關(guān)鍵詞k發(fā)生在文本j(i)中的頻率權(quán)重。則文本Di、Dj的余弦系數(shù)為: 其中: C—關(guān)鍵詞出現(xiàn)的次數(shù); Sum—特征向量中關(guān)鍵詞出現(xiàn)的次數(shù)總和。 我們用余弦系數(shù)方法求文本的相似度,而且參與運(yùn)算特征向量的維數(shù)相等,所以對獲取的特征向量還要做些處理,參與運(yùn)算的特征向量的關(guān)鍵詞要同時出現(xiàn)在兩個文本中,即對兩個特征向量幾何求交集。則得到最終向量Di與Dj,利用余弦系數(shù)進(jìn)行相似度計(jì)算。 判斷兩個文本是否相似需要一個標(biāo)準(zhǔn),即設(shè)定一個閾值檢驗(yàn)計(jì)算后的結(jié)果。若結(jié)果≥閾值,判定其相似。反之判定不相似。對于閾值選擇是比較靈活,可根據(jù)需要的精度進(jìn)行設(shè)置,精度要求越高,閾值越大,一般取值范圍是(0.5,1)。 (5)關(guān)鍵詞提取技術(shù)數(shù)學(xué)模型 關(guān)鍵詞提取技術(shù)核心算法是權(quán)重計(jì)算的算法,我們采用了改進(jìn)的TF*IDF算法,公式如下: 自動關(guān)鍵詞提取是基于中文分詞基礎(chǔ),根據(jù)Html結(jié)構(gòu)特點(diǎn),結(jié)合Html網(wǎng)頁處理技術(shù)實(shí)現(xiàn)的。 針對Html網(wǎng)頁處理,我們自己研發(fā)了Html文檔處理技術(shù),先對Html文檔進(jìn)行預(yù)處理,包括Html文檔清洗、去除無用內(nèi)容等,分析文檔結(jié)構(gòu)及內(nèi)容處理。Html網(wǎng)頁處理技術(shù)包括網(wǎng)頁主體內(nèi)容識別、去重,頁面信息抽取、網(wǎng)頁自動摘要、CSS(Cascading Style sheet)層疊樣式表單等。通過多種方式將Html網(wǎng)頁內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化信息內(nèi)容,以便信息查詢和管理。 Html網(wǎng)頁處理就是對Web非結(jié)構(gòu)化信息抽取,把網(wǎng)頁中非結(jié)構(gòu)化數(shù)據(jù)按照一定規(guī)則抽取、轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),是垂直搜索引擎和通用搜索引擎最大差別。例如:比較兩種購物搜索,抓取網(wǎng)頁后,對網(wǎng)中商品筆記本電腦的信息進(jìn)行抽取:商品名稱、型號、CPU、內(nèi)存、硬盤、型號、產(chǎn)地、保修事項(xiàng)、生產(chǎn)或經(jīng)銷商、聯(lián)系人電話等。非結(jié)構(gòu)化信息抽取有模板方式和網(wǎng)頁庫級結(jié)構(gòu)化信息抽取方式兩種: (1)模板方式 事先對特定的網(wǎng)頁進(jìn)行配置模板,抽取模板中設(shè)置好的需要信息,針對有限個網(wǎng)站的信息進(jìn)行精確的采集。優(yōu)點(diǎn):簡單、精確、技術(shù)難度低、方便快速部署。缺點(diǎn):需要對每一個信息源網(wǎng)站模板進(jìn)行單獨(dú)設(shè)定,在信息源多樣性情況下維護(hù)量巨大,難以完成。只適合少量信息處理,不適合搜索引擎級的應(yīng)用,很難滿足用戶對查全率的需求。 (2)網(wǎng)頁庫結(jié)構(gòu)化信息抽取 采用頁面結(jié)構(gòu)與智能節(jié)點(diǎn)分析轉(zhuǎn)換方法,自動抽取結(jié)構(gòu)化數(shù)據(jù)。可對任意正常網(wǎng)頁進(jìn)行抽取,全自動對具體網(wǎng)站事先生成模板,對每個網(wǎng)頁自動生成抽取規(guī)則,抽取準(zhǔn)確率高。能達(dá)到98%以上。原理是先去除垃圾塊,降低分析壓力,大大提高處理速度。通用性好,易于維護(hù)。只需設(shè)定、配置相應(yīng)特征參數(shù)即能改進(jìn)相應(yīng)的抽取性能,非專業(yè)人員經(jīng)過簡單培訓(xùn)就能維護(hù)。缺點(diǎn):技術(shù)難度大,前期研發(fā)成本高,周期長,適合網(wǎng)頁庫級別結(jié)構(gòu)化數(shù)據(jù)采集。 本系統(tǒng)對Html網(wǎng)頁處理采用了基于網(wǎng)頁庫結(jié)構(gòu)化信息抽取,將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)按需求轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),采用了頁面結(jié)構(gòu)與智能節(jié)點(diǎn)分析轉(zhuǎn)換方法,自動對任意正常網(wǎng)頁進(jìn)行結(jié)構(gòu)化數(shù)據(jù)抽取。完全自動化,無需人工干預(yù)。適合高端垂直搜索應(yīng)用或競爭情報(bào)分析系統(tǒng)。 [1]石純一,黃昌寧,王家廞.人工智能原理[M].北京:清華大學(xué)出版社,1993. [2]吳蔚天.漢語計(jì)算語義學(xué)—關(guān)系、關(guān)系語義場和形式分析[M].北京:電子工業(yè)出版社,1999. [3]林杏光.現(xiàn)代漢語述語動詞機(jī)器詞典[M].北京:北京語言學(xué)院出版社,1994. [4]尤昉,李涓子,王作英.基于語義依存關(guān)系的漢語語料庫構(gòu)建[J].中文信息學(xué)報(bào),2003,17(01):46-53. [5]由麗萍,范開泰,劉開瑛.漢語語義分析模型研究述評[J].中文信息學(xué)報(bào),2005,19(06):57-62. [6]郝曉燕,等.漢語框架語義知識庫及軟件描述體系[J].中文信息學(xué)報(bào),2007,21(05):96-101. [7]趙穎澤.漢語功能塊的自動分析[D].北京:清華大學(xué),2006. [8]杜永萍.基于模式知識庫的問題回答關(guān)鍵技術(shù)研究[D].上海:復(fù)旦大學(xué),2005. [9] Baker, Collin F., & Fillmore, Charles J., & Lowe, John B. The Berkeley FrameNet Project. In Proceedings of COLING/ACL. Montreal, Canada, 1998: 86–90. [10]Palmer, M., & Gildea, D., & Kingsbury, P. The proposition bank: An annotated corpus of semantic roles[J].Computational Linguistics. 2005, 31(01): 71–106.4 自動關(guān)鍵詞提取


三、Html網(wǎng)頁處理技術(shù)