孟凡強 朱洪濤
從異構、繁雜、豐富的數據中。準確、快速地找到自己所需要的信息,減少信息搜尋時間,是知識工作者面臨的巨大挑戰。
過去的10年,我們經過了由信息匱乏到信息過量的轉變。在銷售額過30億的企業,或市級以上主要政府機構,擁有的IT系統數量一般會超過10個。這些系統中的信息,包括結構化數據,也包括非結構化信息,如多格式的文檔、郵件、網頁等。根據調查,85%的信息是非結構化的,每三個月增加一倍。
知識工作者,面臨著尋找信息的挑戰。根據調查,知識工作者每天30%的工作時間,用于收集信息;72%的管理者認為,知識沒有在他們的組織中得到重復利用。從這些異構、繁雜、豐富的內容中,準確、快速地找到自己所需要的信息,減少信息搜尋時間,能夠創造巨大的價值。
非結構化信息管理的應用熱點
知識管理,有不同的應用點。這些應用點的設計開發,已經考慮了怎么幫助企業用戶更好地獲取他所需要的知識。
1)門戶。門戶應用的核心在于展現和集成。企業內部所擁有的信息系統的數量在增多,導致用戶需要登錄和瀏覽多個系統,門戶可以將多個系統的應用點集中在一個界面上。第二個應用重點是:怎么能夠高效、快捷、多樣、美觀地對內容進行展現,減少程序設計量和改版工作量。
2)文檔管理。文檔的價值,重在重用。無論是記載了既往的經驗、訣竅、心得、數據的工作文檔,還是承載了規范、方法、工具的工作模版,如果能夠供后來者使用,都能帶來效益和效率的提高。
3)協同。要點在知識與業務過程結合。無論是辦公自動化系統中的文檔,或是營銷系統中的文檔管理,還是產品數據管理中的文檔管理,都是將文檔與業務的運作結合起來,在具體業務的經營管理中,同步進行知識管理。
4)社區。重在隱性知識向顯性知識的轉化。隨著Web 2.0應用的普及化,博客、論壇、問題庫、圈子、人脈網絡等在大型企業內部的應用,亦逐步增多。由此,企業的社區不僅僅是論壇這一個應用。社區,促進了隱性知識向顯性知識的轉化。
5)E-learning系統。也是企業知識管理的應用重點之一,使得受制于講師、空間、時間的面授培訓,變成用戶來點播使用的基于網絡的培訓。對于知識性的培訓來說,這不僅有品質的保障,而且大大降低了成本。
上述這些不同的應用,外加企業內部建設的業務類、管理類系統,帶來了信息量的膨脹,異構的數據。用戶如何從這些系統中獲取所需的信息,所費的時間越來越多。
搜索:信息展現的核心應用
與企業內部應用相比,互聯網站在內容的展現方面積累了諸多經驗,形成了系列規則和約定俗成的規范,值得企業內部知識管理系統學習借鑒:屬性的廣泛應用使得前臺展現的緯度更加多元化,也使得計算能力得到節約;Tag的應用使得信息分類的顆粒度變得更小、更個性化、更長尾化;關聯性的應用可以有效地幫助用戶獲取他所需要的信息,可以增加用戶訪問某一網站或應用系統的點擊量;信息展現方式的改進使得頁面的樣式改變不需要重寫程序,效率大大提高;用戶自定義使得系統界面及內容能夠個性化。
上述方法可以幫助系統管理員,方便地從業務的視角,來幫助用戶獲取知識。
而對用戶來說,企業級搜索所提供的服務,與公眾類搜索引擎類似。在企業內部部署后,其提供的核心價值在于:
搜索的準確性。專業的企業級搜索軟件基于自己的算法,可幫助用戶更準確地找到與其關心的關鍵詞相匹配的內容。當搜索用戶并不熟悉的專業內容時,軟件所提供的搜索結果,比目錄、屬性甚至人工推薦更值得信賴。搜索準確性,除依賴于搜索算法外,也依賴于分詞技術。比如搜索“制造業商業智能”,搜索軟件能夠根據專業的詞庫將其分解為制造業和商業智能兩個詞對內容進行精確搜索。搜索準確性,也依賴于附件搜索技術,即對常見的文本處理文檔,能夠進行索引和搜索。
內容自動分類、摘要和關鍵詞的自動提取。如果人工對大量的內容進行入庫處理,如標注分類、屬性、Tag、提取摘要,質量依賴人工監控,不穩定。每個編輯人員,每天處理的內容在250篇。隨著信息量的增多,內容入庫的成本也在增加。用技術實現內容自動分類,關鍵詞和摘要的自動提取,使得編輯人員的工作從人工入庫變為對機器分類結果的審核。這樣,既可以兼具機器分類和人T分類的優勢,又可以幫助提高效率節約入庫成本。
依賴于上述兩個核心應用點,面向用戶端,在門戶系統、文檔管理系統、業務系統、社區系統、在線培訓系統等知識管理系統中,靈活地使用屬性、Tag、關聯性、信息展現方式、用戶自定義等,可以使得用戶獲取信息的效率和質量得到非常大的提高。
1)搜索結果展現方式的多樣化。可按時間、相關度等排序;用戶或管理員可配置搜索選項。從而將豐富內容的威力,充分地發揮出來。
2)推出高質量的推送服務。根據用戶的特點,如性別、區域、行業、職業、興趣、愛好等,向用戶提供推送服務。如暢享網所經營的、面向機構用戶的商務資訊庫KNET中,就提供“我所關注的競爭對手”、“我所關注的客戶”“我所關注的行業”、“我關注的管理知識”、“我所關注的信息化知識”等推送服務。
3)提高單用戶的訪問量。搜索結果頁,可以實現實時的推送,即用戶在瀏覽某一內容時,系統自動匹配及推送他可能關心的其他內容。亦可以提供動態的相關分類或關鍵詞,為用戶動態提供相關的數據、文章、人員、應用系統等。這可以大大提高單用戶訪川單一系統的點擊量。在很多情況下,這可以幫助用戶更迅速、更準確地定位他所需要的內容。
4)結構化數據與非結構化信息的關聯。將非結構化信息與結構化數據,關聯起來。在用戶搜索非結構的文章時,可以將結構化的相關數據、人員、訂單等展示給用戶。當用戶搜索結構化的數據、人員、訂單、財務、材料等信息時,可將非結構化的文件展示給用戶。
建立高質量搜索系統的難點
從當前的實踐來看,建立高質量的企業級搜索系統,有如下值得關注的難點:
軟件的選擇或開發。搜索軟件是高質量搜索系統的基礎所在。從技術來源上說,自己開發搜索軟件,因為面臨算法、性能等技術難題,可行性小。采用商品化的搜索軟件,是可行辦法。需要從市場上不多的專業搜索軟件中,選擇合適的搜索軟件。
專業詞庫的建立。建立企業級搜索系統的機構,對搜索的準確性比一般機構有更高的要求。搜索引擎自帶的詞庫,不足以勝任對搜索準確性的高要求。根據自身機構的專業特點,建立分級、分類的專業詞庫,是基礎的、繁雜的、高價值的工作。
搜索軟件的實施。搜索軟件提供的是搜索和分類兩個核心應用點。如何充分地應用兩個核心應用點,進行用戶搜索頁、搜索結果頁、文章閱讀頁的設計?如何提供與用戶自身個性化特點相匹配的內容的推送服務,從而提高用戶獲取信息的效率和主動性?從而使得搜索在非結構化信息的應用系統中無處不在,大大提高系統的用戶友好性。這都依賴于對搜索軟件的有效實施。