

近年來,黨中央制定了“千人計
劃”,大力引進(jìn)海外高層次人才。但由于渠道單一,專業(yè)性強(qiáng),收集海外高層次人才時信息量較小,無法滿足國內(nèi)用人單位對緊缺型人才的渴求。借助互聯(lián)網(wǎng)搜索引擎的查詢手段,則由于用人單位需要全方面了解被查詢?nèi)说男畔⒉拍茏鞒鼍C合評估,這在海量的互聯(lián)網(wǎng)信息中準(zhǔn)確操作也并非易事。
作為國家引進(jìn)海外高層次人才的服務(wù)窗口之一,國家外國專家局擁有最為權(quán)威的國家級海外人才數(shù)據(jù)庫。經(jīng)過兩年的研發(fā),國家外國專家局國外人才信息研究中心(以下稱信息中心)于近期開發(fā)出一個用戶可以搜索出所需的海外高層次人才簡歷的搜索引擎,其功能就是將網(wǎng)上公開的簡歷信息搜集到一起并提供給國內(nèi)有需求的用人單位進(jìn)行檢索,不斷挖掘公開的海外高層次人才簡歷,充實海外人才庫,為國內(nèi)的用人單位提供更為廣泛的信息資源。
搜索引擎的組成和核心
這一搜索引擎由蜘蛛系統(tǒng)、后臺管理系統(tǒng)、前臺展示系統(tǒng)以及監(jiān)控系統(tǒng)四個系統(tǒng)模塊組成。蜘蛛系統(tǒng)用來從互聯(lián)網(wǎng)上抓取信息;后臺管理系統(tǒng)是對抓取的數(shù)據(jù)進(jìn)行挖掘,其功能包括人工干預(yù)抓取的簡歷信息、刪除無用信息、保留可看信息,亦可人工錄入簡歷信息;前臺展示系統(tǒng)由用戶模塊、搜索簡歷模塊、簡歷展示模塊組成;監(jiān)控系統(tǒng)用來監(jiān)控各個系統(tǒng)模塊是否正常運(yùn)行,監(jiān)控系統(tǒng)每隔5分鐘自動對蜘蛛系統(tǒng)、管理系統(tǒng)、前臺展示系統(tǒng)探測一次,發(fā)現(xiàn)問題會向管理員發(fā)郵件報警。
搜索引擎中的蜘蛛系統(tǒng)是最核心的系統(tǒng)模塊,在蜘蛛系統(tǒng)中采用了三種搜索方式:廣域網(wǎng)搜索、垂直搜索和索引頁面搜索。其中垂直搜索引擎最為重要,而將正文信息從一個網(wǎng)頁中抽取出來,對于垂直搜索引擎來說就更關(guān)鍵了。垂直搜索引擎由三部分組成:抓取系統(tǒng)、索引系統(tǒng)及檢索系統(tǒng)。抓取系統(tǒng)即是蜘蛛系統(tǒng),網(wǎng)頁正文信息抽取是蜘蛛系統(tǒng)中的一個重要的功能模塊。蜘蛛系統(tǒng)的功能就是將抓取回來并且符合條件的網(wǎng)頁保存到數(shù)據(jù)庫中。在這個過程中,抓取回來的網(wǎng)頁內(nèi)容如不經(jīng)過任何處理就保存下來的話,那么用戶在檢索的時候,會出現(xiàn)很多問題:一是由于網(wǎng)頁保存了太多與主題不相關(guān)的內(nèi)容,導(dǎo)致索引量大,檢索效率降低;二是結(jié)果展示頁面中嵌套原始網(wǎng)頁;三是由于相對路徑的問題導(dǎo)致無法顯示原始網(wǎng)頁中的圖片;四是由于相對路徑的問題導(dǎo)致樣式表失效,有可能會造成原始網(wǎng)頁結(jié)構(gòu)變形,從而導(dǎo)致結(jié)果展示頁面的變形。
因此,要給搜索的內(nèi)容制定主題,主題蜘蛛系統(tǒng)是在普通蜘蛛系統(tǒng)的基礎(chǔ)上產(chǎn)生的。它也是垂直搜索引擎的重要組成部分之一,它為整個垂直搜索引擎系統(tǒng)提供了基礎(chǔ)的數(shù)據(jù)。
主題蜘蛛的工作流程和功能
主題蜘蛛的工作流程就是一個隨著鏈接不停地向與主題相關(guān)的頁面進(jìn)行爬行的過程:一是獲取HTML網(wǎng)頁中的鏈接,根據(jù)鏈接分析各個網(wǎng)頁之間的關(guān)系;二是從HTML網(wǎng)頁中自動地獲取頁面信息;三是處理完成后,根據(jù)第二步的分析結(jié)果,選取下一個鏈接,直到處理完全部鏈接。
主題蜘蛛系統(tǒng)是以普通蜘蛛系統(tǒng)為基礎(chǔ)的,對普通蜘蛛功能進(jìn)行擴(kuò)充,使其搜索的內(nèi)容更加的 “精”、“專”、“深”。主題蜘蛛系統(tǒng)包括:主題確立模塊、抓取模塊、主題預(yù)測模塊、主題相關(guān)度分析模塊、網(wǎng)頁正文信息抽取模塊、網(wǎng)頁分析模塊和排序模塊。各個模塊之間相互協(xié)調(diào)工作,具體流程如圖1所示:
1.主題確立模塊根據(jù)預(yù)先提供的信息計算出本次抓取的主題,將主題關(guān)鍵詞集合保存在文本中。
2.抓取模塊首先導(dǎo)入主題關(guān)鍵詞集合,并根據(jù)初始地址,開始抓取網(wǎng)頁。
3.網(wǎng)頁分析模塊對已抓取的網(wǎng)頁進(jìn)行分析,對不同的結(jié)果進(jìn)行相關(guān)處理,提取出URL和文本信息。
4.網(wǎng)頁分析模塊開始調(diào)用主題相關(guān)度分析模塊,判斷該頁面的主題相關(guān)度是否小于設(shè)定好的閥值,如果小于該閥值,即與主題不相關(guān),結(jié)束本次工作;若大于該閥值,將會繼續(xù)調(diào)用主題預(yù)測模塊以及正文提取模塊。
5.調(diào)用主題預(yù)測模塊,對提取出來的URL進(jìn)行預(yù)測,并將預(yù)測結(jié)果保存到URL數(shù)據(jù)庫。
6.調(diào)用正文提取模塊,將抽取出來的網(wǎng)頁正文信息保存到網(wǎng)頁信息數(shù)據(jù)庫。
7.排序模塊對抓取回來并且經(jīng)過網(wǎng)頁正文信息抽取的網(wǎng)頁進(jìn)行排序。
8.抓取模塊從數(shù)據(jù)庫中取出等待處理的URL繼續(xù)工作,如此循環(huán),直到?jīng)]有新的URL為止。
了解了各個模塊之間的工作流程,下面再逐一展開對功能模塊的介紹:
1.主題確定模塊:垂直搜索引擎的一個最大特點就是抓取的數(shù)據(jù)相對于通用搜索引擎來說是帶有主題的。主題蜘蛛在抓取的過程中只對與事先設(shè)置好的主題內(nèi)容感興趣。所以,主題確立模塊是主題蜘蛛工作的基礎(chǔ),在垂直搜索引擎進(jìn)行抓取之前對所要抓取的主題進(jìn)行確立是必須步驟。
2.抓取模塊:抓取模塊的功能非常簡單,即獲取指定URL地址的網(wǎng)頁內(nèi)容,但是在抓取時還需要考慮一些因素,比如響應(yīng)時間。有些網(wǎng)站會自動屏蔽掉抓取程序,如發(fā)現(xiàn)在抓取某個網(wǎng)站的頁面時,經(jīng)常出現(xiàn)大于響應(yīng)時間的情況,程序就會暫時終止對該網(wǎng)站的抓取。在本模塊中,輸入數(shù)據(jù)是初始地址或URL數(shù)據(jù)庫中的數(shù)據(jù),輸出數(shù)據(jù)是未經(jīng)處理的HTML網(wǎng)頁、DOC文檔、PDF文檔。
3.主題預(yù)測模塊:它的功能是對URL數(shù)據(jù)庫中未處理的URL進(jìn)行主題相關(guān)度的預(yù)測。如果預(yù)測結(jié)果大于某個閥值,則認(rèn)為該URL與主題相關(guān),將進(jìn)入URL數(shù)據(jù)庫中,等待抓取模塊進(jìn)行抓取;如果預(yù)測結(jié)果小于某個閥值,則認(rèn)為該URL與主題不相關(guān),該URL將被舍棄。
4.主題相關(guān)度分析模塊:為了保證主題蜘蛛抓取的網(wǎng)頁與事先設(shè)定好的主題保持一致,必須對抓取回來的網(wǎng)頁進(jìn)行相關(guān)度分析,主題相關(guān)度分析模塊就按照某種算法計算出該頁面主題相關(guān)度的閥值,將小于閥值的網(wǎng)頁刪除掉,避免將這些網(wǎng)頁中的鏈接保存到URL數(shù)據(jù)庫中,來提高抓取的效率。
5.網(wǎng)頁分析模塊:它是將網(wǎng)頁中出現(xiàn)的鏈接,供主題預(yù)測模塊使用,并提取頁面標(biāo)題、段落標(biāo)題等信息,供主題相關(guān)度分析模塊使用;它還調(diào)用主題相關(guān)度分析模塊、主題預(yù)測模塊。
6.網(wǎng)頁正文信息抽取模塊:抽取模塊就是抽取出網(wǎng)頁中的正文信息。網(wǎng)頁正文信息抽取模塊又可以細(xì)分為解析模塊、過濾模塊、分析模塊、剪枝模塊、轉(zhuǎn)換模塊(如圖2)。
7.排序模塊:根據(jù)網(wǎng)頁的主題相關(guān)度進(jìn)行重新排序,把主題相關(guān)度高的頁面排到前面,使它們更容易地被用戶檢索到。默認(rèn)情況下,網(wǎng)頁排序主要按時間順序排列,通過主題相關(guān)度的計算,可以按照相關(guān)度的高低給出一個相對合理的排序。
從海外高層次人才搜索引擎中最為重要的主題蜘蛛系統(tǒng)各個模塊之間的工作流程、體系結(jié)構(gòu)、功能作用中,我們可以看出主題蜘蛛系統(tǒng)在整個搜索引擎中起到的核心作用。只有正文信息抽取成功率高,可看信息多于無用信息,那么海外高層次人才搜索引擎才會被用戶逐漸認(rèn)可。
此外,國家外國專家局國外人才信息研究中心還會對該搜索引擎的功能不斷地開發(fā)改善,以海外高層次人才搜索引擎為基礎(chǔ),進(jìn)一步加強(qiáng)對簡歷信息來源的控制,增加評價體系中對專家成就、學(xué)術(shù)會議、論文與著作等信息的添加管理,以此提高簡歷的質(zhì)量控制。
(作者單位:國家外國專家局國外人才信息研究中心)