互聯網時代高校就業信息垂直搜索模型

2021-09-13 09:11:20嚴慧琳

普洱學院學報 2021年3期

嚴慧琳

黎明職業大學商學院，福建泉州 362000

大學生就業問題屬于高校人才培養急需解決的問題，該問題在社會上的關注度很高[1]。在互聯網時代下，高校就業信息搜索模型水平的要求也逐漸增加，通過高校就業信息搜索模型實現就業信息的采集，解決大學生就業困難的問題，促進大學生對口專業就業的精準性[2-4]。

通用搜索模型是對全部互聯網信息實施采集與索引，因此該模型的查全率較高，但其覆蓋的信息較為廣泛，這導致該模型信息分類的精準性較低，不能滿足用戶高查準率的信息搜索要求。垂直搜索模型通過一定的策略實現遍歷深度與廣度的干預，使模型能夠遍歷所有和主題有關的網頁，再篩選出合理的遍歷結果，垂直搜索模型具有更為專注、精準與深入的優點。謝曉暉等研究了基于深度神經網絡的搜索引擎點擊模型構建[5]，程煜華研究了基于D-S 證據理論的信息檢索模型[6]，這兩個搜索模型的準確率與搜索效率均不高。

1 高校就業信息垂直搜索模型

高校就業信息垂直搜索模型主要通過5 個步驟實現信息搜索，分別為URL（Uniform Resource Locator，統一資源定位符）、信息采集、信息去噪、構建索引與信息搜索，圖1 為具體步驟流程圖。

圖1 互聯網時代高校就業信息垂直搜索模型

步驟1：以門戶網站就業信息板塊與權威就業信息網站的URL 為就業信息集的獲取途徑，通過人工發現方式獲取URL 初始就業信息。

步驟2：利用深度就業信息方法結合網絡爬蟲技術，獲取URL 就業信息網頁與包括就業信息的超鏈網頁信息，采用 DOM （Document Object Model，文檔對象模型）技術分析與提取各個URL 就業信息網頁，包括就業信息的超鏈接網頁信息內的就業名稱與地址等信息。

步驟3：基于節點權重去噪處理URL 就業信息網頁，包括就業信息超鏈網頁的就業名稱與地址等，去除無效與干擾信息，存儲于URL 資源庫。

步驟4：通過排序策略對資源庫內的網頁構建索引，形成索引庫。

步驟5：采用基于超鏈接和標記文本算法實現高校就業信息搜索。

1.1 就業信息采集

利用深度服務信息自動采集算法實現高校就業信息采集。圖2 為深度服務信息采集流程。

圖2 深度就業信息采集方法

采集方法流程步驟如下：

步驟1：通過原地圖矢量數據對POI（Point Of Interest，信息點）的分類編碼搜索就業信息名稱與地址等POI 點數據，依據定義結構形成深度就業信息點，就業信息字段空缺。

步驟2：利用網絡爬蟲獲取就業信息類網站上發布就業信息的服務地點URL，利用DOM 技術分析與提取各個URL 內就業信息的名稱與地址。

步驟3：計算步驟1 內獲取的各個深度就業信息點內的名稱、地址等字段和步驟2 內得到的各個URL 相應的名稱、地址等字符串相似度，選取最優URL 頁面的深度就業信息[7，8]，利用編輯距離與最大公共子序列算法補充步驟1 內空缺的就業信息。

1.2 就業信息去噪

1.2.1 算法基本思想

基于節點權重的去噪算法以VIPS（Visionbased Page Segmentation，基于頁面視覺分塊算法）為基礎，將VPIS 形成的基本視覺塊樹轉換成樣式樹，通過樣式樹節點內的樣式特征，先將葉子節點劃分為細粒度的樣式樹，然后權重標注樣式樹，最后依據權重標注實施剪枝，形成去噪后的URL 就業信息[9]。圖3 為URL 就業信息的去噪流程。

圖3 URL 就業信息去噪流程

一般情況下，所形成的樣式樹沒有權重表示，可以屬性節點為基礎，加入權重節點的概念。FT代表權重節點T，可記為F，（k,u,t,m），k為當前節點內鏈接數與總鏈接數的比值，也叫鏈接比；u為當前節點和容器節點在樹形結構中的距離，也叫樹路徑距離；t為總文本中當前節點的所占比例，也叫文本比；m為節點私有屬性的權重系數。利用節點的標簽數量n歸一化值R（Fj），可確保R（Fj）值處于[0，1]之間，公式如下：

式（1）中，第j個標簽的鏈接比是kj；第kj個標簽的文本系數是tj；第j個標簽的樹路徑距離是uj；權重樹內的節點路徑和是D。

1.2.2 視覺塊樹細粒度化

VIPS 形成的視覺樹，僅是大概提取URL 就業信息頁面的基本布局信息，粗粒度的視覺塊樹先將噪聲與正文整合在同一個塊內，再實施細粒度化。利用樣式節點與屬性節點對形成的樣式樹實施標注。通過子元素的相似度分析已完成標注的塊節點。二元組為子元素的樣式節點，E（Tag,Attrs,Content）為節點E的屬性信息，節點標識是Tag，屬性信息是Attrs，節點的文本信息是Content。lj與li的Styles（樣式節點）的存在形式是鍵值對，這就需要將鍵值對轉換成樣式系數Cj與Ci，通過節點標識 Tag 代表 HTML 內相應的 Node（節點）值，lj與li用（Tj,Cj）與（Ti,Ci）代表。判斷節點相似度公式為：

在相關系數比較小時，需要分裂子節點，通過從上至下的層次遍歷方式，實現初步分裂視覺樹。

1.2.3 細節樹剪枝

通過上述方法獲取的是一顆基于樣式的視覺樹，對于樣式與基本屬性方面，已經不能細分，以基于樣式的視覺樹為基礎，實施噪聲的判斷[10，11]。通過統計大量線上URL 就業信息頁面發現，噪聲區域的鏈接比通常多于正文區域，文本比較低，樹距離較淺。這需要加入權重節點的概念，以從上至下的方式標注細粒度化的視覺塊樹，再剪枝處理權重低的節點。初次遍歷時，可刪除具有樣式樹節點內存在的鍵值對 position：fixed 與 display：none 的節點，實施一次簡單的預處理，position：fixed 在網頁內屬于懸浮窗，display：none 在網頁內屬于不做顯示的元素，根據觀察很多網頁的經驗發現，position：fixed與display：none 均是判斷噪聲節點的主要依據。

剪枝算法的步驟為：

步驟1：得到樣式樹，假設Tj為樣式樹。

步驟2：循環處理樣式樹的各個節點Fj。

步驟3：如果一個節點的css（Cascading Style Sheets，層疊樣式表）屬性內存在position：fixed 與display：none 等鍵值對，就需要刪除這個節點。

步驟4：計算出文本比與節點的距離深度后，計算權重值R（Fj）。

步驟5：循環處理樣式樹的各個節點FT。

步驟6：去除平級節點內權重較小的節點。

1.3 信息搜索算法

1.3.1 算法描述

利用基于超鏈接和標記文本的算法實現高校就業信息的搜索，具體步驟如下：

另一方面，銷售成本的增加以及銷售收入的降低都將導致企業毛利率的下降，米奧會展2016年較2015年度平均銷售單價上漲14.79%，而平均單位銷售成本上漲30.69%，其中單位宣傳推廣成本上漲136.98%；2017年較2016年度平均銷售單價下降1.23%，同期平均單位銷售成本上漲3.14%，單位宣傳推廣成本下降0.60%。由此可見，宣傳推廣成本的增加也是導致境外自辦展毛利率下降的主要因素。

步驟1：將索引庫內的就業信息網頁當作圖G，圖G內各個文檔B均有Authority 與Hub 兩個值。其中，Authority 表示一個權威URL 就業信息網頁的入度值，就是該URL 就業信息網頁被其余網頁引用的數量。一個網頁的入度值與Authority 值成正比。Hub 表示一個URL 就業信息網頁的出度值，就是該URL 就業信息網頁指向其余網頁的數量，可獲取指向權威網頁的鏈接集合。某一個網頁的出度值與該網頁的Hub 值成正比，Hub 網頁具有隱含說明某一個就業話題權威網頁的作用。優質的Hub 網頁為指向很多存在很高的Authority 值的網頁，優質的Authority 網頁為通過數個很高的Hub 值所指向的網頁。用A[B]代表Authority 值，用H[B]代表Hub值其中，網頁集合是V。

步驟 2：初始化A[B]與H[B]，獲取A[B]=1 與H[B]=1。

步驟3：內容匹配，匹配所搜索關鍵字和鏈接中的標記文本，若匹配，那么對鏈宿網頁賦予標記，再計算得到這個網頁的權值weight（B），若不匹配，那么掃描在這個網頁內的全部內容，再計算得到對應的權值weight（B）。

步驟4：歸一化權值weight（B）。

步驟6：計算Authority 值與Hub 值的權值為

H[B]=weight（B）×H[B]

步驟7：歸一化處理所計算得到的A值與H值，即

步驟8：如果A值與H值沒有收斂的情況下，轉到步驟5。

步驟9：設置Y為門檻值，同時選出A值與H值超過Y的全部網頁和賦以標記的網頁，按照排序輸出搜索結果[12-14]。

1.3.2 文檔相關度權值的計算

文檔的相關度權值就是文檔和搜索條件的相似程度，權值與相似程度成正比，權值越高，和文檔相關性越高[15]。在搜索條件和超鏈接中標記的文本匹配情況下，依據N層向量空間模型算法，在邏輯上將一個文檔劃分成N個相對獨立的文本段，通過文本段的內容構建文本特征向量與文本權值向量。超鏈接屬于一個獨立的文本段，能夠通過N層向量空間模型算法計算各個URL 就業信息網頁的權值，計算公式為：

式（3）中，G網頁特征項hG的權值是WG，鏈接中標記文本的長度是L，G網頁特征項hG在鏈接中出現的頻率是hf G，那么第a條匹配的超鏈接權值為：

式（4）、（5）中，匹配的超鏈接條數是b，搜索條件內不同特征項數量是e。

在搜索條件和標記文本不匹配的情況下，掃描URL 就業信息網頁全部內容，利用TF*IDF 方法計算文檔的相似度，公式為：

式（6）中，特征項hG表示文檔dz的能力大小是WzG，特征項hG在文檔dz內出現的頻率是hf zG，文檔集合中的文檔個數是N，文檔集合中出現特征項hG的文檔個數是BG，特征項hG反比文檔頻率是zdf G。

根據式（6）發現，hf zG與WzG成正比，BG與WzG成反比，表示特征項可以代表文檔的內容。

利用余弦公式計算全部URL 就業信息網頁權值，第z篇文檔和搜索條件Q的相關性是S（dz,Q），公式如（7）所示：

2 實驗分析

從互聯網中下載1 000 個網頁為實驗對象，將其平均分為10 組，每組包含50 個屬于高校就業信息的網頁，分析本文模型搜索高校就業信息的性能。

2.1 采集性能

采用本文模型與文獻[5]模型、文獻[6]模型在1 000 個網頁中采集有關高校就業信息的網頁，其中基于深度神經網絡的搜索引擎點擊模型構建與基于D-S 證據理論的信息檢索模型研究，分別是文獻[5]模型與文獻[6]模型，表1 為三種模型的采集結果。

表1 三種模型的采集結果

根據表1 可知，本文模型能夠有效采集到有關高校就業的網頁，準確性更高。

2.2 去噪性能

利用可以同時兼顧準確率與召回率的F-measure 作為綜合評價指標，測試三種模型對網頁去噪處理的準確率，準確率公式為：

式（8）、（9）中，當前網頁被抽取出的正文塊是λ0；當前網頁內全部的正文塊是λ1；正文內抽取出來的信息塊是λ2。

在F-measure 公式內β用于調整準確率與召回率的權重，實驗中只需考慮網頁抽取的準確率與召回率，故選擇1 為β值，判斷去噪效果的公式為：

利用三種模型對1 000 個網頁實施去噪處理，圖4、圖5 與圖6 分別為三種模型的去噪處理準確率、召回率與F-measure 值。

圖4 三種模型去噪處理的準確率

圖5 三種模型去噪處理的召回率

圖6 三種模型的F-measure 值

根據圖4、圖5 與圖6 可知，本文模型能夠有效對所采集的高校就業信息網頁實施去噪處理，去噪準確性更高。

2.3 搜索性能

評價就業信息搜索模型性能的主要指標是查全率與查準率。查全率為搜索到的相關高校就業信息網頁和全部符合條件的高校就業信息網頁數量的比例；查準率為搜索到的相關高校就業信息網頁和搜索到的所有網頁的比率。

利用三種模型搜索100 個文本文件中的高校就業信息，測試三種模型在Authority 值與Hub 值情況下的查準率與查全率，表2 與表3 分別是兩種值情況下的查全率與查準率。

表2 Authority 值情況下的查全率與查準率

表3 Hub 值情況下的查準率與查全率

根據表2 與表3 可知，三種模型均是隨著查全率的不斷提升，呈現查準率逐漸降低的趨勢。實驗證明：本文模型的查全率與查準率均高于其余兩種模型，能夠有效克服主題偏離情況。

為分析本文模型的搜索性能，測試三種模型的排序誤差率與查詢速度，分別如圖7 與圖8 所示。

圖7 三種模型的排序誤差率

圖8 三種模型的搜索時間

根據圖7 可知，三種模型的排序誤差率均隨著文本文件數量的增加而增加，本文模型排序誤差率的增加幅度明顯低于其余兩種模型。

根據圖8 可知，隨著文本文件數目的不斷增多，三種模型的搜索時間均有所增長，本文模型的搜索時間增長得比較平緩，其余兩種模型的搜索時間的增長幅度較大。

3 結論

搜索模型屬于互聯網中重要的信息采集工具，垂直搜索模型是第四代搜索模型，屬于針對指定領域的搜索模型，比通用搜索模型更為專業。互聯網時代高校就業信息垂直搜索模型，僅對垂直搜索模型實施了初步研究，日后在保證搜索準確率與搜索效率的同時，還可深入研究大學生的查詢記錄，挖掘大學生潛在的求職意向，優化搜索的排序結果。