吳彬 楊振興 郭芳琳 唐笑梅


摘 要:隨著社會經濟的不斷發展,科學技術也在不斷創新完善。加強工程項目查重系統的建設,建立相應的數據庫,以全面加強工程項目質量檢驗工作就需要加強工程項目查詢系統的建設,而且能夠結合現代化技術不斷完善查詢系統,從多個角度、多個方向實現差異化的質量控制,以全面提高工程項目建設的質量,提升其實際的應用效果。因此,著重探究了如何借用現代化技術不斷完善工程項目查詢系統,并結合實際應用中存在的問題進行創新和發展,全面提高工程項目查重系統的穩健性。
關鍵詞:工程項目;查重系統;應用分析
引言
如今這個信息膨脹的時代為信息共享提供了一個良好的環境。從一個角度來看,信息技術使得工程項目的質量得到有效的提高,但從另一個角度來看卻是難以保障科研項目資源的安全。在工程項目建設的過程中出現了大量的相似信息,為了全面加強這些信息的管理工作,在實際的應用中要想能夠準確并快速的找到相應的內容,則需要建立相應的查重系統。自助查重系統能夠結合信息技術以及時判定工程項目與現有數據庫中的信息是否存在大量相似的部分,及時檢測出相似的部分,從而在后期能夠為工程項目工作提供指導性的意見,確定研究方向和研究重點。
一、研究現狀
我國已逐漸意識到加強工程項目查詢系統建設的必要性和重要性,因而逐漸加大了資金投入。而國外對于工程項目查詢系統并沒有相關的研究,但在部分文獻中提出了關鍵字提取、相似度計算等觀念;國外也并沒有提出構建查重系統的概念,而是借助向量空間模型來計算向量之間的相似度,從而計算文本間的相似度。向量空間模型是基于統計學衍生出來的計算相似度的方法,其最大的優勢在于計算的效率相對較高,實用性很強。但在向量空間模型的實際應用過程中,為了提高使用效率的需要有一個龐大的數據庫作為支撐。而這種單一的計算方式難以加強項目工程整體的相似度檢測,正如在一篇文章的查重中只能通過漢字來查重,難以綜合文章的語義和詞語近義詞、文體等多個方面來實現系統的查重,而這樣的查詢方式已經無法滿足現階段工程項目查重的要求。例如,在文章查重當中,首先要加強文本內容相似度的檢驗,同時綜合考慮到詞語、句子和段落之間的聯系,以借助更為復雜、難度更大的查重系統全面提高查重的準確率,而這也是未來工程項目查重系統發展的趨勢。我國在這方面的研究起步相對較晚,但在實際的查重系統建設過程中結合了先進的思想和理念,不斷完善工程項目查詢系統;同時,綜合利用了我國的先進技術,在建立向量空間模型的同時,擴大了工程項目查重的范圍,除了名稱、內容、技術指標等各個方面之外,把更多的注意力放在了項目內容相似度的檢測上,通過加權平均以獲得最終的檢測結果。而大數據也為工程項目系統查重工作提供了有效的幫助,通過數據挖掘以獲取相關的項目信息,在修正的過程當中全面提高查重結果的準確性。但現階段,我國工程項目查重系統建設中,由于信息共享度相對較低,存在著查重的范圍相對小,查全率不高等弊端。
二、項目查重的含義
在工程項目的建設過程中,為了全面提高其實際的效果和質量,以達到實際的研究需求,避免重復研究的現象發生,構建工程查詢系統,以加強信息公開,實現資源的統籌規劃,從而保證工程項目能夠公正公平地開展,同時能夠充分突出其實際的服務效能。通過項目查重以加強數據信息的監測,全面了解項目的研究狀況和成果產出情況,為后期的項目申請等相關工作提供有效的參考以避免重復申請、重復研究的現象發生,以盡可能地利用現有的資源全面提升工程項目研究的質量。對于同一主題的項目在實際的研究過程中,相應的工作人員可以從基礎前沿、關鍵性技術,以及應用示范等各個方面出發,其中包含了多個布局項目。為了加快研究的進程,在實際的研究過程中還會出現多個隊伍從不同的路徑去研究,因而研究活動存在交叉現象。而為了有效避免這些不同的技術路線出現相同的申報項目,應通過建立項目查重系統有效避免在工程項目工程開發過程中出現重復的現象。因而在項目查重的過程中,則需要加強對項目名稱、申請者研究內容等相關信息的檢測。雖然這樣的項目查重難以完全避免重復立項的現象發生,但是其建立的綜合項目目標、內容和技術路線為項目的后期研究和發展提供相應的決策支持,通過比較可以實現擇優。因而,在項目查重工作開展的過程中,首先要結合查重的目標,選擇相應的查重樣本庫,從而通過相似性計算來設定閾值,將查重的最終結果和閾值進行比較檢驗,并顯現出項目工程的相似度和相似文本。項目查重的流程如圖1所示。
三、工程項目查重系統設計
(一)功能結構
在工程項目查詢系統的設計過程中,首先要從功能結構和功能需求兩個方面出發,全面提高查重系統的實用性,同時達到實際的應用需求。在工程項目查重的過程中要能夠充分利用現有的資源優勢,借助互聯網加強項目申請書、工程報告項目成果等信息的收集和處理。為了全面提高項目的查全率,在實際的建設過程中則需要結合多個部門共同研究,通過系統的查重分析,以挖掘具有一定關聯性的信息源,通過相似性的檢測,全面加強文本內容分析,為相關工作人員提供更加專業系統的服務,使得工程項目能夠穩定開展,同時能夠有效避免出現多頭分散立項和重復研究的現象發生。在項目查重系統的建設過程中,首先要加強系統功能設計,充分考慮到用戶的實際需求,在做好樣本庫管理的同時,做好檢測管理和系統管理等相關模塊,以全面提高項目查重系統的有效性。查重系統功能結構如圖2所示。
(二)功能需求
在工程項目查詢系統的建設過程當中,除了加強相似性的對比之外,還需要結合具體的項目數據來實施相應的查重工作。在項目查重工作中,可以通過對申請書內容的比較重,也可以結合工程報告和工程成果等相應的資源進行綜合性的相似度對比,通過全面的對比以及時挑選出立項重復的結果,篩選出題目相同、報告內容相似度較高的項目。而且以元數據為基礎,通過搜索申請人或機構所提供的信息和數量,結合現有的元數據字段進行綜合性的檢索,初步了解并判斷工程項目出現重復申報的概率。針對出現的不同狀況,在項目查詢系統的實際應用過程中,則需要通過進一步的查重,全面提升查重系統的使用效果。對于部分項目名稱、承擔機構或申請人相同的項目,則需要通過對申請書內容相似度的檢測以確定是否出現重復。而對于申請人相同、項目名稱不同的工程項目則需要進一步加強對申請書內容,申請時間和申請機構的相似度檢驗。綜合考慮到項目名稱、項目內容以及相關技術在項目查重中所占的比重,通過加權的方式來計算項目工程整體這相似度。綜合不同的功能需求,在項目查重系統構建過程中,還需要加強對工程報告和成果的相似度檢驗工作,通過有效的審核,以借助豐富的信息支持全面提升工程項目查重結果的準確性。因而,在功能模塊設計的過程中需要結合詳細的功能需求實現工程項目某一方面的查重或者綜合型的查重。
四、系統基本構架
(一)體系結構
工程項目查重系統體系結構可以分為數據層、業務邏輯層和表現層等三個不同的部分。其中,數據層又包含了項目庫報告庫和成果庫等不同的內容;業務邏輯層主要是通過分詞和特征詞的提取建立知識表示模型,從而通過相似度的計算來確定重復率;表現層則是通過項目信息檢索,通過相似性檢測,全面加強系統管理工作。而表現層主要是面向相應的工程管理機構和相關人員,以結合不同用戶的特點和不同需求提供個性化的服務,以方便相關人員來查詢基本的信息,實現基礎服務的比對,同時還可以實現大數據的立項查重。
(二)工作流程
在工程項目查詢系統的構建過程當中,為了全面提高工程項目相似性分析結果的準確性,首先要加強對現有信息資源的處理工作,通過對工程項目申請書的預處理,做好關鍵詞和特征的提取。因而在特征詞的提取過程中,首先要去掉語氣詞,助詞,連詞等,選擇更具有針對性和代表性的詞匯作為特征項。為了保證下一步工作能夠順利開展,在提取好特征詞后,則需要構建相應的表示模型,結合樣本庫構建完整的知識表示模型。在項目工程檢測的過程中,首先利用相應的知識模型來實現初步的檢測,借助相似度計算模塊來完成帶測模型與樣本庫的模型相似度計算,將計算所得的結果與判別模塊中的閾值進行綜合的對比和分析,從而確定是否超出閾值,是否出現相似的情況。
五、實際應用和技術分析
(一)層次聚類
在工程項目查重系統的構建過程當中,僅依靠傳統的查重方式難以保障工程項目評審的準確性和科學性。而借助層次聚類這一方式通過有效的聚類分析,將相應的項目文本劃分為不同的簇,通過簇內比較和簇間比較,全面加強文本分類。聚類分析包括了劃分法、層次法、K鄰近法等多種方式。而通過層次聚類以全面加強文本相似度的計算工作,結合項目本體建立相似度計算模型,綜合利用最小二乘法、最大似然法等相應的技術,提升文本相似度,計算結果的準確性。而在項目聚類的過程中可以利用粒度的概念,通過平衡迭代來選取閾值,建立文本相似度的取值曲線,并使用最小二乘法來進行擬合求出曲線的拐點,將其作為閾值,在減少計算步驟或迭代次數的同時,以全面提高層次聚類結果的準確性。在工程項目查重的過程中,可以借助層次聚類的方法,通過對層次樹的搜索來選取不同的閾值,從而在不同的粒度上實現不同相似度的項目查重。層次聚類的應用還可以借助prefuse的主題知識圖譜系統框架來實現關鍵詞的提取和分析,使得工程項目的查重工作能夠更加智能化。
(二)非分詞技術
在工程項目查詢系統的構建過程當中,借助非分詞技術以充分利用Ukkonen算法思想,以構建后綴樹,結合工程項目的申請書等基礎信息來不斷完善后綴樹。通過利用charm算法來找出后綴樹的節點,構成相應的集合,利用該集合來構造向量空間模型,以此實現對工程項目工程的查重工作。在分詞技術的實際應用中,主要是借助相應的算法來構造一個樹,通過對樹枝整體的分析和判斷,以做好特征提取和篩選工作,利用非分詞技術實現工程項目的查重。而在實際的應用過程中,則需要做好特征點的選取工作,可以借助支持向量機來構建數學模型,計算特征權值。而在相似度計算的過程中,可以借助歐式距離和余弦相似度實現計算,提高相似度計算的準確性。在特征提取的過程中可以借助中文分詞的方法全面加強工程項目內容的查重工作。而在具體的操作過程中,可以通過字典分詞法、統計分詞法和混合分詞法來進行分詞處理,從而構建中文文本向量空間模型。在重復系統構建的過程中,并非資料越多越好,因而在非分詞技術的實際應用中還需要加強數據信息的篩選,通過有效的篩選與挖掘潛在的關聯規則,從而構建頻繁閉項集,選取工程項目工程內容中富含有特征的點。大數據挖掘為工程項目查重工作也提供了新的思路和方法,而在實際的應用過程中,則需要加強現有方法和基本信息的整合工作,以借助多元信息整合方法來構建相應的模型。因而,在工程項目查重系統的構建中要充分利用現代化的技術,綜合使用現代科學技術,加強創新,全面提升工程項目研究的質量。
結語
總之,加強工程項目的查重工作能夠充分借助大數據和信息技術的優勢全面加強技術的創新,為工程項目研究工作提供有效的指導。科研工作具有很強的復雜性,正如在查重的過程中存在相似度計算難、查重系統復雜等多方面的狀況。在實際的工作過程中,需要綜合考慮到信息分布的不均勻性和獲取的局限性等眾多客觀因素的影響。在未來的發展過程中,還需要全面加強對工程項目技術指標、路線的查重,結合人工智能,提升工程項目查重結果的準確性和有效性,從而為工程項目的研究方向和發展方向提供指導性的建議。
參考文獻:
[1]? 周育忠,陶秀杰,張自鋒,等.工程項目查重系統在企業中的實踐應用[J].河南工程,2019,(28):32-35.
[2]? 政和工程股份有限公司.一種工程項目自動查重方法及系統[P].2019-06-11.
[3]? 黃思穎,蔡桂蘭,徐凱,等.基于SolrCloud的分布式工程項目查重系統[J].工程管理研究,2018,38(7):236-242.
[4]? 張新民,張愛霞,鄭彥寧.工程項目查重系統構建研究[J].情報學報,2016,35(9):917-922.
[5]? 李善青,邢曉昭,杜圣梅.工程項目查重方法研究綜述[J].工程管理研究,2018,38(6):197-201.