胡小琴,潘錦鋒
(泉州信息工程學院 軟件學院,福建 泉州 362000)
在試題庫設計中,通常采用智能數據庫信息處理技術,以提高試題庫的智能抽選能力。由于重復記錄的出現,試題庫會出現大量冗余,需要優化試題庫大數據相似重復記錄(以下簡稱重復記錄)檢測模型,并結合大數據信息處理技術,對重復記錄進行處理和刪除,以提高試題庫的精準篩選能力[1]。
重復記錄檢測是建立在大數據統計分析和融合處理基礎上,構建重復記錄的大數據分布模型,采用分布式鏈路重組方法進行重復記錄特征挖掘和自適應結構重組,建立重復記錄分布的檢測統計量,實現重復記錄檢測[2]。傳統方法中,重復記錄檢測的方法主要有主成分分析法和粒子群檢測法[3-5]。采用主成分分析法分析重復記錄的關聯規則項,實現對重復記錄的聚類中心定位檢測,但計算開銷較大,精準度不好。對此,本文提出面向試題庫建設的重復記錄檢測算法。首先采用大數據分析方法,構建重復記錄分布模型,用分布式鏈路重組方法進行重復記錄相似度挖掘和自適應結構重組。構建重復記錄的模糊信息特征分析模型,采用模糊特征檢測方法實現重復特征分析。采用大數據融合和聚類檢測方法實現重復記錄的融合處理,對重復記錄進行輸出檢測,然后將重復記錄檢測結果應用在試題庫構造和抽取模型中,提高數據庫的實時維護能力。最后進行仿真測試分析,展示了本文方法在提高重復記錄檢測能力方面的性能。
在檢測大數據相似重復記錄前首先對重復記錄分布及特征結構分析[6],得到試題庫大數據相似重復記錄檢測的總體結構模型如圖1所示。

圖1 重復記錄檢測的總體結構模型
構建重復記錄分布模型,采用分布式鏈路重組方法進行重復記錄相似度挖掘和自適應結構重組[7],得到相似度檢測的關聯規則向量集分布為:

式中:Newi′表示重復記錄自適應參數;Li表示相似度檢測指標。在重組的隨機鏈路模型中,進行重復記錄分布大數據節點檢測[8],節點集記為xR?yR,得到重復記錄分布大數據負載量:

式中:ω0為重復記錄分布大數據的負載預測誤差;Tp為權重調整系數;Ak為重復記錄分布大數據分布集。分析節點間層次關系相似度,將重復記錄分布大數據進行信息重組,得到層次關系出度集的檢測統計量:

式中:層次關系的入度集和出度集分別為yin和yout;ξi表示重復記錄節點間隔函數;w表示節點間相似度變化參考值。
對數據進行初始化處理,當重復記錄規模集趨于無窮大,得到重復記錄的交叉分布可測集,構建重復記錄分布模型:

式中:P(k)表示隨機鏈路中重復記錄的分布區間。提取重復記錄統計時間序列的關聯規則量,實現試題庫大數據相似重復記錄分布重組。
構建重復記錄的模糊信息特征分析模型,采用模糊特征檢測方法實現對重復記錄的特征分析,根據試題庫的實體模型分析,得到重復記錄的尋優特征量φ(k),給定本體O,xi為O的錨點概念,得到重復記錄分布的主成分特征分布集為:

采用線性規劃方法,構建試題庫大數據相似重復記錄結合和自適應調節模型,設W(k)中x的層次關系入度集為xin,得到核函數k(xi,yi),重復記錄檢測的加權馬爾科夫檢測特征核函數模型為:

式中:αmin表示數據層次分布最低維度。對重復記錄的狀態特征進行自適應聚類,得到重復記錄檢測的可靠性分布函數為:

式中:β為自適應加權系數;w(epkq)表示重復記錄檢測的可靠性系數。設置重復記錄的分布數據流,j=0,1,…,N-1},樣本聚類權重為{c(j0)=0,j=0,1,…,N-1},采用層次關系入度集特征監測的方法,分析重復記錄特征結構,得到重復記錄的統計特征量:

在模糊信息特征分析模型中提取重復記錄的統計特征量,由此實現對重復記錄特征結構重組[9]。
建立重復記錄的回歸分析模型,基于空間網格聚類方法實現對重復記錄融合處理[10],得到重復記錄的平均信息量為:

式中:E(Qw)表示重復記錄分布大數據的量化分析函數。構建重復記錄檢測的大數據分析模型,xinyin={x|x∈xin,y∈yin}表示與x、y有層次關系的節點中可匹配的節點集,采用多分量調節方法進行重復記錄檢測的融合處理[11],得到重復記錄分布大數據的關聯融合項為:

式中:<x,y>為重復數據的一對錨點,此時關聯規則分布結果滿足OM(x,y)。對重復記錄分布大數據進行聚類處理,得到的融合聚類輸出為:

式中:Twk表示重復記錄分布大數據的模糊辨識參數。根據重復記錄分布進行多維結構重構,建立重復記錄的殘差融合向量,權重調整參數滿足0<,由此對重復記錄進行融合處理[12]:

式中:wiN為第i個點的重復記錄的融合加權值。
根據數據聚類結果實現對重復記錄的特征分離和差異性融合[13],設定的匹配閾值θ,在空間坐標系中實現對重復記錄檢測,得到重復記錄的輸出多維分布集為:

式中:ykj表示知識點;N為數據長度。在不同指標間實現重復記錄檢測的語義匹配,構建本體結構模型[14],由此得到重復記錄檢測的輸出元組為:

式中:i、n、d、f、c、iK、RK分別是試題庫大數據知識點本體自適應加權系數。輸出的穩態檢測記錄為:

式中:Fi,j表示重復記錄的多重線性匹配參數;Fijmax為本體圖結構的相似性最大匹配范圍。定義ki為重復記錄檢測的輸出區間,在空間坐標系中構建重復記錄檢測輸出函數為:

式中:di和dj為重復記錄聚類調度的模糊規則輸出量。綜上,在空間坐標系中實現對重復記錄檢測[15]。
實驗中設定試題庫大數據的分布數為120,相似度特征分布集為0.85,錨點節點的匹配系數為0.35,仿真時長為100 s,對試題庫大數據相似重復記錄采樣的長度為800,特征分辨率為120,根據上述仿真參數設定,實現重復記錄檢測,得到數據檢測的輸出統計特征量分布如圖2所示。

圖2 統計特征量分布
根據圖2的統計特征分布,構建重復記錄檢測的數據分析對象模型,得到重復記錄檢測的錯誤率如圖3所示。分析圖3得知,本文方法對重復記錄檢測的錯誤率較低。

圖3 重復記錄檢測的錯誤率
測試重復記錄檢測的時間結果如圖4所示。

圖4 大數據相似重復記錄的時間開銷
分析圖4可知,本文方法對重復記錄檢測的時間開銷較小,提高了試題庫重復記錄檢測的收斂性水平。
在試題庫中針對傳統的大數據相似重復記錄檢測算法存在檢測錯誤率高、檢測時間長的問題,本文提出面向試題庫建設的大數據相似重復記錄檢測算法。通過重復記錄檢測的總體結構,對重復記錄分布,根據重復記錄分布的主成分特征分布集,分析重復記錄特征結構,以分析結果為基礎,采用空間網格聚類方法對重復記錄融合,根據融合結果,在空間坐標系中實現對重復記錄檢測。根據實驗結果可知,本文方法的試題庫大數據相似重復記錄檢測錯誤率較低,檢測效率較高。但是由于該方法的計算過程較復雜,致使試題庫大數據相似重復記錄檢測效率未達到預期效果,因此,在接下來的研究中,將對算法進行改進,進一步提升試題庫大數據相似重復記錄檢測效率。