畢雪


摘要:隨著社會不斷進步,集中體現研究成果的學術著作的數目以指數形式快速增長。本文擬采用稀疏模型,針對海量的著作信息,設計正則約束策略并聯合稀疏重建算法,實現對學者信息的有效采集。
關鍵詞:正則約束; 稀疏模型;信息采集;高效
1 引言
科學知識具有顯著的長期可積累性、可繼承性,任何新的科學技術都是在原有科學技術的基礎上分化、衍生出來的,即是對原有科學技術的發展。各學科的研究成果和學者的學術積累可由學術著作直接體現。因此,對這種承擔重要學術傳播功能和作用的學術文獻的相關信息進行數據采集和分析具有重要的意義。
然而,學術著作通常篇幅大、出版和使月周期長、電子化程度較低。這些因素造成對學術著作數據的采集和分析都比較困難。與此同時,有關著者的基本信息包括姓名、項目支持情況、所在單位、學者類型等基本情況不能直接從著作本身準確獲取。因此,如何有效獲取學術著作的數據是一個亟待解決的問題。考慮到學術著作數目較多,提出基于正則約束的稀疏模型的采集方法,實現對學者信息、學術著作的高效匹配,從而實現對學術著作相關信息的采集和分析。
2 基于正則約束的學術著作信息采集模型
根據學者信息與學術著作的匹配問題的實際情況,即立足于海量的、不同類別的著作,著作者的信息--學者的姓名和單位具有稀疏性。與此同時,基于稀疏性或可壓縮性的先驗特性,Donoho[1]和Candès [2]等提出信號采樣和重建的理論—壓縮采樣。因此本文提出將稀疏重建模型引入到學術著作信息采集,公式如(1)所示:
3 仿真結果分析
仿真環境為:待重建的信號維度是5000,對應共有5000個學者信息,稀疏度K的范圍為210至300,即有210至300名學者的信息需要被采集。仿真結果如表1所示,模型所使用的觀測矩陣為滿足約束等距性質的隨機矩陣,當稀疏度為210至300的情況下,成功重建的概率為100%以上。
4 結語
在這個信息爆炸的時代,如何有效提取和采集有用信息是亟待解決的問題,特別是對承擔重要學術傳播功能和作用的學術文獻的相關信息進行數據采集和分析具有重要的意義。本文從信息本身稀疏的角度出發,將信息采集問題視為一個欠定問題。下一步,我們將進一步結合深度學習探討該問題。
參考文獻
[1] Y. Tsaig, D.L. Donoho. Extensions of compressed sensing. Signal Processing.2006, 86(3): 533-548.
[2] E. J. Candès, J. Romberg, and T. Tao. Robust uncertainty principles: Exact signal recognition from highly incomplete frequency information. IEEE Transactions on Information Theory.2006, 52(2): 489-509.
[3] Liu Y, Haldar JP. PALMNUT: An Enhanced Proximal Alternating Linearized Minimization Algorithm With Application to Separate Regularization of Magnitude and Phase. IEEE Trans. Comput. Imaging 2021;7:530–518 doi: 10.1109/TCI.2021.3077806.
[4] Bi, X.; Leng, L.; Kim, C.; Liu,X.; Du, Y.; Liu, F. Constrained Backtracking Matching Pursuit Algorithm for Image Reconstruction in Compressed Sensing. Appl. Sci. 2021, 11, 1435.
[5]劉亞新,趙瑞珍.用于壓縮感知信號重建的正則化自適應匹配追蹤算法. 電子與信息學報. 2010,32(11):2713-2717.
助理研究員,項目資助編號:SCAA16B10,四川學術成果分析與應用研究中心,西華大學重點項目資助Z1520908,四川省教育廳資助項目17ZB0416,教育部春暉計劃項目資助Z2017075