999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校典禮致辭的關鍵詞抽取方法研究

2025-03-30 00:00:00賈隆嘉周婉婷成宇歌李博軒張邦佐
中國管理信息化 2025年5期
關鍵詞:特征方法

[摘 要]面向高校典禮教育價值探究的問題,引入自然語言處理技術中的關鍵詞抽取方法,進而達到精準高效分析的目的。通過對131所“雙一流”高校的439篇開學典禮致辭文稿結構和寫作特點的分析,總結發現了7點規律,結合建立的6項統計特征提出了基于多特征融合的關鍵詞抽取方法。相較傳統關鍵詞抽取方法,本文提出方法的關鍵詞抽取效果,在精確率、召回率以及F1值三方面均有不同程度提升,最高F1值達75.51%,性能提升超20%。

[關鍵詞]高校典禮致辭;關鍵詞抽取;多特征融合;教育信息化

doi:10.3969/j.issn.1673-0194.2025.05.063

[中圖分類號]TP391 [文獻標識碼]A [文章編號]1673-0194(2025)05-0201-08

0" " "引 言

傳統對教育數據研究中,研究人員主要關注結構化數據。據IBM公司研究,一個組織的海量數據中,結構化數據僅占20%,非結構化數據和半結構化數據占比高達80%[1]。在非結構化數據中,文本數據是最主要的組成部分。對教育文本進行深入分析和研究將有助于挖掘出更多有價值的內容。高校開學典禮致辭作為教育文本中備受關注的部分,體現了一所大學的傳統和精神。2010年華中科技大學畢業典禮上,李培根校長的《記憶》致辭贏得了30余次掌聲,引發了媒體和網絡的強烈關注。自此,典禮致辭逐漸成為網絡熱點,進入大眾視野。近些年,西安交大王樹國校長的典禮致辭同樣引起了強烈反響。與科技論文不同,典禮致辭通常沒有關鍵詞或主題詞,因篇幅較長,使得人工添加關鍵詞成為耗時且具有挑戰性的任務。針對該問題,本文提出了一種基于多特征融合的無監督關鍵詞抽取方法(Keyword Extraction for opening ceremony Speech of University,KESU),相比于傳統方法,KESU作為一種輕量級無監督算法,不需要標簽數據、不需要對數據集整體進行訓練,僅需統計單篇文檔中的特征。

本文貢獻可概括為三點:一是應用創新(學科交叉),將關鍵詞抽取方法從人工智能領域引入高等教育研究中。二是提出新方法,該方法不僅可以避免因特定領域數據難以獲取、訓練數據不足而導致的分類性能差的問題,還具有輕量化和易部署的優點。三是為該領域建立數據集,構建了包含439篇高校開學典禮致辭的數據集(University Opening Ceremony Speech Data Set-Version 1.0,OCS-V1.0)。

1" " "相關研究概述

翟云秋等[2]為揭示新時期高等教育的主流價值觀和功能定位,選取了144篇“雙一流”建設高校開學典禮致辭作為研究對象,通過詞頻統計提取近四年致辭的核心高頻詞,從高等教育的社會功能、政治功能、文化功能和個體功能四個角度切入,進行了描述分析。陸一[3]為使大學文化在一定程度上可測量,選取了41篇開學和畢業典禮致辭,構建了6個觀測指標,通過對致辭文稿的逐一閱讀、識別以及計分,進行了人工統計分析。李甜甜等[4]為挖掘國內頂尖高校共同價值觀和文化內涵,運用詞云分析工具對C9高校開學典禮致辭進行了分析。于祥成等[5]選取了50篇“雙一流”建設高校開學典禮致辭作為研究對象,通過內容分析法,從詞頻和內涵兩個維度進行分析,挖掘其中的教育價值。王為民等[6]選取了200篇開學典禮致辭作為研究對象,通過文獻法和分析法,提煉出39個關鍵描述點,構建了當代大學生核心素養圖譜。

傳統研究主要集中在基于詞頻統計的方法,這類方法存在以下弊端:一是統計過程緩慢、易出錯,可處理的數據量有限;二是方法具有局限性,關鍵詞的決定因素不僅僅是詞頻,同時還包含其他多項因素。對于此類大規模、有規律可循的數據分析任務,應引入機器學習方法,不僅可以節約資源、降低人工成本,還可以挖掘出更深層次的內容。

2" " "研究方法

本研究以高校典禮致辭為研究對象,從機器學習角度出發,提出了一種基于多特征融合的無監督關鍵詞抽取方法。研究框架如圖1所示。

2.1" "候選關鍵詞重要性分析

關鍵詞抽取與特征加權相似,目標都是選取有代表性的特征詞。兩者也存在一定差異,關鍵詞抽取的目標是選擇能夠概括文章內容的特征詞,特征加權是為有區分能力的詞賦予更高權重。通過查詢相關資料并結合對致辭結構和特點的分析,我們總結了七點規律。

規律(1):Luhn等[7]在研究中指出,“詞頻可以作為度量特征詞重要性的有效依據”。通常情況下,致辭中經常出現的詞被視為具有代表性的關鍵詞,即候選詞的詞頻與其重要性具有一定相關性。但也存在特殊情況,如“同學們”“大學”等高頻詞并非關鍵詞。因此,詞頻可作為篩選條件,但不是決定因素。

規律(2):Ricardo Campos等[8]在研究中指出,“出現在多個不同句子中的特征詞更有可能成為關鍵詞”。與科技文章類似,致辭稿的核心觀點會在多個位置反復闡述,關鍵詞將出現在不同句子中。如2020年西安交通大學校長王樹國的開學典禮致辭中,有2段4處提到了“家國情懷”,因此,句子頻率應與詞頻一樣作為抽取關鍵詞的篩選條件。

規律(3):C Florescu等[9]在研究中指出,“相比不考慮特征詞位置的模型,那些結合特征詞位置模型的效果普遍較好”。典禮致辭類似新聞稿,通常采用前置重點的結構,即將重要信息置于開頭部分。因此,應特別關注致辭開頭部分頻繁出現的特征詞匯。

規律(4):在439篇致辭稿中,403篇出現了引號,占比91.80%。引號用于突出重點并進一步闡釋核心觀點,起到解釋和強調的作用。如2021年南開大學校長曹雪濤在開學典禮致辭中寫道:希望你們以雄飛躍進之姿,“與境遇奮斗,與時代奮斗,與經驗奮斗”,成為新時代的南開“志士”。這里的“時代”和“奮斗”都是關鍵詞,因此,針對引號內的內容,應給予重點關注。

規律(5):在439篇致辭稿中,有63篇包含小標題,占比14.35%。小標題起到段落引導作用,也是對段落內容的總結和凝練,列入其中的內容大多是關鍵核心內容。如2021年北京工業大學校長聶祚仁的開學典禮致辭中有小標題:“二是牢記使命,時代揚帆立潮頭”。這里的“牢記使命”就是關鍵詞。因此,針對小標題中的內容,也需要重點關注。

規律(6):在大部分致辭稿中,段首句作為段落的統領句,類似新聞稿采取開門見山的方式,將重點內容歸納提煉到其中,起到點明概括的作用。如2019年時任武漢大學校長竇賢康的開學典禮致辭中,第三段開頭寫道:“這種擔當在于她深厚的家國情懷”。這里的“擔當”“家國情懷”都是關鍵詞。因此,針對各段落段首句中的內容,也應采取類似小標題的處理方式,給予重點關注。

規律(7):一般來說,特征在文檔中出現的次數越多越好,但也存在特殊情況,如停用詞表作為靜態表,不會因數據集的改變而更新,導致一些與文檔無關的高頻詞被遺漏。David Machado等[10]在研究中指出,“對于某個候選特征詞,如果出現在它兩側的特征詞數量越多,則該特征的重要性就越低”。基于以上考慮,我們提出假設:特征的重要性與出現在它兩側的特征詞數量呈負相關。

2.2" "基于多特征融合的無監督關鍵詞抽取方法

2.2.1" "文本預處理

根據處理內容不同,可分為篇章級顆粒度和單詞級顆粒度。篇章級顆粒度文本處理包括文本標準化、句子分割以及分詞等。文本標準化過程主要是將大寫字母轉換為小寫字母,中文簡體和繁體進行統一處理,這里采用Python中的upper2lower方法和chinese_standard方法。句子分割是將致辭文本拆分為多個句子,以便后續度量特征的相關屬性,這里采用Python中的segtok包。分詞采用基于Python的jieba分詞包。下一節中將重點討論單詞級顆粒度文本處理。

2.2.2" "候選特征詞重要性度量

(1)特征詞頻度量。針對規律(1),提出termFrequencynormal (t)用以度量特征的詞頻,度量方法如下:

直觀考慮是將特征詞頻直接用于信息度量,為降低長文檔中高頻詞影響,這里采用正規化形式。其中,termFrequency(t)代表特征詞t在文檔中出現的總次數,termFrequencyMeanValue(t)代表文檔中所有特征詞出現次數的平均值,standardDeviation代表非停用詞詞頻的標準差。

(2)句子頻率度量。針對規律(2),提出termSentenceFrequencynormal (t)用以度量特征詞的句子頻率,度量方法如下:

其中,termSentenceFrequency(t)代表在文檔中包含特征t的句子數量,sentenceNumber代表當前文檔包含的句子總數。

(3)重要位置信息度量。針對規律(3),提出termPositon(t)用以度量特征詞的位置屬性,度量方法如下:

其中,sentenceSet(t)代表特征t所出現句子的位置集合,paragraphSet(t)代表特征t所出現段落的位置集合,paragraphNumber代表文檔的段落數量。Median函數的作用是取集合中位數,這里通過特征詞所在句子和段落兩個位置進行綜合度量。同時,應用雙對數是為了對數據進行平滑處理,即利用對數的數值越小變化越敏感,數值越大越平滑的特點。

(4)引號標記信息度量。針對規律(4),提出termQuoteScore(t)用以度量特征的引號標記屬性,度量方法如下:

其中,termQuoteFrequency(t)代表特征t在引號內出現的次數。這里采用對數同樣也是為了對數據進行平滑處理。

(5)標題和段首信息度量。針對規律(5)和規律(6),分別提出termTitleScore(t)和termSubjectScore(t)用以度量特征詞的小標題屬性和段首屬性,度量方法如下:

其中,termTitleFrequency(t)代表特征t在小標題中出現的次數,termSubjectFrequency(t)代表特征t在段首句中出現的次數;weightTitle代表為標題信息賦予的權重,weightSubject代表為段首句信息賦予的權重。需要注意的是,小標題中的段首信息按照小標題規則度量后,將不再對段首信息進行重復統計;針對在小標題或段首句中出現引號的情況,將給予重點關注,上述度量方法更新為如下形式:

其中,termQuoteInTitle(t)代表特征t出現在小標題引號中的次數,termQuoteInSubject(t)代表特征t出現在段首句引號中的次數;weightQuoteInTitle和weightQuoteInSubject代表相應的權重。

(6)上下文相關性度量。針對規律(7),提出termCooccurrence(t)用以度量特征與其上下文特征的相關性,度量方法如下:

其中,|termFrequency(t,w)|代表指定窗口寬度w,出現在特征t周圍的特征詞數量,|Cooccurrence(t,k)|代表特征t和特征k共同出現的次數。這里提出termIrrelevance(t)用以度量特征詞的無關性,度量方法如下:

其中,maxtermFrequency為當前文檔中出現次數最多特征詞的詞頻。

接下來,將對度量信息進行整合,計算特征詞的綜合得分,度量方法如下:

termImportanceSort越小,代表相應特征詞越重要。

這里將termFrequencynormal (t)和termSentenceFrequency(t)

與termIrrelevance(t)作比值,即某個特征詞的詞頻和句子頻率確定后,上下文相關性越高,這個特征詞越重要。實際上,有些特征詞會在多個句子中頻繁出現,即詞頻和句子頻率都較高,卻沒有實際意義,這些特征詞應被賦予低權重。因此,有代表性特征詞的標準是termFrequencynormal (t)和termSentenceFrequency(t)較高,而termIrrelevance(t)較低。同樣地,特征詞在文檔中的位置也是重要信息,通過termIrrelevance(t)×term

Positon(t)度量;此外,小標題和段首信息也作為重要參數,給予了同樣關注。

2.2.3" "候選關鍵詞重要性度量

為形成關鍵詞列表,通過設置滑動窗口生成n元模型,整體構成候選關鍵詞集合。通過keywordImportanceSort(t)

表示候選關鍵詞的重要性,度量方法如下:

其中,kw代表候選關鍵詞,keywordImportanceSort(kw)

越小表示相關性越強。這里通過與termImportanceSort(t)作比值,目的是消除關鍵詞長度對結果的影響,避免結果傾向于由多個特征詞構成的關鍵詞。表1列出了北京師范大學2017年二元模型的關鍵詞結果,可以觀察到,部分結果存在相似情況,我們將在下一節提出候選關鍵詞去重方法。

2.2.4" "候選關鍵詞去重

算法1展示了關鍵詞去重過程。首先建立keywords,

用于保存關鍵詞結果;然后采用keywordImportanceSort

最低的候選關鍵詞作為初值,初始化keywords列表。通過逐一計算余下候選關鍵詞與列表中元素的相似度,結果高于閾值θ則刪除;反之則加入keywords中。表1結果經過去重后,如表2所示。

3" " "實驗分析

3.1" "對照方法

實驗選取了8個有代表性的無監督方法(YAKE[8]、TF×IDF[11]、KP-Miner[12]、SingleRank[13]、TopicRank[14]、TextRank[15]、PositionRank[9]和MultipartiteRank[16])和2個有監督方法(Kea[17]和WINGNUS[18])與KESU進行比較,表3對相關方法進行了總結,實驗中將采取精確率(Precision)、召回率(Recall)和F1值(F1-Score)進行評估。

3.2" "實驗結果

為確保實驗結果的可重復性,實驗中的對比方法均采用基于Python的開源工具包PKE[19],結果詳見表4至表8。

在實驗結果中,精確率和召回率相互影響,理想情況是兩者都取得較高結果,但實際情況中它們相互制約。追求高精確率,召回率就會降低;追求高召回率,精確率就會受到影響[20]。在上述結果中可以看到,多數方法的召回率都高于精確率,主要原因是實驗輸出結果有20個,而標準關鍵詞通常不足20個,因此導致召回率高、精確率低。性能方面,KESU方法在精確率、召回率和F1值三方面均取得了較好結果;相比之下YAKE方法沒有取得較好結果,這也與Ricardo Campos[8]的描述相符:“YAKE方法更適用于印歐語系”。

圖2展示了關鍵詞分布的詞云圖。根據關鍵詞出現的規律和特點,可以發現盡管各高校致辭內容各具特色,但都體現了新時代的共同價值取向,既展示了高校的個體功能,又突出了社會功能。同時,將學生培養與國家需求相結合,體現了高校的時代性、政治性以及深厚的家國情懷。

4" " "總結與展望

高校開學典禮致辭不僅承載著具有儀式性質的傳統作用,還具備教育活動、教育引導和教育啟示的多重功能。在實際分析典禮致辭的過程中,傳統方法主要依賴詞頻統計,鑒于此類方法存在一定局限性,本研究借鑒人工智能領域中的關鍵詞抽取相關技術,提出KESU方法,同時建立了在線應用平臺。該方法能夠自動抽取典禮致辭中的關鍵詞,相比傳統分析方法,更加科學、精細和高效。

主要參考文獻

[1]劉清堂,賀黎鳴,吳林靜,等.智能時代的教育文本挖掘模型與應用[J].現代遠程教育研究,2020,32(5):95-103.

[2]翟云秋,程晉寬.大學校長開學典禮致辭的教育價值:基于36所“世界一流大學”建設高校校長致辭的詞頻分析[J].江蘇高教,2021(6):42-50.

[3]陸一.大學文化:固有傳統與新思想的均衡取舍——近五年四所大學校長典禮講話的文本解析[J].教育學術月刊,2012(1):7-13.

[4]李甜甜,李天培.從高頻詞看當前我國頂尖高校的關注熱點:基于2020年C9高校開學典禮校長講話的分析[J].教育觀察,2021,10(17):130-136.

[5]于祥成,鄭如瑩.大學開學典禮校長致辭的教育價值探賾[J].大學教育科學,2019(5):28-33.

[6]王為民,趙國祥.當代中國大學生核心素養的基本內涵:基于普通本科院校開學典禮寄語文本分析[J].大學教育科學,2018(4):18-26.

[7]LUHN H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development,1958,2(2):159-165.

[8]CAMPOS R,MANGARAVITE V,PASQUALI A,et al. YAKE! Keyword extraction from single documents using multiple local features[J]. Information Sciences,2020(509):257-289.

[9]FLORESCU C,CARAGEA C. Positionrank:An unsupervised approach to keyphrase extraction from scholarly documents[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. 2017:1105-1115.

[10]MACHADO D,BARBOSA T,PAIS S,et al. Universal mobile information retrieval[C]//Universal Access in Human-Computer Interaction. Intelligent and Ubiquitous Interaction Environments:5th International Conference,UAHCI. 2009:345-354.

[11]SPARCK JONES K. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Documentation,1972,28(1):11-21.

[12]SAMHAA R,EL-BELTAGY A,AHMED RAFEA B. KP-Miner:A keyphrase extraction system for English and Arabic documents[J]. Information Systems,2009(1):132-144.

[13]WAN X,XIAO J. Single document keyphrase extraction using neighborhood knowledge[C]//AAAI. 2008:855-860.

[14]BOUGOUIN A,BOUDIN F,DAILLE B. Topicrank:Graph-based topic ranking for keyphrase extraction[C]//International Joint Conference on Natural Language Processing(IJCNLP). 2013:543-551.

[15]MIHALCEA R,TARAU P. Textrank:Bringing order into text[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004:404-411.

[16]BOUDIN F. Unsupervised keyphrase extraction with multipartite graphs[J]. Proceedings of NAACL-HLT,2018:667-672.

[17]WITTEN I H,PAYNTER G W,FRANK E,et al. KEA:Practical automatic keyphrase extraction[C]//Proceedings of the Fourth ACM Conference on Digital Libraries. 1999:254-255.

[18]NGUYEN T D,LUONG M T. WINGNUS:Keyphrase extraction utilizing document logical structure[C]//Proceedings of the 5th International Workshop on Semantic Evaluation. 2010:166-169.

[19]BOUDIN F. PKE:An open source python-based keyphrase extraction toolkit[C]//Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics:System Demonstrations. 2016:69-73.

[20]曾子明,張瑜,李婷婷.多特征融合的突發公共衛生事件潛在謠言傳播者識別[J].圖書情報工作,2022,66(13):80-90.

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 97久久人人超碰国产精品| 91在线中文| 国产精品无码AV中文| 少妇精品在线| 免费三A级毛片视频| 尤物成AV人片在线观看| 72种姿势欧美久久久久大黄蕉| 免费无码在线观看| 欧美激情第一欧美在线| 狠狠干综合| 九九这里只有精品视频| 精品无码国产自产野外拍在线| 日本久久网站| 国产9191精品免费观看| 亚洲国产成人综合精品2020| 精品夜恋影院亚洲欧洲| 伊人AV天堂| 91美女在线| 亚洲精品无码抽插日韩| 国产在线第二页| 国产青榴视频在线观看网站| 国产91精品最新在线播放| 91丝袜美腿高跟国产极品老师| 国产成人精品一区二区免费看京| 青青国产在线| 亚洲中文字幕无码爆乳| 欧美中文字幕在线视频| 高清免费毛片| 国产99视频精品免费视频7 | 91人妻日韩人妻无码专区精品| 亚洲人在线| 黄色免费在线网址| 亚洲天堂精品在线| 好紧太爽了视频免费无码| 成年网址网站在线观看| 欧美综合成人| 91外围女在线观看| 国产成人喷潮在线观看| 五月六月伊人狠狠丁香网| 日韩欧美91| 久久青青草原亚洲av无码| 国产成a人片在线播放| 亚洲 成人国产| 又猛又黄又爽无遮挡的视频网站| 免费在线色| 国产精品亚洲精品爽爽| 亚洲精品成人片在线观看 | 亚洲精品无码抽插日韩| 狠狠做深爱婷婷久久一区| 日本亚洲国产一区二区三区| 精品日韩亚洲欧美高清a| 中国美女**毛片录像在线| 国产大全韩国亚洲一区二区三区| 日韩黄色在线| 国产精品久久久久久搜索| 欧美日本一区二区三区免费| 日韩午夜福利在线观看| 区国产精品搜索视频| 美女无遮挡免费视频网站| 国产在线观看第二页| 精品国产免费观看一区| 国产精品亚洲欧美日韩久久| 久久久91人妻无码精品蜜桃HD| 精品偷拍一区二区| 精品一区二区久久久久网站| 国产麻豆va精品视频| 99ri精品视频在线观看播放| 国产拍揄自揄精品视频网站| 在线看免费无码av天堂的| 熟妇人妻无乱码中文字幕真矢织江 | 丁香婷婷在线视频| 日韩人妻精品一区| 亚洲无码高清视频在线观看| 成人国产精品一级毛片天堂| 免费一级毛片在线播放傲雪网| 久久精品这里只有国产中文精品| 91黄色在线观看| 国产午夜无码片在线观看网站| 国内精品久久人妻无码大片高| 免费Aⅴ片在线观看蜜芽Tⅴ | 中文字幕66页| 国产一级毛片网站|