999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理技術的線上頭腦風暴討論工具的研究

2024-01-24 23:33:36黃海平楊睿
電腦迷 2023年20期
關鍵詞:詞匯文本

黃海平 楊睿

【摘? 要】 線下會議往往效率不高,占用了大量的時間。文章設計了一款基于自然語言處理(Natural Language Processing,NLP)技術的線上討論工具,以實現(xiàn)節(jié)省時間、成本及提高效率等目標。用戶通過使用該工具能夠在線上完成類似于頭腦風暴的討論。工具主要具備以下三大功能:自動精簡用戶輸入內(nèi)容,使之滿足字數(shù)限制;依據(jù)關鍵詞熱度推送參與者發(fā)言,供其他參與者參考;推薦熱門關鍵詞,以便參與者快速地參與到討論中。

【關鍵詞】 自然語言處理;線上頭腦風暴;關鍵詞提取

一、研究意義

生產(chǎn)生活中經(jīng)常需要舉行線下的集會討論,線下會議往往效率不高,會耗費大量的時間。文章設計了一款基于自然語言處理技術的線上頭腦風暴討論工具,將“頭腦風暴”的討論模式遷移到網(wǎng)絡上,充分發(fā)揮其集思廣益的優(yōu)勢,使參與者能夠隨時隨地進行討論,提高工作效率。

基于自然語言處理技術的頭腦風暴討論工具會提取參與者發(fā)言內(nèi)容的關鍵詞,推送更有價值的內(nèi)容,使當前的討論主題一目了然,進而產(chǎn)生更多有價值的想法。

二、應用場景分析及功能設計

(一)應用場景需求介紹

針對線上頭腦風暴討論,設想以下三類應用場景中的需求和應對方案:

1. 公司會議需求

每個公司都需要利用集體討論會議來解決各種問題,線上頭腦風暴討論工具提供線上交流環(huán)境,有利于利用碎片化時間來解決單一問題(如利用通勤時間進行團隊早會),從而避免造成時間與場地的浪費,大大地提高工作效率,滿足公司會議的各種需求。

2. 團隊集體討論需求

在工作團隊或者是學習團隊中,往往由于人情世故的親疏或成員性格原因,不能夠通過集體討論充分征集成員的意見及想法。線上頭腦風暴討論工具提供的匿名討論方式可以使用戶充分地闡釋自己的觀點和想法,形成了“暢所欲言,無所顧忌”的局面,為團隊提供了更廣泛的思維延伸的方式,能就某一問題討論得出更為全面、更具深度的解決方案。

值得一提的是,工具的智能推薦發(fā)言功能可以有效得出參與者對某個方案的真實認可程度。

3. 居民區(qū)業(yè)主需求

生活中,會出現(xiàn)居民區(qū)業(yè)主需要集體進行商討、決策的情況。線上頭腦風暴討論工具提供的討論方式——“匿名發(fā)問,文明發(fā)言”,既方便業(yè)主間互提意見,又不影響業(yè)主之間的關系,避免產(chǎn)生負能量,在提高鄰里間交流效率的同時,維持了良好的關系。線上頭腦風暴討論工具提供的記錄與智能推薦發(fā)言功能可以更好地征集業(yè)主們對物業(yè)的意見建議,可以直接導出提交給物業(yè),從而提升溝通效率。

(二)功能設計

根據(jù)對應用場景的分析,線上頭腦風暴討論工具功能可分為四個模塊:

1. 展示全部參與者發(fā)言;

2. 推送熱門發(fā)言;

3. 推薦熱門關鍵詞;

4. 發(fā)言及內(nèi)容一鍵精簡。

三、相關技術介紹

(一)核心算法選擇

為了減少人工成本和時間成本,同時可以利用更豐富的數(shù)據(jù)進行訓練,應當優(yōu)先考慮無監(jiān)督的關鍵詞抽取算法。當前廣泛使用的無監(jiān)督抽取算法有TF-IDF(Term Frequency╞Inverse Document Frequency)算法與TextRank算法。TextRank適合較長的待處理文本,可以直接使用該文本進行關鍵詞提取,不需要相關的語料。待提取關鍵詞的文本較短時,如只有一個句子,就需要借助語料數(shù)據(jù)計算各個詞語的權重。考慮到頭腦風暴討論參與者的發(fā)言普遍比較短,所以選擇提取關鍵詞選用TF-IDF算法,實現(xiàn)一鍵精簡則運用TextRank算法。

(二)具體實現(xiàn)框架

線上頭腦風暴討論工具選擇PyTorch作為具體實現(xiàn)框架。PyTorch是一個基于Python語言的深度學習框架,提供靈活、高效、易于學習的方式來實現(xiàn)深度學習模型。PyTorch最初由Facebook開發(fā),被廣泛應用于機器視覺、自然語言處理、語音識別等各個領域。

PyTorch的核心思想是使用張量(tensor)來表示數(shù)據(jù),這使得PyTorch可以輕松地處理大規(guī)模的數(shù)據(jù)集,并且可以在GPU上進行加速。

四、解決方案設計

(一)文本預處理

文本預處理是指去除數(shù)字和符號則是為了減少噪聲干擾,保留有實際意義的詞語,主要包括三個步驟:

1. 分詞,即將文本的序列重新組合,分解為以詞語為基本單位的序列。較常用的方法有基于詞典匹配或者基于統(tǒng)計和深度學習。

2. 糾正拼寫錯誤,使用的主要算法和模型有Noisy Channel Model、貝葉斯。

3. 停用詞的過濾,在進行NLP的應用時,往往要把文本中的一些無關緊要的詞給去掉,如“啊”“了”“的”,這就是所謂的過濾停用詞。主要的方法是進行詞表匹配。

(二)關鍵詞提取

線上頭腦風暴討論工具選用TF-IDF算法完成關鍵詞的提取工作。

1. 計算TF

TF-IDF算法中的詞頻(Term Frequency,TF)是指某一個特定詞匯在實際任務句子中出現(xiàn)的次數(shù)。TF通常會被歸一化,一般表示為選定詞匯的數(shù)量mdt與文本總詞匯數(shù)Md的商tfdt=mdt/Md。

2. 計算IDF

文本中存在很多對文本意思表達貢獻不大的詞匯,可以使用逆向文件頻率idft計算某特定詞匯在文本中的重要程度:idft = log(N/(nt+0.1))。其中N為句子總數(shù),nt為含有關鍵詞t的句子數(shù),idft式所表達的意義是:當文本中每句話都包含某個特定詞匯時,N≈nt,idft計算結果接近0(nt加上0.1為防止分母為0),說明該詞匯不重要。

3. 計算詞匯權重

文本中某詞匯的TF-IDF權重可表示為:

wdt=tfdt×idft

綜上所述,權重wdt越大說明該詞匯在文本中越處于關鍵地位。

4. 提取關鍵詞

計算每個單詞的權重后,根據(jù)排序選擇關鍵詞。

(三)文本精簡

TextRank算法是將文本詞匯看作是圖的節(jié)點,利用句子間關系建立鄰接矩陣。根據(jù)目標的不同,TextRank 可以實現(xiàn)關鍵詞提?。↘eyword Extraction)和關鍵句提?。⊿entence Extraction)兩類任務。TextRank 提取關鍵句,實現(xiàn)文本精簡的算法流程一般分為以下步驟:

1. 構建關鍵句圖

明確任務目標,并將與任務相對應的詞匯添加為圖的節(jié)點(vertice)。將詞匯間關系添加為圖中連接節(jié)點的邊(edge),可以是有向邊或無向邊,帶權重邊或無權重邊,完成鄰接矩陣的建立。

2. 計算節(jié)點權重

根據(jù)迭代公式,迭代計算各節(jié)點的權重,直至權重收斂。

3. 提取關鍵句子

根據(jù)最終得分對節(jié)點進行排序,根據(jù)排序結果提取top-k作為關鍵句。

關鍵句提取任務中,鄰接矩陣考慮的是句子間的相似度。

五、驗證實驗

為驗證線上頭腦風暴討論工具性能,設計如下實驗并進行結果分析:

(一)準備處理對象文本

為測試前文所設計的文本關鍵詞提取、計數(shù)及精簡的效果,文章隨機選擇了如下新聞資訊作為處理對象文本:

綠美廣東公共服務平臺上線發(fā)布會暨綠美廣東定向越野體驗賽活動在梅州舉辦。活動將體育與綠美廣東建設相融合,傳承弘揚“岳山造林”精神,認真落實省委“1310”具體部署和實施“百千萬工程”的有關要求,正式上線綠美廣東公共服務平臺,發(fā)布了“6.30助力綠美廣東生態(tài)建設”公益募捐項目,進一步凝聚綠美廣東生態(tài)建設的強大力量。現(xiàn)場600多名綠美廣東定向越野活動參與者紛紛響應號召,積極參與“6.30助力綠美廣東生態(tài)建設——我為家鄉(xiāng)添片綠”活動,積極認捐認養(yǎng),踐行愛綠植綠護綠,共建共享綠美廣東生態(tài)建設成果。

活動由省農(nóng)業(yè)農(nóng)村廳、南方報業(yè)傳媒集團主辦,梅州市人民政府、省體育局、省林業(yè)局指導,南方農(nóng)村報社、廣東省戶外運動協(xié)會承辦。

活動舉辦地梅州客天下,曾經(jīng)是一處廢棄的采石場,通過堅持不懈的綠色改造,走出了一條綠水青山就是金山銀山的路子,如今的世界客都,青山環(huán)抱、綠水長流。

(二)提取文本關鍵詞

使用Python的jieba庫實現(xiàn)TF-IDF算法,提取文本中的關鍵詞。

將對象文本賦值給text變量,之后調(diào)用extract_tags()函數(shù),函數(shù)代碼主要分為中文分詞、計算詞頻TF、計算IDF,以及將所有詞的值進行排序得到關鍵詞集合等四部分。將函數(shù)的topK參數(shù)設置為5,即表示提取關鍵詞數(shù)為5個。

對其排名前五的關鍵詞進行提取,可以得到了以下五個詞:綠美、廣東、生態(tài)建設、活動、梅州??梢钥吹綄嶒灲Y果符合預期。

1. 詞頻統(tǒng)計

構造Python模塊進行文本處理,統(tǒng)計各個詞出現(xiàn)的次數(shù)。統(tǒng)計詞頻所需的文本數(shù)據(jù)比較龐大,可以選擇網(wǎng)上下載的垃圾短信數(shù)據(jù)集進行實驗,首先進行分詞處理并且去除停用詞,不同的是,在分詞之前先去除一些該數(shù)據(jù)集特有的干擾項,如呼叫號碼、日期以及url標簽。使用Collection模型的Counter類來進行詞頻統(tǒng)計,最后會返回一個字典類型。用items()將其轉換為列表,然后用sort方法進行排序,最終進行詞頻統(tǒng)計,部分結果如下:“元”1255次,“中國移動”1199次,“助手”1020次,“流量”829次,“沖浪”819次。

2. 文本精簡

基于jieba庫構造Python模塊實現(xiàn)對關鍵句的抽取,實現(xiàn)對鄰接矩陣的構建,并且通過迭代計算各個節(jié)點的權重值。對節(jié)點的權值進行排序,抽取權重值排在前兩位的句子作為文本精簡結果。

最后,抽取權值排名前二的句子作為文本摘要,結果如下:

綠美廣東公共服務平臺上線發(fā)布會暨綠美廣東定向越野體驗賽活動在梅州舉辦?;顒訉Ⅲw育與綠美廣東建設相融合,傳承弘揚“岳山造林”精神,認真落實省委“1310”具體部署和實施“百千萬工程”的有關要求,正式上線綠美廣東公共服務平臺。

實驗結果符合預期。

六、結語

在生產(chǎn)生活節(jié)奏不斷加快的背景下,文章對一款基于自然語言處理技術的線上討論工具開展研究,將頭腦風暴的討論模式搬到線上,能夠有效避免頻繁召開線下會議造成的時間浪費,提高了工作效率。該網(wǎng)絡討論工具具有的推送關鍵詞以及精簡發(fā)言功能使用戶能夠更好地開展線上討論。

參考文獻:

[1] 李舟軍,范宇,吳賢杰. 面向自然語言處理的預訓練技術研究綜述[J]. 計算機科學,2020,47(03):162-173.

[2] 趙京勝,宋夢雪,高祥,等. 自然語言處理中的文本表示研究[J]. 軟件學報,2022,33(01):102-128.

[3] 王穎潔,朱久祺,汪祖民,等. 自然語言處理在文本情感分析領域應用綜述[J]. 計算機應用,2022,42(04):1011-1020.

[4] 李曉芬,樊靜東,韓安東,等. 綠美廣東公共服務平臺上線[N]. 南方日報,2023-10-30(A01).

猜你喜歡
詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
一些常用詞匯可直接用縮寫
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 精品在线免费播放| 国产成人乱无码视频| 91麻豆精品国产91久久久久| 91免费精品国偷自产在线在线| 伦精品一区二区三区视频| 中文无码精品A∨在线观看不卡 | 91在线日韩在线播放| 99一级毛片| a级高清毛片| 尤物精品国产福利网站| 亚洲三级影院| 欧美精品三级在线| 日本高清免费一本在线观看| 亚洲欧美另类中文字幕| 国产区成人精品视频| 国产成人高清精品免费| a天堂视频| 亚洲国产看片基地久久1024| 91精品国产一区自在线拍| 国产无码性爱一区二区三区| 国产swag在线观看| 91福利免费| 99这里只有精品免费视频| 免费人成视网站在线不卡| 久久久受www免费人成| 国产精彩视频在线观看| 97精品国产高清久久久久蜜芽| 欧美在线伊人| 99久久精品久久久久久婷婷| 国产成人综合久久精品下载| 亚洲日韩精品无码专区| 国产精品流白浆在线观看| 欧美日韩国产综合视频在线观看 | 色噜噜在线观看| 国产一区二区三区视频| 久久黄色毛片| 久久久久夜色精品波多野结衣| 日本欧美午夜| 国产99免费视频| 国产AV无码专区亚洲精品网站| 91娇喘视频| 亚洲欧美日韩中文字幕在线一区| 免费观看亚洲人成网站| 国语少妇高潮| 青青草一区| 亚洲性日韩精品一区二区| 日韩a级片视频| 亚洲第七页| 精品国产Ⅴ无码大片在线观看81 | 午夜精品区| 国产乱子伦视频三区| 亚洲人成影视在线观看| 91精品最新国内在线播放| 国产一级特黄aa级特黄裸毛片| 婷婷综合缴情亚洲五月伊| 久久黄色视频影| 91九色国产在线| 精品在线免费播放| 国产成人综合在线观看| 久久亚洲美女精品国产精品| 一级毛片免费不卡在线视频| 国产波多野结衣中文在线播放| 午夜免费小视频| 久久人妻系列无码一区| 国产在线观看高清不卡| 精品久久久无码专区中文字幕| 99尹人香蕉国产免费天天拍| 亚洲视频无码| 国产成人AV综合久久| 天天躁夜夜躁狠狠躁躁88| 亚洲国产欧美自拍| 欧美成人午夜影院| 久久毛片免费基地| 国产欧美日韩va另类在线播放| 精品视频第一页| 精品国产成人国产在线| 国产成人免费高清AⅤ| 亚洲婷婷在线视频| 国产乱码精品一区二区三区中文 | 亚洲人成电影在线播放| 亚洲一级毛片在线观| 欧美成人精品在线|