999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

日文網絡語料信息智能篩選的實現方法研究

2019-02-13 09:15:51尚玉葉鄭新超
數字通信世界 2019年5期
關鍵詞:語義詞匯文本

尚玉葉,鄭新超

(南通大學計算機科學與技術學院、外國語學院,南通 226019)

隨著信息高速公路的快速發展,搜索引擎在信息覆蓋率、精準度和信息響應時間等方面的要求越來越高。日語學習者在查詢資料或資訊時,常伴隨著冗余垃圾信息的困擾。同時,網絡數據的飛速增長為搜索引擎帶來了巨大的存儲和網絡服務壓力。因此,本文嘗試在日語學習與交流的跨平臺APP 開發過程中,針對日文網絡資料進行自動檢索,并過濾、篩選敏感信息,以提高學習平臺資源信息的精準性和可靠性。

1 語料信息檢索

網絡爬取、建立索引數據庫、排序是搜索引擎的三大基本工作原理。利用python 爬取網頁,從中提取反應頁面內容的字符串,索引程序提取字符串中的關鍵詞,通過建立以頁面為主索引的正向索引文件并將其存儲到索引數據庫。而倒排索引[1]則是建立以關鍵詞為索引的索引表,用戶輸入搜索詞,對搜索詞進行處理形成一個或多個關鍵詞,搜索系統查找倒排索引,從中讀出包含這個關鍵詞的多個頁面,從而滿足用戶快速完成搜索的需求。搜索引擎反饋給用戶的看似簡單的過程實則很復雜。用戶輸入搜索詞需要文本分析、語義分析等,對反饋結果需要經過鏈接分析、敏感詞判斷等處理。

2 文本、語義分析

在面向大數據的環境中,利用語義分析的方法對評論進行挖掘[2]成為大數據的主要研究領域之一,也是當下比較熱門的話題。目前,國內外都在這方面投入了大量的人力、物力進行更多探索性的研究。部分研究已在市場上運行,并取得較好的用戶體驗,譬如各種APP 個性推薦頁面、慕課相似課程推薦等,這使得文本、語義分析尤為重要。

(1)文本分析。對用戶輸入文本中的數字、連接符、標點符號和字符的大小進行預處理,過濾掉區分能力低的詞匯,決定對哪些關鍵詞建立索引。搜索引擎接口返回的列表內容或多或少的有著不同的linkURL 卻有著相同的內容。自動提取關鍵詞的算法就是計算出文檔特征項的TF-IDF 值,具有較高權重的TF-IDF 特征項代表文本。詞袋模型是關注文檔中出現的已知詞,忽略其詞序、語法、句法等要素,即詞與詞之間是獨立的,最終都是以N維特征向量的表現形式表示。譬如有一個文本包含兩個簡單句,分別是“我是一個學生”,“他也是一個學生”,則詞集為{我、他、也、是、一、個、學生}對應的向量分別是[1001111]、[0111111]。基于此可以排查相似網頁顯示給用戶,提高檢索率。

(2)語義分析。在提高用戶的查詢效率、分析用戶喜好、提高用戶體驗等方面起著不可替代的作用。基于本APP 的用戶主要是日語學習者,交流的大都是日語相關的話題,本文的語義分析主要是基于詞共現的語義分析。一個文本由若干個詞組成,采用基于詞典的建立詞表方法,對選定文本進行正向最大匹配和逆向最大匹配相結合的處理。假設分別有中文詞表{個性、體驗、詩人、詩、有、的、中}和日文詞表{人工、知能、は、発展、潛在、力、の、ある、學科、である},則{詩中有詩人的個性體驗}、{人工知能は発展潛在力のある學科である}這兩句話通過分詞分別得到{詩/中/有/詩人/的/個性/體驗}和{人工/知能/は/発展/潛在/力/の/ある/學科/である}的詞集。基于詞共現(Co-OccurrenceWordModel)的向量空間模型,假設若干詞經常共現在文本的同一個窗口單元內,則這若干詞在意義上是相互關聯的。窗口內共現詞越多,則其內的相互關聯程度越高。對窗口大小的設置可以根據個人需要調節。若兩個特征項的相關度超過一定的閾值,則將這兩個項連接,對所有的特征值進行兩兩比較相關度,從而形成詞共現圖。一個連通子圖代表著一個關鍵語義,子圖中的特征項節點說明該子圖其權值越大,對文本的語義貢獻越大,越能代表文本的語義。取靠前的K 個特征項子圖,與語料庫進行匹配敏感詞匯,得出語義。

3 敏感信息的識別與過濾

為減少敏感信息的出現,需通過算法自動識別并過濾敏感詞匯。常用的過濾算法有:規則匹配算法、神經網絡的信息匹配算法[3]等。本文嘗試在建立敏感詞庫的基礎上進行基于語義的敏感信息檢測。

(1)敏感詞匯庫的建立。第一步,對比現有網址與敏感網址庫里的網址記錄,若有相同的記錄存在則該網址的網頁顯示空白網頁,否則對該網址的內容下載;第二步,內容的過濾操作,但先不展示給用戶,把下載的內容與敏感詞匯庫中的記錄進行比對,若內容中包含敏感詞匯庫的敏感詞匯,則將該網址記錄到敏感詞匯庫,為下一次的敏感網址庫記錄對比做準備,并顯示空白網頁,否則進行網頁的圖片過濾;第三步,對于圖片過濾需先建立一個圖片庫,通過膚色檢測算法和紋理檢測模型等[4]進行圖像過濾。

(2)基于語義的敏感信息檢測。語義向量空間模型[5]是被GenardSalton 和Salton,Wong,&Yang 在SMART 信息檢索系統所發展。語義向量空間模型VSM 的主要思想是把集合里的每個文檔表示為空間的一個點,空間中的點距離越近,語義相似性就越高;空間中的點距離越遠,語義上相似度減小。在擁有敏感詞匯庫的基礎之上,通過建立語義向量空間模型搜索詞匯。

對待檢測敏感詞匯的鑒別最關鍵技術就是判斷其語義信息,為了能夠發現待檢測詞之間的內在關系,可以構造一個m*n 的敏感信息轉化矩陣。每一列是表示的是敏感詞匯組成的文本向量。對矩陣進行降維為一個純量陣,是轉化矩陣的參數,得出待檢測詞匯的主要內容,提取內容,便能得到相關詞匯的語義信息,將無關的語義信息過濾掉,排除部分敏感詞匯,提取需要的關鍵語言信息,從而提高語義檢索的速度。

為了取得更好的過濾效果,可以運用閥值理論對詞匯進一步篩選,將詞匯按照不同的語義分為敏感和非敏感詞匯,降低漏檢率,提高系統的性能。輸入多個檢索詞進行多次檢索,從而評價信息檢索系統的性能水平。為驗證這一方案,本文嘗試基于詞共現模型的語義分析對朝日新聞的數據庫,包括9個類別、53個關鍵詞庫,共1630000個文檔,利用詞共現模型和模式匹配兩種方法進行檢索,本方案的檢索效率顯而易見。

4 結束語

本文在建立語料庫的基礎上進行了基于詞共現語義分析與敏感詞匯的識別,主要優點有:一是語義分析對查詢結果進行分析,給用戶更好的體驗;二是敏感詞匯對結果進行篩選,屏蔽敏感詞匯。目前,在語料庫方面主要借鑒了少納言語料庫和中文語料庫,未建立自身的語料庫,考慮更多語義因素是下一步要研究的重點。

猜你喜歡
語義詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产96在线 | 台湾AV国片精品女同性| 鲁鲁鲁爽爽爽在线视频观看| 香蕉蕉亚亚洲aav综合| 欧美日韩福利| 香蕉国产精品视频| 日韩中文无码av超清| 国产成人精品在线1区| 亚洲国产在一区二区三区| 免费看黄片一区二区三区| 久久国产精品嫖妓| 国产91精品最新在线播放| 亚洲国产天堂久久综合226114| 囯产av无码片毛片一级| 日韩高清无码免费| 国产福利免费视频| 国产毛片基地| 成人在线观看不卡| 91一级片| 香蕉99国内自产自拍视频| 亚洲天堂区| 国产人人射| 日本国产一区在线观看| a毛片在线| 在线亚洲小视频| 国产凹凸一区在线观看视频| 精品福利国产| 欧美在线视频不卡| 欧美黑人欧美精品刺激| 国产精品无码AV片在线观看播放| 亚洲AV无码乱码在线观看代蜜桃 | 欧洲日本亚洲中文字幕| 日本高清在线看免费观看| 国产精品久久久久久久久久久久| 国产va视频| 91无码视频在线观看| 亚洲欧美精品在线| 亚洲国产av无码综合原创国产| 91系列在线观看| 99久久精品免费看国产电影| 国产成人AV男人的天堂| 国产成人乱无码视频| 国产精品无码久久久久AV| 成人福利在线观看| 色综合久久88| 成人毛片免费在线观看| 亚洲色图另类| 日韩无码黄色| 国产日韩久久久久无码精品| 亚洲欧洲综合| 日韩激情成人| 国产一在线观看| 麻豆AV网站免费进入| 成人福利视频网| 成人精品免费视频| 中国美女**毛片录像在线| 国产av无码日韩av无码网站| 伊人色天堂| 欧美www在线观看| 欧美日韩一区二区三区在线视频| 波多野结衣中文字幕一区二区| 91在线免费公开视频| 亚洲欧洲自拍拍偷午夜色| 国产成人综合日韩精品无码首页| 亚洲一级毛片| 欧美三级视频网站| 国产噜噜噜视频在线观看 | 亚洲天堂伊人| 青青极品在线| 色婷婷综合在线| 日韩专区欧美| 美女啪啪无遮挡| 好紧太爽了视频免费无码| 亚洲国产综合第一精品小说| 中文字幕波多野不卡一区| 免费观看无遮挡www的小视频| 国内精品久久久久久久久久影视| 美女扒开下面流白浆在线试听 | 国产精欧美一区二区三区| 国产高清毛片| 青草娱乐极品免费视频| 久久青草精品一区二区三区|