999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義和統計特征的中文文本表示方法

2009-04-29 00:00:00曾德華
中國管理信息化 2009年15期

[摘 要]本文基于關鍵詞集的中文文本特征表示方法,將本體和詞共現的思想引入到中文文本的特征表示中,能夠更加準確地表達中文文本特征,進而提高中文文本聚類的質量。

[關鍵詞]個性化;Web挖掘;文本聚類

doi:10.3969/j.issn.1673-0194.2009.15.020

[中圖分類號]TP391[文獻標識碼]A[文章編號]1673-0194(2009)15-0065-03

1 文本聚類問題及詞共現模型

目前個性化信息服務主要是針對文本資源,中文文本聚類是教育政務資源庫個性化信息服務中重要的基礎性工作。

文本信息多數是無結構化的,如何準確地表示文本是影響聚類性能的重要因素。文本聚類是一個將文本集分組的全自動處理過程,是一種典型的無監督的機器學習問題,它將文本集分為若干個子集,稱為聚類,使得類內的成員相似度盡可能大,類間的成員相似度盡可能小。

文本聚類的本質是是對一個給定的文本集合D={d1,d2,…,dn}進行劃分,從而得到一個聚類的集合C={c1,c2,…,ck},其中cjD(j=1,2,…,k),使得對di(di∈D),cj(cj∈C),且di∈cj,同時使得∑di∈cjSim(di,cj)∑dicjSim(di,cj)達到最大,其中Sim(di,cj)為文檔di與聚類cj的相似度函數。

中文文本信息多數是無結構化的,并且使用自然語言,很難被計算機處理。因此,如何準確地表示中文文本是影響聚類性能的主要因素。

目前的文本聚類系統主要采用向量空間模型(Vector Space Module,VSM)來表示文本。傳統的向量空間模型是基于關鍵詞集的,它是根據詞頻建立向量的一種統計模型。然而,中文文本存在語法修飾和上下文的語義關聯,例如不同的詞匯表示相同的概念,相關的詞匯共現表示一個主題等,因此,基于關鍵詞集的向量空間模型無法表示中文文本中的深層語義信息。……

登錄APP查看全文

主站蜘蛛池模板: 91无码网站| 亚洲精品无码久久毛片波多野吉| 亚洲综合色婷婷| 91久久国产综合精品女同我| 久久亚洲国产视频| 欧美不卡在线视频| 欧美日韩国产精品va| 国产精品美女自慰喷水| 日韩一级二级三级| 国产大片喷水在线在线视频| 国产精品任我爽爆在线播放6080| 美女扒开下面流白浆在线试听 | 福利国产在线| 天堂va亚洲va欧美va国产| 国产人人干| 婷婷六月综合网| 91视频精品| 999福利激情视频| 秋霞一区二区三区| 国产精品亚洲一区二区三区z| 2019国产在线| 狠狠亚洲五月天| 九九久久精品免费观看| 小说 亚洲 无码 精品| 日韩国产一区二区三区无码| 免费人成黄页在线观看国产| 久久99国产乱子伦精品免| 国产69精品久久久久妇女| 玖玖精品视频在线观看| 亚洲高清中文字幕| 狠狠干综合| 亚洲av色吊丝无码| 乱人伦视频中文字幕在线| 亚洲第一色视频| 亚洲女同一区二区| 亚洲国产系列| 亚洲成人在线免费| 国产系列在线| 亚洲天堂2014| 乱码国产乱码精品精在线播放| 欧美成人午夜影院| 国产www网站| 国产一在线观看| 亚洲永久色| 无码中文AⅤ在线观看| 91精品啪在线观看国产60岁| 国产精品亚洲а∨天堂免下载| 中文字幕第4页| 91久久精品国产| 91亚洲免费| 一级毛片免费观看不卡视频| 性色在线视频精品| 91av成人日本不卡三区| 国产成人在线小视频| 亚洲愉拍一区二区精品| 欧美福利在线观看| 国产大片喷水在线在线视频| 欧美va亚洲va香蕉在线| 幺女国产一级毛片| 最新日本中文字幕| 久久人妻xunleige无码| 午夜天堂视频| 国产精品视频a| 国产三级a| 92午夜福利影院一区二区三区| 久久99国产精品成人欧美| 69av免费视频| 欧美成人午夜视频| 老司机精品一区在线视频| 久久亚洲欧美综合| AⅤ色综合久久天堂AV色综合| a毛片在线| 色偷偷综合网| 538国产视频| 久久综合色视频| 国产理论最新国产精品视频| 亚洲一区波多野结衣二区三区| 欧美精品亚洲二区| 亚洲成人在线网| 亚洲精品综合一二三区在线| 亚洲成人手机在线| 美女潮喷出白浆在线观看视频|