999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于依存句法和二叉樹模型的評價對象抽取

2016-02-23 07:50:56張建華李曉樂
計算機技術與發展 2016年2期
關鍵詞:評價

張建華,翁 鳴,李曉樂,劉 芳

(廣西財經學院 實驗教學中心,廣西 南寧 530003)

基于依存句法和二叉樹模型的評價對象抽取

張建華,翁 鳴,李曉樂,劉 芳

(廣西財經學院 實驗教學中心,廣西 南寧 530003)

識別出評論中的評價對象有利于商家了解用戶關心的產品特征,為進一步設計和升級產品提供決策。根據詞之間的相互依賴關系,提出一種基于依存句法分析和二叉樹模型的評價對象識別方法。首先通過依存關系分析,得到句法結構語句;然后采用二叉樹模型,將名詞和名詞詞組出現頻率高的句法結構構造成二叉樹;最后采用二叉樹遍歷算法對樹庫中的每一棵二叉樹進行遍歷,將所得的字符串進行組合,最終得到具有完整意義的評價對象。實驗結果表明,該方法在兩類測試集上都取得了一定的效果。

依存句法分析;評價對象;二叉樹

0 引 言

用戶常對購買服飾的尺碼、款型或電腦價格、售后服務等做出評價,這些經過用戶評價的實體屬性被稱為評價對象(Evaluation Object)[1]。識別出正確的評價對象對信息發布者和生產商都有著巨大的利益。商家從評價對象中能夠了解用戶最在意的產品特征,使其在生產商品時從用戶的角度出發,設計生產出符合用戶需要的產品。然而與傳統的信息抽取不同的是,在網絡評論中評價對象所在的上下文環境復雜,評論用語不規范,評論句長短不一。這使得評論中的很多句子無法被正確分詞,同時造成詞性標注錯誤。因此評價對象的識別問題面臨著巨大挑戰。目前已有研究人員進行了相關的工作。

Eirinaki等[2]將由大量形容詞描述的名詞作為關鍵特征,對名詞累計計分,通過預設的閾值排除分值較低的名詞,剩下名詞作為重要的評價對象。文坤梅等[3]針對無主謂句法的句子建立root規則,抽取評價對象。針對極性詞對潛在評價對象的依賴關系建立target規則,抽取評價詞。為了提高召回率,在root規則和target規則上,根據評價對象之間的連接關系,建立extend規則,從已知的評價對象出發找到未知的評價對象。但僅對微博領域的句子進行處理。Qiu等[4]首先使用詞性標注工具尋找形容詞和名詞,建立候選評價詞庫,然后使用句法分析工具建立評價詞和評價對象之間的雙向抽取規則。徐葉強等[5]利用詞性規則抽取候選的評價對象,再通過一些特殊詞以及評價對象的非完整性等對候選的對象進行噪聲過濾,最后對評價對象進行置信度計算,從而確定最終的評價對象。許細清等[6]根據上下文線索對候選對象進行過濾,其中包括點互信息PMI方式;通過對候選對象和評論領域進行相關性分析確定評價對象。Yu等[7]在統計學和句法規則的基礎上,根據評價對象出現的相對頻率找到候選評價對象,通過改進它們的TF-IDF值,找到大于設定閾值的對象作為最終結果。戴敏等[8]在CRF模型的基礎上引入豐富的句法特征抽取評價對象。文獻[9]從評論中抽取頻繁的名詞、名詞短語作為候選特征,通過對這些特征建立單一的SVM分類器來識別評價對象。CRF、SVM都屬于監督學習的一種,這種方法依賴于大量語料集,需要人工對訓練集事先標記。而網絡上的信息大規模地增長,僅依靠人力對這些數據進行標記和訓練根本無法實現。無監督學習模型LDA無需事先對數據集進行標記。Titov等[10]認為標準的LDA模型抽取的主題主要是針對某個品牌的,無法進一步細化到產品的具體特征上。為解決LDA在特征抽取時造成的品牌傾斜問題,Titov等提出一種多粒度的主題模型。文獻[11]將LDA應用到句子級上,通過設置少量的主題數抽取評價對象,有效解決了Titov等提出的問題。但LDA更適合處理特征豐富的文本。

除上述方法之外,依存句法分析也經常被應用到數據挖掘和文本分析領域,也有一些研究者采用依存句法分析抽取評價對象[12-13]。不同于已有的研究工作,文中鑒于構成評價對象的名詞或名詞詞組多出現在主謂關系、并列關系等句法結構中,在依存句法分析的基礎上,采用二叉樹對名詞或名詞詞組出現頻率較高的句法結構進行挖掘。首先通過依存句法分析生成依存句法關系結構語句,為方便對這些語句進行遍歷,以其中一些結構語句(如主謂關系結構)為核心構造二叉樹。然后遍歷每一棵二叉樹,最終識別出具有完整含義的評價對象。該方法在兩類測試集上都取得了不錯的效果。

1 評價對象抽取工作流程

圖1是抽取評價對象的整個處理過程。

圖1 評價對象抽取工作流程

描述如下:

(1)數據預處理。數據預處理主要是指分詞和詞性標注,這是依存句法分析的前提。

(2)依存句法分析。依存句法分析(Dependency Parsing,DP)最早由法國的語言學家L.Tesniere提出[14],指通過分析句子內各詞語之間的依賴關系識別出“主謂賓”、“定狀補”等語法關系。依存句法分析可服務于關鍵詞識別、自動問答等與自然語言處理相關的各種任務。其分析結果對應于一棵依存樹(如圖2所示),依存樹展示了句子各個成分之間的依賴關系。

圖2 依存樹示例

通過依存句法分析,得到依存句法關系結構庫,每一個句法結構描述了單詞在文本中出現的位置以及各單詞之間的句法關系。

(3)二叉樹構造。為了發現文本中的評價對象,需要遍歷句法結構庫。文中將庫中的結構語句構造成一棵棵二叉樹,得到二叉樹庫。

(4)二叉樹遍歷。對二叉樹庫中的每一棵樹進行中序或后序遍歷,將得到的字符串組合得到最終的評價對象。

(5)建模與測試。為驗證算法的性能,使用三類數據集分別用于建模和測試。

2 評價對象抽取

2.1 依存句法分析

通過依存句法分析,生成一系列依存句法關系結構,如表1所示。

表1 依存句法關系結構示例

用戶評論中的評價對象大都以單一名詞或者名詞詞組的方式出現。通過依存句法分析發現,名詞直接出現在一些主謂關系、并列關系、動賓關系等結構語句中。構成名詞詞組的詞語主要出現在主謂關系、并列關系等前后結構中。如“酒店的位置不錯”對應的句法結構為“酒店_0位置_2 ATT/的_1 酒店_0 RAD/位置_2 不錯_3 SBV/不錯_3 -1 HED”。完整的評價對象“酒店的位置”由詞“酒店”、“位置”組成,“位置”出現在“位置_2 不錯_3 SBV”主謂關系結構中,“酒店”出現在前面的結構“酒店_0位置_2 ATT”和“的_1 酒店_0 RAD”中,且三者之間通過一些共同的詞語產生了聯系。

文中主要對8種成分的依存關系進行分析。8種成分的依存關系及其示例見表2。

表2 依存關系類型及示例

2.2 二叉樹構造和遍歷

表3顯示了在二叉樹構造和遍歷算法中使用的部分符號的含義,其余符號可類推。

表3 符號約定

算法1:二叉樹構造。

1)將T分成M個獨立的段落,構造第一棵二叉樹。

(1)按行號依次遍歷Tm,找到X1_x1Y1_y1SBV,繼續遍歷,若發現Y1_y1Y2_y2SBV,且X2=Y1,執行(2),否則執行(3)。

(2)將X2_x2Y2_y2SBV中的Y2作為根,X2作為Y2左孩子;同時將X1_x1Y1_y1SBV中的X1作為X2的左孩子,生成一棵二叉樹。

(3)將X1_x1Y1_y1SBV中的Y1作為根,X1作為Y1左孩子,生成一棵二叉樹。

(4)繼續遍歷Tm,尋找Z1_z1Y1_y1VOB。存在,將Z1作為Y1的右孩子;否則尋找Z1_z1Y1_yIOB,將Z1作為Y1的右孩子;否則尋找Z1_zY1_y1FOB,將Z1作為Y1的右孩子;否則尋找Z1_z1Y1_y1POB,將Z1作為Y1的右孩子。若都不滿足,執行(5)。

(5)尋找C1_c1Y1_y1COO,存在記Y1=C1,再次執行(4),否則執行(6)。

(6)Y1沒有賓語,Y1的右孩子為空。

2)第一棵二叉樹構造結束,在第一棵二叉樹的基礎上構造后續的二叉樹。

(1)X1作為第2棵二叉樹的根,遍歷Tm,尋找X1L1_x1l1X1_x1ATT或X1L2_x1l2X1_x1ADV或X1L3_x1l3X1_x1VOB,X1L1作為X1的左孩子,右孩子為空;按照x1l1、x1l2、x1l3由小到大的順序構造X1的左子樹。

(2)以X1L1為根,X1L1L1_x1l1l1X1L1_x1l1ATT或X1L1L2_x1l1l2X1L1_x1l1ADV,同(1),構造X1L1的左子樹。

(3)同(2),構造X1L2,X1L3,…的左子樹。

(4)尋找C2_c2X1_x1COO,X1的左子樹作為C2的左子樹,X1的右子樹作為C1的右子樹,構造以C1為根的后續二叉樹。

3)若Y1的右子樹不空,則構造一系列以Z為根的二叉樹,否則執行4)。

(1)同2)步驟(1),構造Z1的左子樹Z1L1,右子樹空;構造Z1L1的左子樹Z1L1L1,右子樹空。

(2)同2)步驟(4),尋找句法關系D1_d1Z1_z1COO,Z1的左子樹作為D1的左子樹,Z1的右子樹作為Z1的右子樹,構造以D1為根的后續二叉樹。

4)Y1的右子樹為空,構造Y1樹。尋找Y1L1_y1l1Y1_y1ATT或Y1L2_y1l2Y1_y1ADV,類似于2)步驟(1),若yl1yl2,YL2作為YL1的左子樹。

算法2:二叉樹遍歷。

(1)對二叉樹進行中序遍歷,得到的第一個節點X1(如果X2不存在,否則X2作為候選的評價對象)作為候選評價對象,Z作為候選評價詞。

(2)后序遍歷以X1、X1L1、X1L1L1…為根的二叉樹,得到后序序列newX1、newX1L1、newX1L1L1,構造字符串X1=…+newX1L1L1+newX1L1+newX1,作為最終評價對象。

(3)后序遍歷以Z1、Z1L1、Z1L1L1…為根的二叉樹,得到后序序列newZ1、newZ1L1、newZ1L1L1,構造字符串Z1=…+newZ1L1L1+newZ1L1+newZ1,作為最終評價詞。

(4)得到評價對象和評價詞的二元組

(5)后序遍歷以D1、D1L1、D1L1L1…為根的二叉樹,得到后序序列newD1、newD1L1、newD1L1L1,構造字符串D1=…+newD1L1L1+newD1L1+newD1,作為新的評價詞。

(6)得到新的評價對象和評價詞的二元組

(7)若X1的并列對象C1存在,則后續遍歷C1,得到C1…+newC1L1L1+newC1L1+newC1。得到新的評價對象C1和評價詞二元組。C1是最終評價對象。

圖3是二叉樹構造的示例。通過上述算法挖掘句子“酒店環境,房間檔次都很不錯,服務水平專業。住了兩天,感覺確實比較不錯,二樓自助燒烤給人賓至如歸的感覺”的評價對象有“房間檔次”、“酒店環境”、“二樓燒烤”。

圖3 二叉樹構造示例

3 實驗結果與分析

文中使用的數據集如表4所示。

表4 數據集

其中,CⅠ用于建模,CⅡ和CⅢ作為測試集來進一步驗證算法的性能。CⅠ中文本長短不一,50字左右的評論占3/5左右;CⅡ中大部分評論的字數在100字左右;CⅢ中大部分的評論字數在20字左右。

三類數據集得到的各個性能指標如表5所示。

表5 測試結果

從表5中,可以得到以下結論:

(1)文中提出的算法在兩類測試集上能夠取得一定的效果。

(2)CⅠ和CⅡ的召回率比準確率高。數據集中,主觀性句子的出現影響了準確率。雖然通過依存關系分析能夠挖掘到主觀句中的名詞或名詞詞組,但這些詞語僅是對事物的陳述,不含用戶的任何感情色彩,并不能作為評價對象。

(3)CⅢ得到的召回率較低,準確率較高。由于CⅢ中大部分的評論句較短,句法結構不規則,生成的一些句法結構出現錯誤。

4 結束語

由于網絡用語使用不規范,每一個商業領域都有自己專用的術語,使得評價對象在網絡評論中的識別問題面臨著巨大挑戰。雖然一些分詞、詞性標注工具在處理新聞等時事類文章時表現出優越的性能,但是對網絡評論這類語句的分詞、標注處理得并不理想。為了解決評價對象識別問題,一些專家學者不斷提出、改進新的算法,這些算法針對一些特定的問題能夠取得較高的指標,但是目前仍沒有形成統一的、相對成熟的模型來解決這類普遍的問題。

文中選擇對評價對象出現頻率高的句法關系結構構造二叉樹,減少了對于無效句法關系結構的挖掘。經驗證,該算法取得了不錯的效果,且召回率在不同的數據集上都趨于穩定。在下一步的工作中,將針對主觀性句子對算法的影響進行分析,在去除主觀性句子的基礎上進一步研究算法的性能,并將算法拓展到其他知識領域。

[1] 劉鴻宇,趙妍妍,秦 兵,等.評價對象抽取及其傾向性分析[J].中文信息學報,2010,24(1):84-88.

[2]EirinakiM,PisalS,SinghJ.Feature-basedopinionminingandranking[J].JournalofComputerandSystemSciences,2012,78(4):1175-1184.

[3] 文坤梅,徐 帥,李瑞軒,等.微博及中文微博信息處理研究綜述[J].中文信息學報,2013,26(6):27-37.

[4]QiuG,LiuB,BuJ,etal.Opinionwordexpansionandtargetextractionthroughdoublepropagation[J].ComputationalLinguistics,2011,37(1):9-27.

[5] 徐葉強,朱艷輝,王文華,等.中文產品評論中評價對象的識別研究[J].計算機工程,2012,38(20):140-143.

[6] 許細清,林世平.Web文檔評價對象抽取研究[J].計算機工程,2011,37(6):30-31.

[7]YuL,DuanX,TianS,etal.Topicextractionbasedonproduct

reviews[J].JournalofComputationalInformationSystems,2013,9(2):773-780.

[8] 戴 敏,王榮洋,李壽山,等.基于句法特征的評價對象抽取方法研究[J].中文信息學報,2014,28(4):92-97.

[9]YuJ,ZhaZJ,WangM,etal.Domain-assistedproductaspecthierarchygeneration:towardshierarchicalorganizationofunstructuredconsumerreviews[C]//Proceedingsoftheconferenceonempiricalmethodsinnaturallanguageprocessing.[s.l.]:AssociationforComputationalLinguistics,2011:140-150.

[10]TitovI,McDonaldR.Modelingonlinereviewswithmulti-graintopicmodels[C]//Proceedingsofthe17thinternationalconferenceonworldwideweb.NewYork:ACM,2008:111-120.

[11]BrodyS,ElhadadN.Anunsupervisedaspect-sentimentmodelforonlinereviews[C]//Proceedingsofhumanlanguagetechnologies:the2010annualconferenceoftheNorthAmericanchapteroftheassociationforcomputationallinguistics.Str-oudsburg,PA:AssociationforComputationalLinguistics,2010:804-812.

[12] 任 彬,車萬翔,劉 挺.基于依存句法分析的社會媒體文本挖掘方法—以飲食習慣特色分析為例[J].中文信息學報,2014,28(6):208-215.

[13] 陶新竹,趙 鵬,劉 濤.融合核心句與依存關系的評價搭配抽取[J].計算機技術與發展,2014,24(1):118-121.

[14]DebusmannR.Anintroductiontodependencygrammar[J].HausarbeitfurdasHauptseminarDependenzgrammatikSoSe,2000,99:1-16.

Extraction of Evaluation Object Based on Dependency Parsing and Binary Tree

ZHANG Jian-hua,WENG Ming,LI Xiao-le,LIU Fang

(Experimental Teaching Center,Guangxi University of Finance and Economics,Nanning 530003,China)

It’s beneficial for finding productions’ feature that users care,by identifying the evaluation objects in comments,which provides decision basis for improving productions’ equality.According to the interdependence between words,an evaluation object identifying method based on dependency parsing and binary tree was proposed.By dependency relation analyzing,grammar relations sentences are found.Then construct binary trees with noun and noun phrases based on the binary tree model.Finally,traverse all binary trees,output relative strings,and combined the outputting strings,get evaluation objects with complete meaning.Experimental results show that this method has good effects in two specific test sets.

dependency parsing;evaluation object;binary tree

2015-05-12

2015-08-14

時間:2016-01-26

廣西高等學校科學技術研究項目(2013YB215);廣西財經學院數量經濟學創新團隊開放性基金項目(2014CX07)作者簡介:張建華(1986-),女,碩士研究生,研究方向為數據挖掘、自然語言處理;翁 鳴,博士,副教授,研究方向為數據挖掘、電子商務。

http://www.cnki.net/kcms/detail/61.1450.TP.20160126.1520.042.html

TP393.4;TP391.1

A

1673-629X(2016)02-0052-04

10.3969/j.issn.1673-629X.2016.02.012

猜你喜歡
評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統評價再評價
自制C肽質控品及其性能評價
寫作交流與評價:詞的欣賞
中學語文(2015年21期)2015-03-01 03:52:11
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
HBV-DNA提取液I的配制和應用評價
西南軍醫(2015年1期)2015-01-22 09:08:16
有效評價讓每朵花兒都綻放
模糊數學評價法在水質評價中的應用
治淮(2013年1期)2013-03-11 20:05:18
保加利亞轉軌20年評價
主站蜘蛛池模板: 久久精品人人做人人爽电影蜜月| 国产亚洲美日韩AV中文字幕无码成人| 国产成年女人特黄特色大片免费| 超清人妻系列无码专区| 国产va视频| 国产精彩视频在线观看| 亚洲美女久久| 国产美女自慰在线观看| 亚洲免费播放| 黄色不卡视频| 九九精品在线观看| 精品福利网| 亚洲一区二区成人| 欧美成人一区午夜福利在线| 欧美h在线观看| 久久公开视频| 久青草网站| 欧美 国产 人人视频| 亚洲欧洲日韩综合| 91小视频在线| 欧美成人综合在线| 蜜桃视频一区| 在线视频亚洲色图| 国产精品永久不卡免费视频| 欧美伊人色综合久久天天| 狠狠亚洲五月天| 无码国内精品人妻少妇蜜桃视频| 无码日韩人妻精品久久蜜桃| 久996视频精品免费观看| www.狠狠| www亚洲天堂| 怡红院美国分院一区二区| 国产一级毛片在线| 99爱视频精品免视看| 亚洲精品第一页不卡| 91在线高清视频| 国产成人在线无码免费视频| 国产精品黄色片| 亚洲大尺码专区影院| 99久久精品国产自免费| 91福利国产成人精品导航| 香蕉国产精品视频| 无码AV日韩一二三区| 亚洲无码高清免费视频亚洲| 欧美成人手机在线观看网址| 亚洲欧美一区二区三区图片 | 九九免费观看全部免费视频| 国产成人AV综合久久| 亚洲第七页| 国产精品部在线观看| 先锋资源久久| 91久久大香线蕉| 久久精品人人做人人爽| 欧美午夜视频在线| 女人爽到高潮免费视频大全| 沈阳少妇高潮在线| 成人福利在线看| 中文字幕1区2区| jizz国产视频| 欧洲亚洲一区| 国产精选小视频在线观看| 精品人妻系列无码专区久久| 国产乱人免费视频| 久久综合九色综合97网| 久久这里只有精品2| 在线综合亚洲欧美网站| 99草精品视频| 日本欧美精品| 欧美午夜性视频| 亚洲综合一区国产精品| 日韩无码白| 婷婷色狠狠干| 人妻丰满熟妇AV无码区| 不卡无码h在线观看| 国产麻豆永久视频| 国产欧美精品一区二区| 欧美一区二区自偷自拍视频| 国产午夜无码片在线观看网站| 日韩在线网址| 国产自在线播放| 久爱午夜精品免费视频| 四虎永久在线精品影院|