衛(wèi)衛(wèi)
摘要:伴隨著我國(guó)對(duì)于數(shù)據(jù)挖掘以及自然語(yǔ)言相關(guān)技術(shù)的不斷提高,在Web上研究者也加強(qiáng)了對(duì)資源的關(guān)注力度。但由于現(xiàn)階段金融證券領(lǐng)域缺乏一定的情感語(yǔ)料庫(kù),因此將情感分析加入到金融證券域內(nèi)相關(guān)技術(shù)的應(yīng)用情況十分少見(jiàn)。面對(duì)數(shù)量巨大的非結(jié)構(gòu)化Web文本金融信息,加強(qiáng)對(duì)金融信息領(lǐng)域特征的考慮,充分利用基于語(yǔ)素的金融證券域文本情感的計(jì)算方法對(duì)Web文檔的情感分析有著巨大影響。
關(guān)鍵詞:金融信息,情感分析;領(lǐng)域特征
中圖分類號(hào):G4 文獻(xiàn)標(biāo)識(shí)碼:A
一、引言
公眾可以通過(guò)Web新聞或者論壇的方式對(duì)上市公司進(jìn)行一定的評(píng)論,同時(shí)結(jié)合一定的計(jì)算方法對(duì)每個(gè)文檔計(jì)算出一個(gè)情感值,情感傾向主要通過(guò)情感值來(lái)體現(xiàn),而文檔的傾向強(qiáng)度則是由情感值的絕對(duì)值進(jìn)行控制。運(yùn)用基于語(yǔ)素的金融證券域文本情感這一計(jì)算方法,可以避免資料庫(kù)缺少這一局限性,在不斷實(shí)驗(yàn)數(shù)據(jù)以及結(jié)果來(lái)看,這種方法可以高校的分析出Web金融信息的情感傾向。
二、相關(guān)工作
使用文本情感分析方法已經(jīng)成為目前一種相對(duì)前端的分析手段,而在金融證券域中的全面開(kāi)展,就需要立足于金融證券域的實(shí)際需求。從現(xiàn)階段對(duì)情感傾向性的研究來(lái)看,主要分為兩種:一種是利用機(jī)器學(xué)習(xí)的方法進(jìn)行文本分類,將文本放置到特定的類別中,即正向或者負(fù)向;另一種則是給文本計(jì)算一個(gè)情感傾向值,傾向性則是通過(guò)值的符號(hào)來(lái)體現(xiàn),而傾向強(qiáng)度則是通過(guò)值的絕對(duì)值大小來(lái)體現(xiàn)。
要在金融證券域中應(yīng)用這種方法,主要從以下幾點(diǎn)展開(kāi):①對(duì)不同種類的相關(guān)對(duì)象進(jìn)行分類。在具體分類過(guò)程中,很難考慮到所有方面,主要立足于我國(guó)證券的主要實(shí)施情況;②要有一定的時(shí)間限定,指的是在某一時(shí)間段內(nèi)應(yīng)該對(duì)什么類型的文本信息進(jìn)行提取,這能才能夠滿足不同經(jīng)濟(jì)指標(biāo)的基本平衡;③對(duì)文本信息量進(jìn)行確定。如何把握選取文本量與質(zhì)的關(guān)系,也就是在相對(duì)的量?jī)?nèi)選擇能夠體現(xiàn)情感傾向的典型文本。想要完成好這些基礎(chǔ)性工作,就必須進(jìn)行全面性的閱讀和學(xué)習(xí),從而得到一些學(xué)術(shù)上的基礎(chǔ)。同時(shí)也要對(duì)文本信息的時(shí)段、真?zhèn)吻闆r以及發(fā)布主體進(jìn)行仔細(xì)辨別,確保文本的全面性,從而提高結(jié)論的公正。
三、基于語(yǔ)素的文本情感分析
3.1基礎(chǔ)框架
任何一項(xiàng)工作的開(kāi)展都需要在一定的框架范圍內(nèi)實(shí)行,因此,基于語(yǔ)素的金融證券文本情感探測(cè)也需要建立一定的框架。從當(dāng)前Web上金融信息的基本內(nèi)容來(lái)看,主要包含兩類:一種是不同金融網(wǎng)站的新聞、專家品論、公告等等;而另一種則是不同股吧論壇上的帖子。前者的褒貶性不明顯,但內(nèi)容具有一定的真實(shí)性,通常被選作研究對(duì)象。
因此,在對(duì)金融證券進(jìn)行框架構(gòu)建時(shí),首先據(jù)需要針對(duì)金融證券產(chǎn)品實(shí)施文本情感探測(cè),選取的目標(biāo)也要具有一定針對(duì)性,其應(yīng)具有一定的典型性、代表性。同時(shí)在對(duì)對(duì)探測(cè)內(nèi)容進(jìn)行框架構(gòu)建時(shí),就要以企業(yè)的經(jīng)濟(jì)數(shù)據(jù)作為基礎(chǔ),立足于金融證券域內(nèi)的評(píng)價(jià)、評(píng)論以及基本預(yù)測(cè),對(duì)于一些情感傾向性強(qiáng)的文本信息,應(yīng)該進(jìn)行歸納、綜合、分類以及提取。
3.2種子集選取
在建立的框架內(nèi),通過(guò)針對(duì)性選取,例如相關(guān)各種典型的預(yù)測(cè)以及企業(yè)走向較為理性的評(píng)價(jià)等等,并對(duì)其進(jìn)行選取甄別,在大量信息中總結(jié)出具有一定規(guī)律的結(jié)論,從而指導(dǎo)不同主體的具體發(fā)展。而在實(shí)際的工作過(guò)程中,需要大量的精力用在具有一定代表性的不同情感傾做為選取目標(biāo)。特別需要注意的基本原則是,對(duì)于選取的情感文本不能融入自己的情感傾向,以一種相對(duì)客觀的心態(tài)面對(duì)文本信息。從現(xiàn)階段金融證券于的基本情況來(lái)看,其并沒(méi)有現(xiàn)成的情感此點(diǎn),因此需要從現(xiàn)階段金融證券語(yǔ)料庫(kù)出發(fā),對(duì)所需的情感詞典進(jìn)行構(gòu)造,首先就是對(duì)正向種子集和負(fù)向種子集進(jìn)行定義,并根據(jù)同義關(guān)系或者反義關(guān)系對(duì)其進(jìn)行擴(kuò)展。
3.3文檔情感傾向性計(jì)算
這里所講的傾向性,主要指的是不同的相關(guān)主體,在對(duì)相關(guān)經(jīng)濟(jì)形式的具體觀察下,從而產(chǎn)生的具有一定個(gè)人槍桿的評(píng)論等等,雖然其中包含了一定的個(gè)人主觀色彩,有著不同種類有利于個(gè)人的祈禱祝福,但是其中仍然具有較多的理性成分。在通過(guò)對(duì)文本中的詞匯、語(yǔ)句甚至是整篇文芳的格局處理等進(jìn)行分析,都可以得到相對(duì)文檔并且能夠用于計(jì)算的可靠數(shù)據(jù),從而結(jié)合企業(yè)發(fā)展的數(shù)據(jù)得出合理的結(jié)論。因此,在計(jì)算過(guò)程中要以文本的細(xì)粒度做為基本,從而展開(kāi)情感屬性的相關(guān)研究,盡可能地將設(shè)計(jì)相關(guān)政府輿情分析、企業(yè)的發(fā)展趨勢(shì)以及其他主體的個(gè)人追求分析,都需要在計(jì)算過(guò)程中包含進(jìn)去,這樣才能夠得到經(jīng)濟(jì)的綜合運(yùn)算結(jié)果。
同時(shí),對(duì)于文檔傾向性的計(jì)算主要可以從三方面進(jìn)行,分別是詞匯級(jí)別、句子級(jí)別以及文檔級(jí)別。由于情感詞的傾向做為一個(gè)句子甚至一個(gè)文檔的情感傾向的具體表現(xiàn),充分利用建立好的詞典對(duì)情感詞傾向進(jìn)行計(jì)算:
3.3.1詞的情感傾向性計(jì)算
組成詞的語(yǔ)素情感傾向決定了次的情感傾向,因此,可以通過(guò)組成詞的語(yǔ)素情感分?jǐn)?shù)來(lái)計(jì)算次的情感傾向值。在一個(gè)語(yǔ)素中,當(dāng)其出現(xiàn)在正向情感詞典中的次數(shù)較多時(shí),則這個(gè)語(yǔ)素更傾向于褒義;反之,在負(fù)向情感此點(diǎn)中的次數(shù)較多時(shí),則這個(gè)語(yǔ)素更傾向于貶義。
3.3.2句子情感傾向性計(jì)算
構(gòu)成句中情感詞的傾向決定了句子的情感傾向。由于否定詞會(huì)使情感詞的極性反轉(zhuǎn),這就導(dǎo)致在計(jì)算句子情感傾向值的時(shí),要考慮否定詞的具體作用。同理,程度副詞也具有于否定詞相同的結(jié)果,因此也要考慮其中。
3.3.3文檔情感傾向性計(jì)算
通常情況下,人們總會(huì)將一些重要的、能夠表達(dá)觀點(diǎn)的句子放在相對(duì)顯眼的位置,例如標(biāo)題、段首、段末等,因此,在計(jì)算一個(gè)文檔的整體傾向性時(shí),需要考慮情感劇的位置對(duì)情感值的印象影響。
結(jié)語(yǔ):在對(duì)金融證券域語(yǔ)素的文本情感的不斷分析我們可以認(rèn)為,情感文本探測(cè)是現(xiàn)階段各相關(guān)主體的認(rèn)識(shí)動(dòng)態(tài)的重要指標(biāo)。應(yīng)用這種探測(cè)方法,需要堅(jiān)持不懈,并且在其他相關(guān)分析軟件的原有基礎(chǔ)上進(jìn)行不斷研發(fā),這樣就可以為其他主體提供相對(duì)全面的思考。從現(xiàn)階段金融證券域的情感探測(cè)領(lǐng)域來(lái)看,仍然缺少針對(duì)性較強(qiáng)的分析原件,這就需要相關(guān)技術(shù)人員以及專業(yè)部門(mén)提高科研力度,以期在金融證券域的語(yǔ)素情感傾向探測(cè)上取得全面應(yīng)用。
參考文獻(xiàn)
[1]李國(guó)林,萬(wàn)常選,邊海容,楊莉,鐘敏娟. 基于語(yǔ)素的金融證券域文本情感探測(cè)[J].計(jì)算機(jī)研究域發(fā)展,2011,(48):54-59.
[2]梁利高.基于語(yǔ)素的金融證券域文本情感探索[J].財(cái)政金融,2013,(14).