999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XBRL的自然語言語句的形式化標注研究

2017-12-19 13:59:38孫凡蘇垚開
會計之友 2017年24期

孫凡+蘇垚開

【摘 要】 為了提高機器對自然語言的理解能力,以語義形式化為切入點,研究了基于可擴展商業報告語言(XBRL)的自然語言語句的形式化標注問題。研究表明,自然語言句子的語義表達模式靈活多樣,其語義需要分別從詞匯意義、語法意義、其他意義等方面加以理解; XBRL的技術體系結構具有可擴展性,通過擴充基礎規范,重構分類標準,增加新元素,基于XBRL技術可對自然語言的語句進行形式化標記,進而提高機器對自然語言的理解能力。

【關鍵詞】 自然語言語句; 形式化標注; XBRL

【中圖分類號】 H102 【文獻標識碼】 A 【文章編號】 1004-5937(2017)24-0070-04

當今社會已進入大數據時代,大數據及其應用將會引起人類社會的又一次革命[1]。大數據具有容量大(Volume)、種類多(Variety)、流動速度高(Velocity)、真偽混雜性(Veracity)等特征,是使用常規的工具難以處理的數據集合[2]。之所以難以用常規的工具處理大數據,主要是因為大數據中含有大量的非結構化數據,而非結構化數據中相當大的一部分是來自于社交媒體的自然語言[3]。長期以來,人們試圖讓計算機等智能設備代替人類理解并處理自然語言,但實踐證明,由于存在語言現象無限而可利用的計算資源有限的矛盾,自然語言是一種難以用機器理解的語言[4-5]。而語言標注是一種對語言數據進行識別、選擇和歸類的工作,既能將語言數據中隱藏的意義顯式地表現出來,也能按照不同的使用需求對語言數據進行標準化處理,有助于將自然語言轉換為易于機器理解的數據[6]。被譽為互聯網女皇的瑪麗·艾克在《2014年互聯網趨勢報告》中提出,從2014年開始,應用大數據解決各類問題的趨勢將顯現,但現有的通用數據中有34%的信息具備研究價值,其中只有7%的數據被做了標注,被分析過的只有1%[7]。由此可見,為了便于對大數據進行分析使用,數據標注具有重要的作用。XBRL是適用于商業報告領域的一種國際化的標注語言,目前已在多個國家的金融監管、財政監管和稅務監管領域得到應用[8]。如果能用XBRL標注自然語言,這將為提高其在機器智能領域中的可用性創造非常有利的條件。本文的貢獻在于以語義形式化為突破點,提出了改進自然語言語句可用性的方法,并用擴展的XBRL作為標記語言,將有助于推動自然語言在計算機智能領域中的應用。

一、自然語言語句的語義組成

自然語言主要由句子構成。語言學研究認為,語義是語言的意義內容,它是客觀現實地在人的意識中的反映。鑒于自然語言語句的語序靈活,依據傳統的依存樹投射現象原理不能解決某些句式的語義理解問題[9-10],本文擬從語義分解與組合的視角出發研究自然語言語句的形式化標注問題。

本文的研究前提是句子的基本語義可分為詞匯意義、語法意義和其他意義三大類,這三大類語義組合起來可以完整地反映句子的含義;同時總可以找到不同的標注元素組合來表示各種自然語言語句的語義,標注方式(標注元素及其組合)與語句語義可以實現一一對應的關系。

(一)詞匯意義

詞匯是自然語言的建筑材料,由詞和熟語組成[11]。詞是音義結合的、語法上定型的、能獨立運用的最小語言單位。熟語作為常用固定組合,語音和諧,語義結合緊密,是語言中獨立運用的詞匯單位。無論是詞還是熟語,都有一定的意義,統稱為詞匯意義。詞匯意義是對客觀現實抽象、概括的反映,一個詞匯意義概括一類現象。

(二)語法意義

語法是語言的組織規律,是人類思維長期思考的結果。語法用來組織語言中的詞匯單位,是語言的“建筑法”。語法意義是指用詞造句時產生的詞與詞之間的關系[12],包括三種基本類型:(1)語法范疇意義,如性、數、格、時、人稱、體、態等用一定的語法形式①表達的各種語言中共有的意義;(2)語法功能意義,如主語、謂語、定語等句子成分意義;(3)句法結構意義,如陳述句、疑問句、祈使句等句型意義以及變式句、省略句等句型轉換意義。

(三)其他意義

其他意義是指除了詞語意義和語法意義以外,一個語句可能具有的其他語義,包括修辭意義、語境意義等。修辭意義是指通過采用特別的語言手段而使句子所體現出的感情色彩、語體色彩、聯想色彩等[13];其中感情色彩反映人們對客觀現實的主觀評價和態度,語體色彩是指語言使用隨環境而異產生出的書卷語體、談話語體、藝術語體和科學語體等一系列使用語言材料的特點,聯想色彩是從詞匯意義的聯想而產生的預示或者氛圍的語言使用技巧。語境意義包括上下文意義和社會文化意義兩種;上下文意義是指一些語言單位在具體的言語環境下所具有的特別意義,社會文化意義則指一些語言單位的含義與社會文化背景有關。語境意義在使用語言時產生,附著在語言材料之上,受言語環境制約。

二、自然語言語句的語義形式化方法

由于自然語言語句在使用中容易產生歧義現象[14],所以要進行快速準確處理,必須首先把自然語言語句所蘊涵的語義采用形式化的方法加以描述,其次用適當的標記語言把這種描述標記成為計算機可以識別的數據,然后通過特定的程序讓計算機處理這些標記數據,最終實現提高自然語言可用性的目標[15]。自然語言語句語義表達形式化的目標是對不同的句子語義用不同的標注元素組合描述,使標注方式(包括標注元素及其組合)與句子的具體語義一一對應起來。

(一)詞匯意義的形式化

所謂詞匯意義的形式化是指用不同的標注元素組合表示不同的詞匯意義,使兩者之間具有一一對應的關系。句子所使用的詞匯包括實詞和虛詞兩大類,實詞的意義能夠獨立表達,虛詞的意義不能獨立表達,需和實詞結合起來表達[16]。無論是由實詞還是由實詞與虛詞組合而成的詞匯,從其所代表的意義來看,可分為單義詞和多義詞兩種類型。單義詞容易滿足語義與描述方式一一對應的原則,多義詞不符合這種原則,需要借助于多義詞在句子中所具有語法意義和修辭意義來聯合描述其語義,實現一一對應的形式化要求。endprint

(二)語法意義的形式化

所謂語法意義的形式化是指用不同的標注元素組合表示不同的語法意義,實現標注方式與語法意義之間的一一對應關系。由詞匯組成句子要遵循一定的搭配規則,這些規則體現為句子的語法意義。句子語法意義的表達需通過語法分析的途徑來實現,主要的語法分析途徑包括語法范疇分析、語法功能分析以及句法結構分析。每種途徑下有若干分析對象。如語法范疇途徑下包括性、數、格、時、人稱、體、態等多種對象;語法功能途徑下包括各種句子成分分析對象,如主語、謂語、定語等具體對象;句法結構途徑下包括各種句型分析對象,如陳述句、疑問句、祈使句、變式句、省略句等對象。利用這些對象來描述句法意義能夠滿足形式化的要求。

(三)其他意義的形式化

其他意義的形式化包括句子修辭意義的形式化和語境意義的形式化等。

修辭意義的形式化是指用不同的標注元素組合表示不同修辭意義,實現標注方式與修辭意義之間的一一對應關系。修辭意義的形式化可通過對修辭手法的描述來實現,修辭手法可分為感情色彩手法、語體色彩手法、聯想色彩手法等。

語境意義的形式化是指用不同的標注元素組合表示不同的語境意義,使兩者之間具有一一對應關系。語境意義的形式化可通過對語境意義的構成要素的描述來實現。語境意義由社會文化意義和上下文意義構成。社會文化意義可由時代、國別、政治、經濟、法律、文化等子元素來表示,不同的社會文化意義通過不同的子元素組合實現。上下文意義可由時間、地點、相關者、動機、方式等子元素來體現,同樣,不同的上下文意義由不同的子元素組合來實現。

三、自然語言語句語義形式化的標記

在實現了句子意義的形式化標注目標后,還需要用適當的標記語言對這些描述方式進行一對一標注,便于計算機處理。XBRL是來源于XML的一種用于商業報告領域的標記語言,由XBRL國際組織②于2000年推出,我國標準化管理委員會于2010年將其吸納為國家標準③。相對于XML,XBRL標準增加了面向元素語義解讀的擴展鏈接庫,這為實例文檔的語義形式化提供了可能性,目前已在多個國家的金融監管、財政監管和稅務監管領域得到應用[17-18]。XBRL的性能是由其技術體系結構決定的,現行的XBRL技術采用了“積木式”和“可插拔式”的體系結構,為未來的擴展預留了空間[19]。所謂“積木式”是指XBRL技術體系采用層疊型的結構,按照XBRL國際組織所頒發的XBRL技術規范,XBRL技術體系結構分為三層:語法規范層、分類標準層和實例文檔層,其中每一層根據需要還可以分為若干子層,比如目前我國把分類標準層劃分為企業通用分類標準和擴展分類標準兩個層次,擴展分類標準又可分為行業擴展分類標準、監管擴展分類標準和企業自行擴展分類標準。所謂“可插拔式”是指XBRL的語法規范和分類標準層可分別由多個相互獨立的模塊組成。這些模塊可根據需要隨時添加以適應新的使用要求。

(一)詞匯意義形式化的XBRL標記模式

現行的XBRL技術標準是面向財務報告等結構化數據的,為了形式化地標記自然語言,需要在現有的XBRL分類標準的基礎上,繼續增加XBRL所能標注的詞匯范圍。從財政部頒布的基于XBRL的中國企業會計準則通用分類標準以及各種擴展分類標準來看,目前XBRL所使用的詞匯基本都是行業術語,這適合于內容相對固定的各行業的財務報告,但自然語言的范疇遠遠超過財務報告,要涉及到對其他行業以及各類社會現象的描述,所需要的詞匯種類和數量將會極大地增加,憑借XBRL現有的分類標準架構難以組織和管理巨大的詞匯量,需要改造其結構。從大數據管理的視角,XBRL分類標準的架構應該由原子單詞集合和詞組結構兩部分構成,原子單詞是可以使用的音義結合的最小詞匯單位,從詞匯的概括意義和結合能力來看,包括實詞和虛詞兩種類型,其中實詞可以進一步地劃分為名詞、動詞、形容詞、數詞、量詞、副詞等,虛詞可以劃分為介詞、連詞、助詞、語氣詞等。之所以設立原子單詞集合,是因為語言使用實踐證明,語言單位越小,其穩定性越強[20]。詞組結構是指詞組內部的詞與詞之間形成一定的語法聯系,概括了一整類詞與詞之間的關系,通過詞組體現出來,包括聯合詞組、主謂詞組、動賓詞組、偏正詞組、正補詞組、同位詞組等多種形式。為了標注原子單詞及詞組結構,需在現有XBRL技術規范的基礎上增設“原子單詞”和“詞組結構”等元素,“原子單詞”元素的數目為所需單詞的數目,通過為“原子單詞”元素指定屬性和各種類型的鏈接庫的方式界定原子單詞的含義。單詞屬性主要指單詞所屬的詞類,鏈接庫主要有定義鏈接庫、引用鏈接庫等,其中定義鏈接庫負責解釋單詞的詞義,引用鏈接庫負責解釋單詞的來源及出處。“詞組結構”元素可下設“聯合詞組”“主謂詞組”“動賓詞組”“偏正詞組”“正補詞組”“同位詞組”等子元素來表明詞組的結構。

(二)語法意義形式化的XBRL標記模式

語法意義傳遞了由詞組成句子時,詞與詞之間的分工協作關系,以及言語內容對現實、對時間的關系等,是理解句子語義的一個重要方面。我國現行的XBRL技術標準用“基礎規范”“維度”“公式”“版本”四個組件規定了XBRL分類標準和實例文檔中可用的語法規則,但這些語法規則是面向結構化的財務數據,對于包含以句子為基本言語單位的自然語言,這些規則不夠用,應該在現有四組件的基礎上,再增加表達句子語法意義的“句子與轉換生成規則”組件,該組件再下設“語法范疇”“語法功能”“句法結構”等元素。其中“語法范疇”元素表示各種語言中共有的意義,通過性、數、格、時、人稱、體、態等語法形式來表達,為此“語法范疇”元素還應下設“性”“數”“格”“時”“人稱”“體”“態”等子元素,用它們來表示句子所反映的客觀世界的相關現象和相應規律。“語法功能”元素表示詞匯在句子中所承擔的角色,包括“主語”“謂語”“賓語”“定語”“狀語”“補語”等代表各種句子成份意義的子元素。“句法結構”元素表示言語內容與客觀現實之間的關系,下設“句類”“句型”子元素,“句類”子元素表示從語氣角度對句子的分類,進一步包括“陳述句”“疑問句”“祈使句”“感嘆句”等子元素,“句型”子元素表示從句子結構角度對句子的分類,進一步包括“主謂句”“非主謂句”兩種表示句子結構的子元素。endprint

(三)其他意義形式化的XBRL標記模式

現有的XBRL技術規范體系中定義了上下文元素(Context),將之作為由抽象的分類標準到具體的實例文檔的接口,并提供了期間(Period)、實體(Entity)和場景(Scenario)三個子元素,表達了編制和理解財務報告所需的三種基本語境:報告時間、報告對象、報告目的與編制方法。對于自然語言的語義解讀而言,這些上下文內容是不夠的,需要擴充。如前所述,其他意義包括修辭意義和語境意義等,因此在現有的上下文元素(Context)的基礎上,需要增加“修辭意義”和“語境意義”等新元素。其中“修辭意義”元素下設“感情色彩”“語體色彩”“聯想色彩”等子元素,“語境意義”元素下設“社會文化意義”“上下文意義”等子元素。同時為“社會文化意義”子元素增設“時代”“國別”“政治”“經濟”“法律”“文化”等子元素,為“上下文意義”子元素增設“時間”“地點”“相關者”“動機”“方式”等子元素。

四、結語

隨著互聯網、物聯網、無線傳感器、云計算的快速發展,全球數據量出現爆炸式增長,人類社會進入大數據時代。學術界和工業界都在關注著大數據的發展,探索新的大數據技術、開發新的工具和服務,努力將“信息過載”轉換為“信息優勢”,將爆炸式的數據增長轉化為爆炸式的知識增長,進而造福整個世界。

本文的貢獻在于從語義形式化的視角出發,分析了自然語言語句的語義表達機制,并從XBRL的可擴展特征出發,提出了能夠形式化地標注自然語言語句語義的XBRL擴展模型,研究成果有利于中文大數據在機器智能領域的應用,但研究中存在以下不足:(1)本文只對自然語言語句的語義形式化問題進行了研究,雖然句子是語義表達的基本單位,但在句子基礎上的段落、篇章都有特定的語義表達作用,未來須對段落、篇章的語義形式化及標記問題進行研究;(2)語言學研究表明,句子語音對語義具有解釋作用,那么句子的語音有哪些類型,對語義有怎樣的解釋作用,如何用標記等問題也值得進一步研究。

【參考文獻】

[1] NATURE.Big Data:Science in the petabyte era[EB/OL].http://www.nature.com/news/specials/bigdata/index.html[2008-09-03/2015-02-21].

[2] BRYANT R E,KATZ R H,LAZOWSKA E D. Big Data computing: Creating revolutionary breakthroughs in commerce,science,and society[M/OL].http//www.cra.org,2008.

[3] GOES P B. Big Data and is research[J].MIS Quarterly,2014,38 (3):3-8.

[4] 俞士汶,朱學鋒,耿立波.自然語言處理技術與語言深度計算[J].中國社會科學,2015(3):127-135.

[5] 宗成慶,曹右琦,俞士汶.中文信息處理60年[J].語言文字應用,2009,11(4):53-61.

[6] 孫茂松.基于互聯網自然標注資源的自然語言處理[J].中文信息學報,2011,25(6):26-32.

[7] KPCB. 2014年互聯網趨勢報告[EB/OL]. http://www.iyunying.org/ziliao/903.html [2016-03-13].

[8] 應唯,王丁,黃敏. XBRL財務報告分類標準的架構模型研究[J].會計研究,2013(8):3-9.

[9] 鄭麗娟,邵艷秋,楊爾弘.中文非投射語義依存現象分析研究[J].中文信息學報,2014,28(6):41-47.

[10] 李艷嬌,楊爾弘.樹庫中的歧義組合考察[J].中文信息學報,2012,26(2):23-27.

[11] 司聯合.論句子意義中結構意義和詞匯意義的互動關系[J].外語與外語教學,2007(12):12-14.

[12] 賈玉祥,王浩石,昝紅英,等.漢語語義選擇限制知識的自動獲取研究[J].中文信息學報,2014,28(5):66-73.

[13] 王德春.語言學通論(修訂本)[M].北京:北京大學出版社,2006.

[14] 張祿彭,易綿竹,周云. 中文歧義研究25年——以《中文信息學報》論文為例[J].中文信息學報,2012,26(4):73-84.

[15] 李穎,馮志偉.計算語言學的超學科研究[J].現代外語,2015,38(3):407-415.

[16] 俞士汶,朱學鋒,劉云.面向自然語言理解的漢語虛詞研究[C].民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集,2007:270-279.

[17] PERDANA A,ROBB A,ROHDE F. An integrative review and synthesis of XBRL research in academic journals[J]. Journal of Information Systems,2015,29(1):115-153.

[18] 張野.可擴展商業報告語言(XBRL)在資本市場的創新應用[M].北京:國家行政學院出版社,2013.

[19] 孫凡,楊周南. XBRL 技術體系結構的語言學分析與改進研究[J].會計研究,2013(7):13-19.

[20] 侯敏,楊爾弘.中國語言監測研究十年[J].語言文字應用,2015(3):12-21.endprint

主站蜘蛛池模板: 丁香婷婷综合激情| 亚洲av成人无码网站在线观看| 亚洲成人福利网站| 亚洲精品第五页| a天堂视频在线| 青青草原国产一区二区| 精品無碼一區在線觀看 | 天天综合网色中文字幕| 国产精品亚洲精品爽爽| 亚洲香蕉伊综合在人在线| 亚洲国产中文在线二区三区免| 国产成人一级| 中国成人在线视频| 国产精品综合色区在线观看| 国产精品欧美在线观看| 亚洲综合激情另类专区| 啊嗯不日本网站| 久久综合色天堂av| 久久久久无码精品| 尤物精品国产福利网站| 国产人成在线观看| 色爽网免费视频| 热99re99首页精品亚洲五月天| 18禁高潮出水呻吟娇喘蜜芽| 亚洲成年人片| 国产自在线播放| 日韩无码视频网站| 国产精品久久久久无码网站| 沈阳少妇高潮在线| 91精品国产丝袜| 91日本在线观看亚洲精品| 国产经典免费播放视频| 久久精品国产免费观看频道| 国产精品专区第1页| 老司机精品99在线播放| 国产高清在线精品一区二区三区 | 欧美成人精品高清在线下载| 国产麻豆另类AV| 国产精品美女自慰喷水| 亚洲欧美成人网| 色妞永久免费视频| 亚洲一级毛片在线播放| 精品无码日韩国产不卡av| 国产亚洲高清在线精品99| 99精品国产自在现线观看| 97视频在线精品国自产拍| 亚洲国产成人超福利久久精品| 欧美笫一页| av一区二区人妻无码| 亚洲一区二区三区中文字幕5566| 99ri国产在线| 毛片免费视频| 国产毛片高清一级国语 | 中国国产高清免费AV片| 无码精品国产dvd在线观看9久| 国产日韩欧美视频| 婷婷六月综合网| 国产91av在线| 欧美A级V片在线观看| 欧美中文字幕在线视频| 精品国产网站| 精品无码人妻一区二区| 日韩美毛片| 国产制服丝袜91在线| 亚洲国产成人无码AV在线影院L| 精品无码一区二区在线观看| 久久激情影院| 亚洲AⅤ永久无码精品毛片| 欲色天天综合网| 亚洲精品福利网站| 亚洲国产高清精品线久久| 欧美.成人.综合在线| 97精品久久久大香线焦| 午夜欧美理论2019理论| 亚洲男人天堂2018| 久久www视频| 日本成人精品视频| 日韩午夜片| 91破解版在线亚洲| 日本不卡免费高清视频| 综1合AV在线播放| 999精品免费视频|