999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關(guān)聯(lián)規(guī)則的電子發(fā)票摘要與會(huì)計(jì)科目名稱相關(guān)性分析

2021-08-03 06:48:06李燕萍劉凡謝軍
電腦知識(shí)與技術(shù) 2021年17期

李燕萍 劉凡 謝軍

摘要:目的:研究電子發(fā)票摘要與會(huì)計(jì)科目名稱之間的相關(guān)性,考察由電子發(fā)票自動(dòng)生成會(huì)計(jì)分錄的方法。方法:對(duì)收集到的電子發(fā)票中的摘要信息和會(huì)計(jì)科目名稱,運(yùn)用Apriori關(guān)聯(lián)規(guī)則算法找出兩者之間的對(duì)應(yīng)關(guān)系。結(jié)果:通過應(yīng)用Apriori關(guān)聯(lián)規(guī)則算法,在一定程度上找到了發(fā)票摘要與科目名稱之間的相關(guān)性,為下一步自動(dòng)生成會(huì)計(jì)分錄提供了可參考的信息。

關(guān)鍵詞:電子發(fā)票;會(huì)計(jì)分錄;關(guān)聯(lián)規(guī)則

中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)17-0244-02

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

會(huì)計(jì)分錄將記賬憑證和包括發(fā)票的原始憑證得以有效的對(duì)應(yīng)和核對(duì),實(shí)際起到了連接會(huì)計(jì)業(yè)務(wù)的紐帶作用。記賬憑證和會(huì)計(jì)賬簿是對(duì)經(jīng)濟(jì)業(yè)務(wù)往來主要內(nèi)容的簡(jiǎn)要記錄。會(huì)計(jì)科目的設(shè)置把各項(xiàng)會(huì)計(jì)要素的增減變化分門別類地歸集起來,為企業(yè)內(nèi)部經(jīng)營(yíng)管理和向有關(guān)方面提供一系列具體分類核算指標(biāo)。會(huì)計(jì)科目的名稱一般不超過八個(gè)漢字,屬于短文本。按其所提供信息的詳細(xì)程度及其統(tǒng)馭關(guān)系不同,分為總分類科目和明細(xì)分類科目。發(fā)票摘要要求簡(jiǎn)明扼要,既要把情況講明白,但又不能煩瑣,文字?jǐn)⑹龊?jiǎn)短,屬于短文本。

1 關(guān)聯(lián)規(guī)則算法

關(guān)聯(lián)規(guī)則是反映一個(gè)事件和其他事件之間的依賴或關(guān)聯(lián)的知識(shí)。文本關(guān)聯(lián)規(guī)則挖掘是從大量文本中發(fā)現(xiàn)項(xiàng)集之間有意義的關(guān)聯(lián)或相關(guān)聯(lián)系。已不少研究在文本較短的情況下,利用關(guān)聯(lián)規(guī)則算法去找尋兩者甚至多者之間的關(guān)系,陳海霞等(2018)利用關(guān)鍵詞關(guān)聯(lián)融合CNN的短文本分類[1],荊琪等(2018)基于維基百科的短文本計(jì)算相關(guān)度[2],但尚未有學(xué)者解析發(fā)票摘要與會(huì)計(jì)科目名稱之間的關(guān)系。本文利用關(guān)聯(lián)規(guī)則中較為常用的關(guān)聯(lián)規(guī)則算法—Apriori算法計(jì)算分析發(fā)票摘要與會(huì)計(jì)科目名稱之間的相關(guān)性,為自動(dòng)生成會(huì)計(jì)分錄提供可參考的信息。

近幾年大數(shù)據(jù)的理念和應(yīng)用逐步深入,大數(shù)據(jù)應(yīng)用滲透在各行各業(yè)中,并以此為基礎(chǔ)達(dá)到快速處理事務(wù)的目的。其中,利用數(shù)據(jù)挖掘技術(shù)研究財(cái)務(wù)報(bào)銷已為財(cái)務(wù)智能的一項(xiàng)主要內(nèi)容,且數(shù)據(jù)挖掘技術(shù)的一大優(yōu)勢(shì)就是從海量數(shù)據(jù)中發(fā)掘大量隱匿于其中的信息,本文采用的Apriori關(guān)聯(lián)規(guī)則算法在找到發(fā)票摘要與會(huì)計(jì)科目名稱之間的關(guān)聯(lián)規(guī)則之后應(yīng)用于大量處理發(fā)票內(nèi)容的數(shù)據(jù),自動(dòng)制成會(huì)計(jì)分錄。

Apriori算法是一種較為常用的通過頻繁項(xiàng)集挖掘關(guān)聯(lián)規(guī)則的算法,它能夠發(fā)現(xiàn)事物數(shù)據(jù)庫(kù)中頻繁出現(xiàn)的數(shù)據(jù)集,構(gòu)造數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,這些聯(lián)系構(gòu)成的規(guī)則可幫助找出某些行為特征,以便迅速地進(jìn)行事務(wù)處理。關(guān)聯(lián)規(guī)則為在某一數(shù)據(jù)或與其相似數(shù)據(jù)出現(xiàn)時(shí),可推導(dǎo)另一對(duì)應(yīng)數(shù)據(jù)信息出現(xiàn)的可能。

Apriori算法中計(jì)算的指標(biāo)包括:

頻繁項(xiàng)集:是指那些經(jīng)常會(huì)同時(shí)出現(xiàn)的事物,例如辦公桌對(duì)應(yīng)會(huì)計(jì)科目的管理費(fèi)用。

支持度:一個(gè)項(xiàng)集的支持度被定義為數(shù)據(jù)集中包含該項(xiàng)集的記錄所占的比例。支持度是針對(duì)項(xiàng)集來說,在實(shí)際應(yīng)用中可設(shè)置一個(gè)最小支持度,只保留最小支持度的項(xiàng)集。

support = [同時(shí)發(fā)生的事件(X,Y)總事件]

置信度:反映A和B兩個(gè)事物彼此之間同時(shí)出現(xiàn)的概率。例如經(jīng)典案例{啤酒}→{尿布}這樣的關(guān)聯(lián)規(guī)則。

confidence(X→Y) = [同時(shí)發(fā)生的事件(X,Y)X發(fā)生的事件],

confidence(Y→X) = [同時(shí)發(fā)生的事件(X,Y)Y發(fā)生的事件]

提升度:提升度表示含有X的條件下,同時(shí)含有Y的概率,與只看Y發(fā)生的概率之比。提升度反映了關(guān)聯(lián)規(guī)則中的X與Y的相關(guān)性,提升度大于1且越高表明正相關(guān)性越高,提升度小于1且越低表明負(fù)相關(guān)性越高,提升度等于1表明沒有相關(guān)性,即相互獨(dú)立。

Lift(X→Y) = P(Y | X) / P(Y)

本文運(yùn)用以上計(jì)算方法尋找發(fā)票摘要與會(huì)計(jì)科目名稱之間的關(guān)聯(lián)規(guī)則,為進(jìn)一步自動(dòng)生成會(huì)計(jì)分錄做準(zhǔn)備。

2 發(fā)票摘要的數(shù)據(jù)準(zhǔn)備

從搜集到的電子發(fā)票中隨機(jī)抽取200份作為教師數(shù)據(jù),按照會(huì)計(jì)學(xué)相關(guān)原理,根據(jù)發(fā)票摘要的信息內(nèi)容制作了相應(yīng)的會(huì)計(jì)分錄,保存在excel里。原始發(fā)票摘要多以日常辦公用品及辦公開銷為主,所對(duì)應(yīng)的分錄多為管理費(fèi)用、銷售費(fèi)用等。原始數(shù)據(jù)的具體準(zhǔn)備過程如下所述。

電子發(fā)票通常為pdf格式,本文使用python開源工具包PDFMiner中的兩個(gè)內(nèi)置工具pdf2txt.py和dumppdf.py獲取發(fā)票摘要中的文字內(nèi)容。首先使用pdf2txt.py從PDF文件中提取所有文本內(nèi)容,將提取的文字按所在位置劃分區(qū)段,再用dumppdf.py把PDF文件內(nèi)容轉(zhuǎn)變成pseudo-XML格式,標(biāo)識(shí)出各區(qū)段文字的意義。最后利用PDFMiner其他工具識(shí)別電子發(fā)票提取電子發(fā)票摘要里的內(nèi)容,將其導(dǎo)出到文本文件中。

在前期的準(zhǔn)備過程中,綜合考慮到一些發(fā)票摘要填寫不規(guī)范,以及填寫的內(nèi)容所涉及的范圍較廣,產(chǎn)品術(shù)語(yǔ)和名詞術(shù)語(yǔ)較多等方面問題,對(duì)發(fā)票摘要中的信息用jieba分詞中的全模式進(jìn)行分詞處理,使摘要中的文字信息保持一致,進(jìn)行數(shù)據(jù)挖掘及統(tǒng)計(jì)分析。

根據(jù)發(fā)票摘要中的這些信息,按照會(huì)計(jì)學(xué)相關(guān)原理人工選取對(duì)應(yīng)的會(huì)計(jì)科目名稱,填寫會(huì)計(jì)分錄,并制成表格,表1列舉了部分發(fā)票摘要對(duì)應(yīng)的會(huì)計(jì)科目名稱。利用python的pandas工具包讀取所填的會(huì)計(jì)分錄的表格,導(dǎo)出其中的摘要文本后,再用jieba分詞將發(fā)票摘要短文本中所有可能成詞的詞語(yǔ)都掃描出來,這樣做便于發(fā)現(xiàn)發(fā)票摘要與會(huì)計(jì)科目名稱的關(guān)聯(lián)性。

3 基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘

關(guān)聯(lián)規(guī)則最早出現(xiàn)在購(gòu)物籃問題的研究中,如經(jīng)典的“啤酒與尿布”案例,常用的關(guān)聯(lián)規(guī)則挖掘算法包括Eclat、FP-growth、Apriori等,本文采用Apriori算法對(duì)已經(jīng)填寫過會(huì)計(jì)科目名稱的樣本數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,旨在找出發(fā)票摘要與會(huì)計(jì)科目名稱的關(guān)聯(lián)關(guān)系。

3.1 算法的步驟

以apriori算法為基礎(chǔ)尋找關(guān)聯(lián)規(guī)則的方法主要由以下幾個(gè)步驟組成:

步驟一:使用pdfminer提取發(fā)票摘要內(nèi)容,人工選取對(duì)應(yīng)的會(huì)計(jì)科目名稱,制作會(huì)計(jì)分錄表格;

步驟二:使用pandas讀取表格,使用jieba分詞將發(fā)票摘要分詞;

步驟三:根據(jù)發(fā)票數(shù)量及摘要的詞頻,設(shè)置最小支持度和最小置信度;

步驟四:讀取分詞處理后的發(fā)票摘要分詞表;

步驟五:根據(jù)最小置信度尋找符合條件的關(guān)聯(lián)規(guī)則;

步驟六:輸出關(guān)聯(lián)規(guī)則;

步驟七:將所有發(fā)票摘要的數(shù)據(jù)進(jìn)行處理,檢驗(yàn)規(guī)則;

步驟八:輸出結(jié)果。

3.2 運(yùn)行結(jié)果

設(shè)置最小支持度為1%,最小置信度為15%,運(yùn)用Apriori算法在200份已經(jīng)處理好的實(shí)驗(yàn)發(fā)票數(shù)據(jù)中計(jì)算得到57條符合條件的關(guān)聯(lián)規(guī)則。最小支持度是根據(jù)實(shí)際情況定義衡量支持度的一個(gè)閾值,表示需要完成的項(xiàng)目集中統(tǒng)計(jì)意義上的最低程度。在本文的實(shí)驗(yàn)數(shù)據(jù)中,設(shè)置最小支持度為1%時(shí),可最快速簡(jiǎn)便地得到最想要的關(guān)聯(lián)規(guī)則;將最小支持度設(shè)置為其他數(shù)值時(shí),計(jì)算結(jié)果包含大量無效數(shù)據(jù)。表2是計(jì)算得出的部分關(guān)聯(lián)規(guī)則及其包含的支持度、置信度與提升度。

利用Apriori關(guān)聯(lián)規(guī)則算法對(duì)收集的電子發(fā)票進(jìn)行分析,得出發(fā)票摘要和會(huì)計(jì)科目名稱之間的關(guān)聯(lián)規(guī)則,即表2中的規(guī)則項(xiàng)集欄,用A→B表示,A是發(fā)票摘要的單詞,B是會(huì)計(jì)科目名稱。

本文使用的原始發(fā)票數(shù)據(jù)在現(xiàn)實(shí)業(yè)務(wù)中常見,上述結(jié)果經(jīng)財(cái)務(wù)專業(yè)人員檢查,符合財(cái)務(wù)制作記賬憑證填寫會(huì)計(jì)分錄的部分要求,說明關(guān)聯(lián)規(guī)則方法可以提取挖掘發(fā)票摘要和會(huì)計(jì)科目名稱之間的關(guān)聯(lián)規(guī)則,并為進(jìn)一步自動(dòng)生成會(huì)計(jì)分錄提供參考信息。

3.3 驗(yàn)證

在機(jī)器學(xué)習(xí)、自然語(yǔ)言處理及信息檢索等領(lǐng)域,評(píng)測(cè)(Evaluation)是一項(xiàng)必要工作,常采用的評(píng)測(cè)指標(biāo)有精確率(Precision)和召回率(Recall)。其中精確率=TP/(TP+FP),表示所有“正確被檢索的item(TP)”占所有“實(shí)際被檢索到的(TP+FP)”的比例;

召回率=TP/(TP+FN),表示“正確被檢索的item(TP)”占所有“應(yīng)該檢索到的item(TP+FN)”的比例。

本文利用上述關(guān)聯(lián)規(guī)則針對(duì)另外200份發(fā)票判斷對(duì)應(yīng)的會(huì)計(jì)科目名稱,得到精確率為0.17,召回率為0.185。表明計(jì)算的準(zhǔn)確程度不高,主要是因?yàn)榘l(fā)票摘要的內(nèi)容繁雜以及經(jīng)濟(jì)業(yè)務(wù)往來內(nèi)容的不確定。

4 結(jié)論與展望

本文以從眾多發(fā)票中隨機(jī)抽取的兩百?gòu)埌l(fā)票內(nèi)容為數(shù)據(jù)樣本進(jìn)行了摘要與科目名稱之間關(guān)聯(lián)規(guī)則的挖掘,實(shí)際驗(yàn)證了關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確程度。根據(jù)apriori算法挖掘出的關(guān)聯(lián)規(guī)則,可以為將發(fā)票摘要輸入時(shí)直接生成會(huì)計(jì)分錄提供參考,便于財(cái)會(huì)人員更快速地進(jìn)行財(cái)務(wù)處理,可節(jié)約財(cái)會(huì)人員的時(shí)間和精力。

在本課題的調(diào)查中作者了解到,目前市場(chǎng)上的財(cái)務(wù)報(bào)銷應(yīng)用還無法將發(fā)票中的摘要自動(dòng)生成會(huì)計(jì)分錄。在后繼研究中,將采用人工填寫制作的大量會(huì)計(jì)分錄數(shù)據(jù)挖掘出關(guān)聯(lián)規(guī)則,利用規(guī)則對(duì)發(fā)票內(nèi)容進(jìn)行有規(guī)律的處理,快速精準(zhǔn)地將報(bào)銷中發(fā)票的摘要自動(dòng)生成會(huì)計(jì)分錄,為財(cái)務(wù)核算提供實(shí)際且有效的幫助。

根據(jù)財(cái)會(huì)人員填制正確會(huì)計(jì)分錄的實(shí)際情況來看,發(fā)票摘要涉及的業(yè)務(wù)實(shí)為廣泛,難以精準(zhǔn)確定應(yīng)該歸屬于哪一類,為此在后繼研究中,將自動(dòng)推測(cè)摘要中的中心詞,并進(jìn)行擴(kuò)展,探討大幅提高短文本分類精度的方法。另外,將業(yè)務(wù)范圍進(jìn)行劃分,優(yōu)化數(shù)據(jù),在此基礎(chǔ)上再提高精確度。

參考文獻(xiàn):

[1] 陳海霞,楊喜旺,衛(wèi)潔潔.關(guān)鍵詞關(guān)聯(lián)融合CNN的短文本分類算法[J].電腦知識(shí)與技術(shù),2018,14(22):261-264.

[2] 荊琪,段利國(guó),李愛萍,等.基于維基百科的短文本相關(guān)度計(jì)算[J].計(jì)算機(jī)工程,2018,44(2):197-202.

【通聯(lián)編輯:李雅琪】

主站蜘蛛池模板: 国产亚洲欧美在线中文bt天堂 | 伊在人亚洲香蕉精品播放| 国产在线视频欧美亚综合| 婷婷在线网站| 免费一级无码在线网站| 色综合五月婷婷| 日韩黄色大片免费看| 美女免费黄网站| 97成人在线视频| 真实国产精品vr专区| 亚洲av日韩av制服丝袜| 国产不卡一级毛片视频| 2022精品国偷自产免费观看| 午夜福利在线观看入口| 毛片视频网址| 91亚洲精品国产自在现线| 国产乱子伦精品视频| 亚洲天堂免费| 久久91精品牛牛| 亚洲国产精品久久久久秋霞影院| 激情综合五月网| 国产极品美女在线观看| 99re在线观看视频| 三上悠亚一区二区| 这里只有精品国产| 免费女人18毛片a级毛片视频| 制服无码网站| 日韩高清无码免费| 亚洲视频免| 韩国v欧美v亚洲v日本v| 国产夜色视频| 91久久偷偷做嫩草影院| 亚洲最猛黑人xxxx黑人猛交| 国内精品久久人妻无码大片高| 国产真实乱子伦精品视手机观看| 热久久综合这里只有精品电影| 国产激情无码一区二区APP| 丰满少妇αⅴ无码区| 色综合婷婷| 色综合手机在线| 无码高潮喷水专区久久| 在线观看91香蕉国产免费| 亚洲视频黄| 四虎国产在线观看| 国产成人一二三| 国产91在线免费视频| 久久国产精品电影| 五月激情婷婷综合| 玖玖精品视频在线观看| 久久无码av三级| a级免费视频| 久热这里只有精品6| 无码区日韩专区免费系列| 国产在线自在拍91精品黑人| 风韵丰满熟妇啪啪区老熟熟女| 亚洲综合久久一本伊一区| 超碰91免费人妻| 二级毛片免费观看全程| 午夜福利在线观看成人| 亚洲精品无码不卡在线播放| 免费又爽又刺激高潮网址| 亚洲婷婷丁香| 91福利片| 一级一级一片免费| 4虎影视国产在线观看精品| AV不卡无码免费一区二区三区| 青青草一区| 亚洲黄网在线| 亚洲精品国产首次亮相| 色爽网免费视频| 国产噜噜噜| 亚洲最猛黑人xxxx黑人猛交| 国产精品自在线拍国产电影| 国产激爽爽爽大片在线观看| 成人精品区| 99无码熟妇丰满人妻啪啪 | 亚洲综合久久成人AV| 91精品专区国产盗摄| 亚洲性影院| 久久无码高潮喷水| 波多野结衣一二三| 午夜精品国产自在|