999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖譜報(bào)告PDF文件解析原理、示例與應(yīng)用展望

2021-03-04 11:50:52劉羽,王輝,王賀
電腦知識(shí)與技術(shù) 2021年34期
關(guān)鍵詞:數(shù)據(jù)挖掘

劉羽,王輝,王賀

摘要:目的:研究基于PDF文件解析的圖譜數(shù)據(jù)提取方法,解決“數(shù)據(jù)孤島”問題,實(shí)現(xiàn)數(shù)據(jù)的有效整合。方法:通過對(duì)PDF格式的圖譜報(bào)告頁面結(jié)構(gòu)進(jìn)行拆解、分析、歸納,逐步以示例展示PDF格式圖譜文件的數(shù)據(jù)提取方法。一方面說明現(xiàn)有的PDF文本提取技術(shù)的原理,另一方面進(jìn)一步研究對(duì)圖譜曲線采用坐標(biāo)變換進(jìn)行還原以獲得逼近原始數(shù)據(jù)真實(shí)值的數(shù)據(jù)的方法,并就處理后的圖譜數(shù)據(jù)的應(yīng)用方向進(jìn)行了展望。結(jié)論:本文的研究結(jié)果表明,以PDF格式文件為媒介,可以將各類圖譜報(bào)告的轉(zhuǎn)化為自定義的數(shù)據(jù),實(shí)現(xiàn)有效整合實(shí)驗(yàn)室資源,并為圖譜報(bào)告的數(shù)據(jù)挖掘及AI應(yīng)用創(chuàng)造條件。

關(guān)鍵詞:PDF;圖譜;Python;數(shù)據(jù)挖掘

中圖分類號(hào):R95? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)34-0134-07

1 引言

儀器分析是現(xiàn)代科學(xué)研究的重要手段,在研究中,通常會(huì)采用不同的方法(如液相色譜、氣相色譜、質(zhì)譜、核磁共振、熱分析等)對(duì)同一目標(biāo)從多角度進(jìn)行研究,其產(chǎn)生的圖譜直接或間接地反映出了被研究對(duì)象特定的物理化學(xué)性質(zhì)[1-3]。這種研究策略在藥學(xué)類的檢驗(yàn)及研究領(lǐng)域極為常見。

現(xiàn)代分析儀器通常采用儀器+PC+工作軟件/工作站的形式組成功能完整的系統(tǒng):處理后的樣品通過儀器上不同原理的傳感器檢測(cè),獲得模擬的電信號(hào),經(jīng)過模擬電信號(hào)/數(shù)字信號(hào)之間的轉(zhuǎn)換,成為PC設(shè)備可以處理的二進(jìn)制數(shù)據(jù),再通過PC所搭載的工作軟件/工作站中所包含相關(guān)函數(shù)的處理,得到可進(jìn)行各類計(jì)算的圖譜數(shù)據(jù),并生成各類專屬格式的數(shù)據(jù)文件,報(bào)告管理程序通過調(diào)用報(bào)告模板和圖譜數(shù)據(jù)生成圖譜報(bào)告。

商業(yè)化的工作軟件或工作站通常因?yàn)楣ぷ髂繕?biāo)、開發(fā)時(shí)間、編寫語言的不同,形成了相對(duì)封閉的系統(tǒng),其專有文件的數(shù)據(jù)結(jié)構(gòu)無法被其他軟件識(shí)別。

隨著儀器分析及網(wǎng)絡(luò)信息技術(shù)的發(fā)展,為了提高工作效率,面向數(shù)據(jù)整合與管理為目的的科學(xué)數(shù)據(jù)管理系統(tǒng)(SDMS:Scientific Data Management System)及由此拓展而開發(fā)的實(shí)驗(yàn)室信息管理系統(tǒng)(LIMS: Laboratory Information Management System)正逐漸普及[4-6],此類系統(tǒng)通常是由第三方開發(fā)的,與分析儀器的原生工作軟件或工作站存在兼容性的問題,也無法直接使用專有格式的數(shù)據(jù)文件。

而各儀器廠商所推出的配套網(wǎng)絡(luò)版數(shù)據(jù)管理系統(tǒng)僅對(duì)自有品牌的儀器進(jìn)行支持,與其他品牌的儀器之間也存在兼容性問題。

大量的相關(guān)數(shù)據(jù)以不同的文件格式分布于各類的系統(tǒng)之中,形成了相互隔絕而又內(nèi)容豐富的數(shù)據(jù)孤島[7]。上述問題對(duì)數(shù)據(jù)的獲取、集成與處理提出了挑戰(zhàn)。

為了解決數(shù)據(jù)交換兼容性的問題,存在兩種方案,一種是以許可授權(quán)的形式獲得其他儀器企業(yè)的技術(shù)支持,從而獲得接近原生儀器操作的用戶體驗(yàn)。另一種是通過協(xié)調(diào)與推動(dòng)通用文件的形式解決圖譜數(shù)據(jù)交換的兼容性問題,例如從NetCDF發(fā)展而來的.cdf文件格式[8]。

但出于商業(yè)利益、技術(shù)壁壘、整合難度等因素,上述兩個(gè)方案并沒有得到廣泛的支持。

2 PDF文件解析

2.1 PDF在實(shí)驗(yàn)室的應(yīng)用

PDF文件作為獨(dú)立于硬件、操作系統(tǒng)、應(yīng)用程序的用于文件交換的電子文檔,在實(shí)驗(yàn)室信息化的過程中得到了廣泛的應(yīng)用。報(bào)告管理程序通過PDF的虛擬打印功可以將各類圖譜報(bào)告文件保存為統(tǒng)一的PDF格式。PDF以其便利性、高精度成為事實(shí)上的實(shí)驗(yàn)室報(bào)告?zhèn)鬟f通用文檔。

在上述背景下,基于PDF文件解析的數(shù)據(jù)獲取方案應(yīng)運(yùn)而生,對(duì)現(xiàn)有的第三方SDMS/LIMS進(jìn)行功能改進(jìn)和開發(fā),通過對(duì)PDF這種通用的數(shù)據(jù)格式的圖譜報(bào)告文件匯總、整理與解析實(shí)現(xiàn)對(duì)實(shí)驗(yàn)室檢驗(yàn)數(shù)據(jù)的整合。與各類儀器廠商所提供的網(wǎng)絡(luò)版工作站方案相比,該方案的優(yōu)勢(shì)在于:

1)技術(shù)難度低。利用現(xiàn)有的各類開源庫和極少量的代碼就可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的抓取和管理。

2)投入少。在硬件上,不需要進(jìn)行進(jìn)一步的投入,例如增加專用的數(shù)據(jù)交換模塊或是升級(jí)硬件以適配網(wǎng)絡(luò)工作站的版本;在軟件上,不需要購買網(wǎng)絡(luò)工作站的授權(quán);在管理上,可以采用一種方案適用于大多數(shù)應(yīng)用場(chǎng)景,降低了開發(fā)和維護(hù)難度。

3)兼容性高。對(duì)于大多數(shù)不同類型,不同廠家,不同操作系統(tǒng)版本的儀器,能輸出標(biāo)準(zhǔn)PDF格式的報(bào)告,具備局域網(wǎng)連接條件,就具備實(shí)施方案的可能性。

該方案的缺陷在于,目前只能對(duì)圖譜報(bào)告中的結(jié)論性的部分文本信息進(jìn)行抓取,不能夠?qū)崿F(xiàn)對(duì)圖譜報(bào)告數(shù)據(jù)內(nèi)容的充分利用。

2.2 PDF解析的基本原理

PDF格式其核心是由頁面描述語言PostScript為基礎(chǔ)發(fā)展而來的一種先進(jìn)成像模塊(Advanced Imaging Model ),可以以相對(duì)設(shè)備獨(dú)立的方式描述影像,而不依賴特定設(shè)備特性為參照,避免了輸出圖像時(shí)對(duì)設(shè)備的依賴。可以實(shí)現(xiàn)高精度、高清晰度的圖像輸出。

作為一種特殊的文件格式,PDF文檔并沒有傳統(tǒng)意義上的順序數(shù)據(jù)結(jié)構(gòu)。一個(gè)PDF文檔是通過稱為“對(duì)象”的模塊組合而成。PDF的顯著優(yōu)勢(shì)在于繼承了PostScript語言的特點(diǎn),通過頁面描述指令在頁面各個(gè)準(zhǔn)確位置引用文件中的文本、圖片、圖形等對(duì)象實(shí)現(xiàn)內(nèi)容展示。從這個(gè)意義上而言,PDF頁面更類似于一種特殊的圖片。

PDF其中各類對(duì)象的位置(position)、尺寸(size)、方向(orientation)的描述是通過建立頁面坐標(biāo)系實(shí)現(xiàn)[9]。

通過對(duì)PDF頁面中各類對(duì)象的坐標(biāo)系進(jìn)行重建,可以獲得相應(yīng)的位置信息,通過對(duì)指定位置的對(duì)象屬性信息進(jìn)行解讀就可以實(shí)現(xiàn)對(duì)圖譜特定數(shù)據(jù)的獲取。

2.3 圖譜報(bào)告的形式和數(shù)據(jù)

常見的圖譜報(bào)告可以歸納為三種基本形式:文本型、圖型、圖文混合型。如下圖所示:

上述報(bào)告中的數(shù)據(jù)可以歸納為兩類,一類為文本,一類為圖形。因此通過解析圖譜報(bào)告PDF文件其中的文本對(duì)象或圖形對(duì)象就可以達(dá)到獲得數(shù)據(jù)的目的。

2.4 圖譜報(bào)告PDF文件的文本解析

PDF通過兩種方式實(shí)現(xiàn)文本(Text)的應(yīng)用展示:方式1,將字型(Glyph)以包括文本狀態(tài)(Text state),文本對(duì)象和運(yùn)算符(Text objects and operators),字體數(shù)據(jù)結(jié)構(gòu)(Font data structures)組合的方式嵌入系統(tǒng),作為文本對(duì)象與文件一同傳輸。這種文本應(yīng)用的方式是以字符(Character)組合的形式保存字符串(String),以參數(shù)(parameters)的形式保存字體(Fonts),以字型(Glyph)方式進(jìn)行頁面描繪。

方式2, 對(duì)于特殊字型是采用矢量繪圖的方式進(jìn)行描繪。所展示出的字型不是以字符串和字體參數(shù)的形式保存,而是以繪圖圖形的形式保存。

通過上述兩種方式可以最大程度還原版面的文字效果,實(shí)現(xiàn)打印頁面的精確輸出。而以方式1輸出的PDF文件可以通過對(duì)文本對(duì)象進(jìn)行對(duì)象屬性分析獲得對(duì)應(yīng)的字符/字符串,經(jīng)整理后而獲得所需要的數(shù)據(jù)。

隨著信息技術(shù)的發(fā)展,現(xiàn)有多種開源的軟件可供選擇,現(xiàn)以Pdfplumber為演示工具,以文本型報(bào)告實(shí)例為數(shù)據(jù)源,對(duì)文本數(shù)據(jù)抓取操作進(jìn)行演示。

Pdfplumber是基于Pdfminer二次開發(fā)由Python語言編寫的PDF文檔解析庫,尤其對(duì) PDF文件中的表格內(nèi)容進(jìn)行了針對(duì)性的優(yōu)化,使用方便。通過極少的代碼就可以實(shí)現(xiàn)數(shù)據(jù)的讀取。

以下是相關(guān)代碼和解析效果示意圖。

通過上述代碼是通過默認(rèn)的功能對(duì)PDF頁面中的表格進(jìn)行整體的識(shí)別和讀取,并不具備對(duì)特定數(shù)據(jù)處理的功能。

通過變更解析模式,采用定位識(shí)別和讀取導(dǎo)出的方式,就可以獲得指定數(shù)據(jù)。示例采用導(dǎo)出到微軟Office辦公軟件EXCEl中的方式進(jìn)行演示:

以下為相關(guān)代碼:

以下為代碼運(yùn)行結(jié)果:

在上述示例中,采用的是python語言編寫的xlwings庫作為數(shù)據(jù)導(dǎo)出工具,這是一種支持操作Excel文件的Python第三方庫。同樣的,通過引入支持?jǐn)?shù)據(jù)庫的應(yīng)用工具也可以實(shí)現(xiàn)圖譜指定數(shù)據(jù)抓取到數(shù)據(jù)庫的功能。通過上述方法或類似方法就可以實(shí)現(xiàn)對(duì)圖譜報(bào)告PDF文件的指定文本數(shù)據(jù)的抓取。

2.5 圖譜報(bào)告PDF文件的圖形解析

2.5.1 典型圖譜的分解

圖譜報(bào)告的PDF文件是通過一系列圖形對(duì)象與文本對(duì)象的搭配實(shí)現(xiàn)圖譜的輸出。如下圖所示:

通過將圖譜進(jìn)行歸納分析可知,典型圖譜可以被歸納為兩大類對(duì)象,文本對(duì)象及圖形對(duì)象。

文本對(duì)象通常是對(duì)圖譜的指示和說明,如樣品信息,刻度單位,刻度值,這種文本說明可以便于圖譜的使用者更有效的利用圖譜。

圖譜的圖形是通過圖形對(duì)象組合而來,其中的圖形對(duì)象可以歸納為長方形、直線、曲線3類細(xì)分圖形對(duì)象。例如作為整個(gè)圖譜框架的長方形對(duì)象,描繪圖譜的曲線對(duì)象,作為坐標(biāo)軸和坐標(biāo)刻度以及在某些情況下作為積分線的直線對(duì)象。

2.5.2 PDF文件中的路徑對(duì)象與矢量圖

PDF的顯著優(yōu)勢(shì)在于繼承了PostScript語言的特點(diǎn),通過頁面描述指令對(duì)指定區(qū)域進(jìn)行著色繪制頁面,可以通過路徑描述的方式描繪出可以任意放大和縮小的矢量圖。

常見的照片為位圖,亦稱為點(diǎn)陣圖像或柵格圖像,是由稱作像素(圖片元素)的單個(gè)點(diǎn)組成的。

而矢量圖是通過數(shù)學(xué)公式計(jì)算獲得,具有編輯后不失真的特點(diǎn)。微軟Office辦公軟件EXCEl中通過表格數(shù)據(jù)所繪制的散點(diǎn)圖就是通過矢量繪圖的方式實(shí)現(xiàn)。

PDF文件中的矢量圖通常是采用路徑對(duì)象(Path Object)的形式實(shí)現(xiàn),該類對(duì)象中又包含直線(Line),曲線(Curve)(含三次貝塞爾曲線(Cubic Bézier Curve)),長方形(Rectangle)等細(xì)分對(duì)象。這些路徑對(duì)象包含一些繪圖運(yùn)算符(Painting operators)作為對(duì)象屬性實(shí)現(xiàn)圖像細(xì)節(jié)的描繪,如邊框繪制(Stroke)或填充(Fill),其中還包括線形、寬度、顏色等細(xì)節(jié)參數(shù)。

矢量圖是通過一系列的點(diǎn)通過線連接繪制而成。不同的點(diǎn)通過順序組合描繪圖形,點(diǎn)與點(diǎn)之間的先后順序決定了圖形的形狀。各點(diǎn)之間連接的先后順序發(fā)生改變,則相同坐標(biāo)的點(diǎn)所組成的圖形也會(huì)存在差異。

點(diǎn)是最基本的繪圖元素。點(diǎn)的位置通過頁面坐標(biāo)的形式進(jìn)行確定。對(duì)這些組成這些圖形對(duì)象的路徑點(diǎn)的解析就可以將所繪制的圖形進(jìn)行還原。

矢量圖示例如圖10所示。

通過采用Python語言編寫的文檔解析庫Pdfminer作為演示工具,對(duì)上述矢量圖形進(jìn)行解析,通過對(duì)矢量圖形(或稱路徑對(duì)象)的pts屬性進(jìn)行分析,可以獲得生成矢量圖的各點(diǎn)坐標(biāo),解析結(jié)果見圖11。

其中的LTRect對(duì)應(yīng)的是長方形對(duì)象;LTLine對(duì)應(yīng)的是直線對(duì)象;LTCurve對(duì)應(yīng)的是曲線對(duì)象。

由上述示例可知,示例1,3,5的規(guī)則圖形和示例2,4的不規(guī)則圖形都可以通過路徑繪圖的方式進(jìn)行圖形的輸出,其路徑點(diǎn)的坐標(biāo)都可以被解析。

2.5.3 PDF頁面的坐標(biāo)系與對(duì)象框架

頁面的繪圖是基于PDF頁面的坐標(biāo)系進(jìn)行頁面定位。坐標(biāo)決定了文本對(duì)象,圖形對(duì)象,圖片對(duì)象的位置(position)、方向(orientation)、尺寸(size)。通常采用的是以頁面的左下角作為坐標(biāo)系的原點(diǎn)(0,0),以橫向的頁面寬度和縱向的頁面高度分別作為坐標(biāo)系的縱向和橫向坐標(biāo)范圍。

不同的對(duì)象根據(jù)頁面排布情況依據(jù)相對(duì)原點(diǎn)的距離被賦予不同的坐標(biāo)。可以采用x0,y0,x1,y1的數(shù)據(jù)賦值方式確定排布范圍。其中 x0代表對(duì)象的左下角橫坐標(biāo),y0代表對(duì)象的左下角縱坐標(biāo),其中 x1代表對(duì)象的右上角橫坐標(biāo),y1代表對(duì)象的右上角縱坐標(biāo)。

以(x0,y0)與(x1,y1)所定義出來的矩形范圍即為對(duì)象的框架范圍,框架作為對(duì)象的容器,決定對(duì)象的頁面位置和的大小。各類對(duì)象都在框架中進(jìn)行展示。

組成路徑對(duì)象的路徑點(diǎn)的坐標(biāo)也是以上述坐標(biāo)系為參照所設(shè)定獲得。通過獲得路徑對(duì)象的坐標(biāo)信息并加以整理就可以實(shí)現(xiàn)對(duì)圖譜曲線數(shù)據(jù)的提取。

2.5.4 圖譜的絕對(duì)坐標(biāo)與相對(duì)坐標(biāo)

對(duì)于圖譜曲線的解析需要引入絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的概念。

絕對(duì)坐標(biāo)指通過實(shí)驗(yàn)所獲得的定位數(shù)據(jù),這一定位方式所依據(jù)的是確定的實(shí)驗(yàn)數(shù)據(jù)之間一一匹配的關(guān)系,如X衍射法中的2θ角與衍射強(qiáng)度、液相氣相等分離色譜測(cè)定法的保留時(shí)間與峰高、差熱分析法中的溫差和溫度。

相對(duì)坐標(biāo)指依據(jù)PDF頁面的坐標(biāo)系而獲得的定位數(shù)據(jù),是以對(duì)象所處頁面位置通過算法折算獲得的數(shù)據(jù)。隨頁面布局及排版的變化,其坐標(biāo)也會(huì)發(fā)生相應(yīng)的改變。

圖譜曲線上,任意的繪圖點(diǎn)在具有絕對(duì)坐標(biāo)的同時(shí),也存在對(duì)應(yīng)的相對(duì)坐標(biāo)。根據(jù)絕對(duì)坐標(biāo)與相對(duì)坐標(biāo)之間的這種一一匹配的關(guān)系,依據(jù)坐標(biāo)變換的原理,尋找到坐標(biāo)變換的規(guī)律就可以將數(shù)據(jù)從相對(duì)坐標(biāo)轉(zhuǎn)化為絕對(duì)坐標(biāo)。

通過已知絕對(duì)坐標(biāo)及對(duì)應(yīng)相對(duì)坐標(biāo)的兩點(diǎn)就可以實(shí)現(xiàn)對(duì)其他任意已知絕對(duì)坐標(biāo)或已知相對(duì)坐標(biāo)的點(diǎn)與所對(duì)應(yīng)的相對(duì)坐標(biāo)或絕對(duì)坐標(biāo)的變換[10]。

Xj1-Xj2=kh*(Xx1-Xx2)

Yj1-Yj2=kz*(Yx1-Yx2)

其中,Xj1,Xj2分別為已知的兩點(diǎn)絕對(duì)坐標(biāo)的橫坐標(biāo),Xx1、Xx2分別為已知的兩點(diǎn)相對(duì)坐標(biāo)的橫坐標(biāo)。kh、kz分別為橫坐標(biāo)校正系數(shù)和縱坐標(biāo)校正系數(shù)。

其中,Yj1,Yj2分別為已知的兩點(diǎn)絕對(duì)坐標(biāo)的縱坐標(biāo),Yx1、Yx2分別為已知的兩點(diǎn)相對(duì)坐標(biāo)的縱坐標(biāo)。kh、kz分別為橫坐標(biāo)校正系數(shù)和縱坐標(biāo)校正系數(shù)。

當(dāng)任一點(diǎn)的相對(duì)坐標(biāo)已知為(Xx0,Yx0),則可以通過已知條件進(jìn)行推導(dǎo),獲得其絕對(duì)坐標(biāo)(Xj0,Yj0)。

Xj0= kh*(Xx0-Xx1)+Xj1

Yj0= kZ*(Yx0-Yx1)+Yj1

通過上述的處理就可以實(shí)現(xiàn)將PDF文件頁面上的圖譜曲線的逼真還原。

2.6 圖譜報(bào)告PDF文件的圖形解析步驟示例

以常見的圖文混合型圖譜作為解析素材,通過PDF閱讀軟件福昕高級(jí)PDF編輯器及Python語言編寫的Pdfminer庫對(duì)圖譜圖形進(jìn)行分析,步驟如下:

2.6.1 定位圖譜圖形位置

圖譜一般是通過工作站或工作軟件調(diào)用報(bào)告模板讀取報(bào)告數(shù)據(jù)生成。在報(bào)告模板中對(duì)于圖譜圖形的調(diào)用,通常會(huì)存在圖譜圖形模塊的框架。該框架在生成圖譜PDF文件的過程中會(huì)以長方形對(duì)象的形式寫入PDF頁面中。在頁面上通常表現(xiàn)為范圍最大的長方形對(duì)象。

通過尋找這一范圍框架,可以精確定位所需要提取分析的圖譜曲線。這一范圍框架的通常為整個(gè)頁面上最大的長方形。通過篩選頁面上符合這一條件的圖形對(duì)象就可以得到。通過對(duì)這一范圍的確定,可以提高分析效率。

2.6.2 圖譜曲線初步分析

在本示例中,可通過PDF編輯軟件對(duì)其進(jìn)行初步的分析:圖譜曲線是由三個(gè)曲線拼接組合而成,另有三條曲線以積分線的形式出現(xiàn)。

2.6.3 圖譜曲線的進(jìn)一步分析

對(duì)其中的一條曲線進(jìn)行進(jìn)一步分析,可得到下圖:

明顯可見曲線是通過順序連接點(diǎn)串接構(gòu)成。通過Pdfminer工具對(duì)該段曲線進(jìn)行分析,讀取該對(duì)象的.pts數(shù)據(jù),可知組成該段曲線的點(diǎn)共計(jì)512個(gè)。

2.6.4 圖譜曲線的特定點(diǎn)的分析示例

對(duì)曲線上的各點(diǎn)可進(jìn)行進(jìn)一步分析獲得各點(diǎn)的位置信息,以上述圖譜的峰位置為例:

通過篩選該段圖譜曲線上的最高點(diǎn),即縱坐標(biāo)最大的點(diǎn),就可以得知該點(diǎn)為512個(gè)繪圖點(diǎn)中的第104個(gè),坐標(biāo)為(211.2,541.92)。

2.6.5 圖譜曲線的特定點(diǎn)的絕對(duì)坐標(biāo)與相對(duì)坐標(biāo)

圖譜曲線上,任意的繪圖點(diǎn)在具有絕對(duì)坐標(biāo)的同時(shí),也存在對(duì)應(yīng)的相對(duì)坐標(biāo)。示例曲線所采用的是保留時(shí)間與峰高的匹配關(guān)系。以上述峰位置為例,其絕對(duì)坐標(biāo)(4.101(保留時(shí)間),1273.69031(峰高))所對(duì)應(yīng)的相對(duì)坐標(biāo)為(211.2,541.92)。

這一絕對(duì)坐標(biāo)在數(shù)據(jù)匯總表有相關(guān)的記錄,可以通過對(duì)數(shù)據(jù)匯總表文本對(duì)象的解析獲得。

通過獲得兩組或兩組以上的絕對(duì)坐標(biāo)/相對(duì)坐標(biāo)的配對(duì),就可以采用坐標(biāo)變換的方法,推算曲線上其他已知相對(duì)坐標(biāo)的點(diǎn)所對(duì)應(yīng)的絕對(duì)坐標(biāo),從而完成對(duì)圖譜曲線的解析。

2.6.6 坐標(biāo)變換準(zhǔn)確性評(píng)估

在所選擇的演示圖譜中有三個(gè)有記錄的峰,按照坐標(biāo)變換原理,可以通過已知絕對(duì)坐標(biāo)及對(duì)應(yīng)相對(duì)坐標(biāo)的兩點(diǎn)就可以實(shí)現(xiàn)對(duì)其他任意已知絕對(duì)坐標(biāo)或已知相對(duì)坐標(biāo)的點(diǎn)與所對(duì)應(yīng)的相對(duì)坐標(biāo)或絕對(duì)坐標(biāo)的推算。

通過三點(diǎn)之間的相互推算,我們就可以得到實(shí)際坐標(biāo)的理論值,通過理論值與實(shí)際值的差異來評(píng)估這個(gè)坐標(biāo)變換的準(zhǔn)確性。

通過對(duì)圖譜的分析,可以獲得示例中三個(gè)峰的絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的實(shí)際值。結(jié)果見表1:

通過三點(diǎn)之間的相互推導(dǎo),我們就可以得到三個(gè)峰的絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的理論值。結(jié)果見表2:

通過計(jì)算獲得理論值與實(shí)際值偏差(%)。結(jié)果見表3:

在表3 數(shù)據(jù)中,可以發(fā)現(xiàn)除一個(gè)點(diǎn)(峰3, 絕對(duì)坐標(biāo)Y)外,其他點(diǎn)的偏差絕對(duì)值都在1%以下。這一情況是由于參與計(jì)算縱坐標(biāo)校正系數(shù)kh的點(diǎn)之間縱坐標(biāo)的差值過小導(dǎo)致。

通過比較可以得知,點(diǎn)(峰1,絕對(duì)坐標(biāo)Y)與點(diǎn)(峰1,相對(duì)坐標(biāo)Y)與同列的其他點(diǎn)相比偏差最小,而點(diǎn)(峰2,絕對(duì)坐標(biāo)X)與點(diǎn)(峰2,相對(duì)坐標(biāo)X)與同列的其他點(diǎn)相比偏差最小。

在計(jì)算橫/縱坐標(biāo)校正系數(shù)kh和kz時(shí),參與計(jì)算的兩點(diǎn)之間的坐標(biāo)位置差異越大,則獲得的偏差越小,相應(yīng)的數(shù)據(jù)坐標(biāo)變換越準(zhǔn)確,還原度越高。

通過謹(jǐn)慎選擇可以保證結(jié)果的準(zhǔn)確性,上述方法進(jìn)行坐標(biāo)變換其偏差值在可接受范圍內(nèi)。

2.6.7 圖譜曲線相關(guān)的文本信息分析示例:

可通過在圖譜框架范圍內(nèi)進(jìn)行文本對(duì)象分析獲得文本的位置信息和內(nèi)容信息。分析示例見圖19:

文本對(duì)象的使用決定了其頁面布局。根據(jù)其布局位置信息的規(guī)律性,可以識(shí)別并獲得相關(guān)的文本內(nèi)容信息。

此外,作為縱坐標(biāo)/橫坐標(biāo)刻度標(biāo)記的文本對(duì)象其中也包含有絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的信息,也可以用于計(jì)算橫/縱坐標(biāo)校正系數(shù)kh和kz。

在其中,由于峰標(biāo)注采用的排版方式問題,其讀取的內(nèi)容信息存在一定的錯(cuò)誤,這與進(jìn)行文本對(duì)象分析時(shí)所采用的水平掃描方式有關(guān),可通過進(jìn)一步的優(yōu)化加以改善。

2.6.8? 圖譜數(shù)據(jù)的輸出

通過對(duì)上述圖形對(duì)象和文本對(duì)象的解析,我們可以將原PDF文件中的圖譜曲線分解為曲線坐標(biāo)列表,積分線坐標(biāo)列表,刻度標(biāo)記及標(biāo)注,樣品信息等可歸類的單獨(dú)數(shù)據(jù),可將這些解析出的數(shù)據(jù)匯總以自定義圖譜的形式輸出。所解析出的數(shù)據(jù)也可以供在Origin或者Excel中進(jìn)行數(shù)據(jù)圖譜的描繪。這將使得數(shù)據(jù)的使用及分析更加自由。

以下采用python語言編寫的matplotlib庫作為圖譜的輸出工具演示輸出效果,實(shí)例可見圖21:

所輸出的顯示效果與相關(guān)工作站軟件所提供的離線瀏覽功能類似,可以通過鼠標(biāo)移動(dòng)獲得曲線上的各位置信息,也可以放大、拖拉,可以更方便地解讀圖譜。

通過設(shè)定參數(shù),也可以采用3D繪圖的方式將原先的平面圖形轉(zhuǎn)換為可以拖動(dòng)的3D圖形進(jìn)行分析。實(shí)例可見圖22:

通過的編程處理,也可以將重疊圖譜進(jìn)行拆分、轉(zhuǎn)換。實(shí)例可見圖23、24。

3 應(yīng)用與展望

本文所探討的內(nèi)容,是通過對(duì)PDF格式圖譜文件的解析獲得逼真的圖譜數(shù)據(jù),將各類私有數(shù)據(jù)格式轉(zhuǎn)化為規(guī)范的、便于使用和交換的通用數(shù)據(jù)格式,為數(shù)據(jù)的進(jìn)一步應(yīng)用提供足夠的便利性和自由度。使得圖譜數(shù)據(jù)的分析可以不再受限于工作站和專用軟件而困于一個(gè)個(gè)信息孤島。通過與數(shù)據(jù)庫的結(jié)合,為圖譜數(shù)據(jù)的應(yīng)用提供了新的發(fā)展方向。

在本文所述的研究中,對(duì)指定文本信息的提取技術(shù)較為成熟,已廣泛應(yīng)用于各類SDMS系統(tǒng)及由此拓展得到的LIMS系統(tǒng),以Star-Lims較為典型,在藥檢所/院為代表的檢驗(yàn)機(jī)構(gòu)中多有采用。

而對(duì)于基于PDF文件的圖譜圖形數(shù)據(jù)提取的研究,鮮見相關(guān)文獻(xiàn)的報(bào)道。而通過這一研究使得SDMS可以采集的pdf圖譜文件的數(shù)據(jù)對(duì)象從數(shù)據(jù)匯總表中的檢驗(yàn)數(shù)據(jù)文本對(duì)象擴(kuò)大到圖譜曲線圖形對(duì)象,采集的數(shù)據(jù)更加全面。對(duì)可形成連續(xù)圖譜曲線的實(shí)驗(yàn)報(bào)告(包括液相、氣相、紅外、紫外分光、差熱分析)都可以通過此方法處理。

在圖譜報(bào)告中,圖譜曲線所蘊(yùn)含的信息量要遠(yuǎn)多于數(shù)據(jù)匯總表中的記載,而這一研究可以提升圖譜數(shù)據(jù)的利用效率。相比檢驗(yàn)型的儀器分析,對(duì)于研究型的儀器分析,該項(xiàng)研究更具意義。

通過對(duì)報(bào)告功能的改進(jìn)開發(fā),采用該方案可以實(shí)現(xiàn)所輸出的報(bào)告內(nèi)容采用自定義的圖譜曲線外觀,使得報(bào)告整體風(fēng)格更加的統(tǒng)一,而避免采用原始圖譜附件的形式。可以滿足實(shí)驗(yàn)室的出具報(bào)告、結(jié)果分析的基本需求。

通過數(shù)據(jù)庫前端的進(jìn)一步開發(fā),就可以對(duì)圖譜曲線數(shù)據(jù)進(jìn)行檢索、處理和比對(duì),部分實(shí)現(xiàn)商業(yè)化儀器網(wǎng)絡(luò)工作站的功能。這些功能的開發(fā)可根據(jù)自身情況,例如所采用的 LIMS編制語言、功能需求進(jìn)行自行定制,在使用上具有更高的自由度。

儀器分析在中國的發(fā)展已經(jīng)超過了20年。在使用單位的各類型儀器上都累積了大量的實(shí)驗(yàn)數(shù)據(jù)。以藥檢系統(tǒng)為例,每年各級(jí)藥檢機(jī)構(gòu)的國抽、省抽任務(wù)及各類研究項(xiàng)目所涉及的檢驗(yàn)數(shù)據(jù)量就非常可觀。隨著大數(shù)據(jù)研究及AI技術(shù)的日益進(jìn)步,技術(shù)條件已成熟,對(duì)這些“沉睡”數(shù)據(jù)的有效使用必將促進(jìn)研究的進(jìn)一步發(fā)展。

作為輔助研究的有效工具,數(shù)據(jù)挖掘技術(shù)可將數(shù)據(jù)之中所蘊(yùn)含的信息經(jīng)過聚類分析、分類分析、相關(guān)性分析等手段應(yīng)用于分析方法開發(fā)、風(fēng)險(xiǎn)趨勢(shì)研究等方向,為將來的研究提供指導(dǎo),從而提高研究的效率。

現(xiàn)有的累積數(shù)據(jù)也可以作為訓(xùn)練數(shù)據(jù)集應(yīng)用于AI模型的開發(fā),實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)判斷和結(jié)果的自動(dòng)輸出,進(jìn)一步提高工作效率。

規(guī)范的數(shù)據(jù)是實(shí)現(xiàn)上述應(yīng)用遠(yuǎn)景的基礎(chǔ)。以PDF文件為媒介,將各類私有數(shù)據(jù)格式轉(zhuǎn)化為規(guī)范的,便于使用和交換的通用數(shù)據(jù)格式,可以實(shí)現(xiàn)跨儀器類型、跨生產(chǎn)廠家、跨研究機(jī)構(gòu)的數(shù)據(jù)整合。這將使得針對(duì)數(shù)據(jù)研究可以在統(tǒng)一的資源環(huán)境下實(shí)施。

這種應(yīng)用遠(yuǎn)景的配套條件也需要逐步完善,例如與圖譜信息直接相關(guān)的樣品信息、樣品處理方法、檢測(cè)條件、檢測(cè)參數(shù)等圖譜中不能完全反映的問題,也需要納入對(duì)應(yīng)的數(shù)據(jù)庫中;此外還有數(shù)據(jù)來源合法性、數(shù)據(jù)交換規(guī)范、有效數(shù)據(jù)認(rèn)可及機(jī)構(gòu)間協(xié)作等事務(wù)性問題需要解決。

參考文獻(xiàn):

[1] 常周鑫,崔玉花,李洋洋,等.大型儀器檢測(cè)無機(jī)非金屬元素含量的研究[J].分析儀器,2021(5):59-65.

[2] 李蕾,黃鵬,闞家義,等.微量熱法用于檢出藥品中污染金黃色葡萄球菌的可行性探討[J].藥物分析雜志,2021,41(2):300-305.

[3] 蒲婧哲,張亞中,朱夜琳,等.基于物種特異性PCR方法的雞內(nèi)金真?zhèn)舞b別[J].中國實(shí)驗(yàn)方劑學(xué)雜志,2019,25(17):142-147.

[4] 張玉歌,龐青云,郭洪祝,等.基于NuGenesis的儀器檢測(cè)數(shù)據(jù)的科學(xué)管理[J].中國藥事,2016,30(1):17-23.

[5] 林偉強(qiáng).廣東省藥品檢驗(yàn)所LIMS應(yīng)用[J].今日藥學(xué),2008,18(4):88-90.

[6] 鄭正,汪海宣,劉業(yè)飛.LIMS系統(tǒng)在食品藥品檢驗(yàn)檢測(cè)機(jī)構(gòu)中的實(shí)施[J].中小企業(yè)管理與科技(中旬刊),2017(7):139-140.

[7] Petter Moree.打破制藥行業(yè)數(shù)據(jù)孤島 實(shí)現(xiàn)數(shù)據(jù)完整性[J].流程工業(yè),2020(4):46-47.

[8] ASTEM E1947-98(2014). Standard Specification for Analytical Data Interchange Protocol for Chromatograpgic Data[S].2014.

[9] PDF 32000-1:2008.Document management-Portable document format-Part 1[S].2008.

[10] 劉羽.基于PDF文件解析的圖譜數(shù)據(jù)還原方法:CN112861821A[P].2021-05-28.

【通聯(lián)編輯:李雅琪】

猜你喜歡
數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 亚洲国产成人超福利久久精品| 亚洲第一网站男人都懂| 亚洲欧美自拍一区| 在线精品视频成人网| 欧美激情福利| 国产精品综合色区在线观看| 亚洲第一极品精品无码| 中文国产成人精品久久| 亚洲三级影院| 好吊色妇女免费视频免费| 午夜精品久久久久久久无码软件| 在线欧美一区| 国产丝袜第一页| 波多野结衣中文字幕一区二区| 天天色综合4| 欧洲精品视频在线观看| 精品伊人久久久大香线蕉欧美| 欧美在线中文字幕| 激情五月婷婷综合网| 亚洲五月激情网| 日本一区二区不卡视频| 99伊人精品| 成年人视频一区二区| 色悠久久久久久久综合网伊人| 黄片一区二区三区| 亚洲精品视频免费| 欧美三级日韩三级| 网友自拍视频精品区| 欧美国产在线精品17p| 97国产在线视频| 国产AV无码专区亚洲精品网站| 国产无人区一区二区三区| 亚州AV秘 一区二区三区| 欧美无专区| 国产一级二级三级毛片| 亚洲精品免费网站| 久久久久久久97| 欧洲熟妇精品视频| 午夜人性色福利无码视频在线观看| 亚洲国产看片基地久久1024| 韩日免费小视频| 亚洲午夜福利精品无码不卡 | 黄色污网站在线观看| 国产视频久久久久| 996免费视频国产在线播放| 久久亚洲黄色视频| 国产激情国语对白普通话| 午夜无码一区二区三区| 国产又色又爽又黄| 色婷婷色丁香| 亚洲一区免费看| 狠狠综合久久久久综| 在线观看免费人成视频色快速| 天天视频在线91频| 国产精品jizz在线观看软件| 青青草一区| 日韩欧美国产另类| 成人免费网站久久久| 亚洲国产精品日韩av专区| 欧美成人日韩| 国内精品视频| 无码日韩人妻精品久久蜜桃| 亚洲天堂伊人| 久久久久久高潮白浆| 日韩精品一区二区三区中文无码 | 国产精品密蕾丝视频| 九九热精品在线视频| 香蕉综合在线视频91| 国产黄网站在线观看| 亚洲最新地址| 91久久国产成人免费观看| 99视频在线免费| 精品久久高清| 国产成人精品亚洲日本对白优播| 九色在线观看视频| 亚洲国产天堂久久综合226114| 国产第一页第二页| 在线免费无码视频| 国产精品无码一二三视频| 91黄色在线观看| 国产a v无码专区亚洲av| 亚洲天堂成人|