劉羽,王輝,王賀






















摘要:目的:研究基于PDF文件解析的圖譜數(shù)據(jù)提取方法,解決“數(shù)據(jù)孤島”問題,實(shí)現(xiàn)數(shù)據(jù)的有效整合。方法:通過對(duì)PDF格式的圖譜報(bào)告頁面結(jié)構(gòu)進(jìn)行拆解、分析、歸納,逐步以示例展示PDF格式圖譜文件的數(shù)據(jù)提取方法。一方面說明現(xiàn)有的PDF文本提取技術(shù)的原理,另一方面進(jìn)一步研究對(duì)圖譜曲線采用坐標(biāo)變換進(jìn)行還原以獲得逼近原始數(shù)據(jù)真實(shí)值的數(shù)據(jù)的方法,并就處理后的圖譜數(shù)據(jù)的應(yīng)用方向進(jìn)行了展望。結(jié)論:本文的研究結(jié)果表明,以PDF格式文件為媒介,可以將各類圖譜報(bào)告的轉(zhuǎn)化為自定義的數(shù)據(jù),實(shí)現(xiàn)有效整合實(shí)驗(yàn)室資源,并為圖譜報(bào)告的數(shù)據(jù)挖掘及AI應(yīng)用創(chuàng)造條件。
關(guān)鍵詞:PDF;圖譜;Python;數(shù)據(jù)挖掘
中圖分類號(hào):R95? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)34-0134-07
1 引言
儀器分析是現(xiàn)代科學(xué)研究的重要手段,在研究中,通常會(huì)采用不同的方法(如液相色譜、氣相色譜、質(zhì)譜、核磁共振、熱分析等)對(duì)同一目標(biāo)從多角度進(jìn)行研究,其產(chǎn)生的圖譜直接或間接地反映出了被研究對(duì)象特定的物理化學(xué)性質(zhì)[1-3]。這種研究策略在藥學(xué)類的檢驗(yàn)及研究領(lǐng)域極為常見。
現(xiàn)代分析儀器通常采用儀器+PC+工作軟件/工作站的形式組成功能完整的系統(tǒng):處理后的樣品通過儀器上不同原理的傳感器檢測(cè),獲得模擬的電信號(hào),經(jīng)過模擬電信號(hào)/數(shù)字信號(hào)之間的轉(zhuǎn)換,成為PC設(shè)備可以處理的二進(jìn)制數(shù)據(jù),再通過PC所搭載的工作軟件/工作站中所包含相關(guān)函數(shù)的處理,得到可進(jìn)行各類計(jì)算的圖譜數(shù)據(jù),并生成各類專屬格式的數(shù)據(jù)文件,報(bào)告管理程序通過調(diào)用報(bào)告模板和圖譜數(shù)據(jù)生成圖譜報(bào)告。
商業(yè)化的工作軟件或工作站通常因?yàn)楣ぷ髂繕?biāo)、開發(fā)時(shí)間、編寫語言的不同,形成了相對(duì)封閉的系統(tǒng),其專有文件的數(shù)據(jù)結(jié)構(gòu)無法被其他軟件識(shí)別。
隨著儀器分析及網(wǎng)絡(luò)信息技術(shù)的發(fā)展,為了提高工作效率,面向數(shù)據(jù)整合與管理為目的的科學(xué)數(shù)據(jù)管理系統(tǒng)(SDMS:Scientific Data Management System)及由此拓展而開發(fā)的實(shí)驗(yàn)室信息管理系統(tǒng)(LIMS: Laboratory Information Management System)正逐漸普及[4-6],此類系統(tǒng)通常是由第三方開發(fā)的,與分析儀器的原生工作軟件或工作站存在兼容性的問題,也無法直接使用專有格式的數(shù)據(jù)文件。
而各儀器廠商所推出的配套網(wǎng)絡(luò)版數(shù)據(jù)管理系統(tǒng)僅對(duì)自有品牌的儀器進(jìn)行支持,與其他品牌的儀器之間也存在兼容性問題。
大量的相關(guān)數(shù)據(jù)以不同的文件格式分布于各類的系統(tǒng)之中,形成了相互隔絕而又內(nèi)容豐富的數(shù)據(jù)孤島[7]。上述問題對(duì)數(shù)據(jù)的獲取、集成與處理提出了挑戰(zhàn)。
為了解決數(shù)據(jù)交換兼容性的問題,存在兩種方案,一種是以許可授權(quán)的形式獲得其他儀器企業(yè)的技術(shù)支持,從而獲得接近原生儀器操作的用戶體驗(yàn)。另一種是通過協(xié)調(diào)與推動(dòng)通用文件的形式解決圖譜數(shù)據(jù)交換的兼容性問題,例如從NetCDF發(fā)展而來的.cdf文件格式[8]。
但出于商業(yè)利益、技術(shù)壁壘、整合難度等因素,上述兩個(gè)方案并沒有得到廣泛的支持。
2 PDF文件解析
2.1 PDF在實(shí)驗(yàn)室的應(yīng)用
PDF文件作為獨(dú)立于硬件、操作系統(tǒng)、應(yīng)用程序的用于文件交換的電子文檔,在實(shí)驗(yàn)室信息化的過程中得到了廣泛的應(yīng)用。報(bào)告管理程序通過PDF的虛擬打印功可以將各類圖譜報(bào)告文件保存為統(tǒng)一的PDF格式。PDF以其便利性、高精度成為事實(shí)上的實(shí)驗(yàn)室報(bào)告?zhèn)鬟f通用文檔。
在上述背景下,基于PDF文件解析的數(shù)據(jù)獲取方案應(yīng)運(yùn)而生,對(duì)現(xiàn)有的第三方SDMS/LIMS進(jìn)行功能改進(jìn)和開發(fā),通過對(duì)PDF這種通用的數(shù)據(jù)格式的圖譜報(bào)告文件匯總、整理與解析實(shí)現(xiàn)對(duì)實(shí)驗(yàn)室檢驗(yàn)數(shù)據(jù)的整合。與各類儀器廠商所提供的網(wǎng)絡(luò)版工作站方案相比,該方案的優(yōu)勢(shì)在于:
1)技術(shù)難度低。利用現(xiàn)有的各類開源庫和極少量的代碼就可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的抓取和管理。
2)投入少。在硬件上,不需要進(jìn)行進(jìn)一步的投入,例如增加專用的數(shù)據(jù)交換模塊或是升級(jí)硬件以適配網(wǎng)絡(luò)工作站的版本;在軟件上,不需要購買網(wǎng)絡(luò)工作站的授權(quán);在管理上,可以采用一種方案適用于大多數(shù)應(yīng)用場(chǎng)景,降低了開發(fā)和維護(hù)難度。
3)兼容性高。對(duì)于大多數(shù)不同類型,不同廠家,不同操作系統(tǒng)版本的儀器,能輸出標(biāo)準(zhǔn)PDF格式的報(bào)告,具備局域網(wǎng)連接條件,就具備實(shí)施方案的可能性。
該方案的缺陷在于,目前只能對(duì)圖譜報(bào)告中的結(jié)論性的部分文本信息進(jìn)行抓取,不能夠?qū)崿F(xiàn)對(duì)圖譜報(bào)告數(shù)據(jù)內(nèi)容的充分利用。
2.2 PDF解析的基本原理
PDF格式其核心是由頁面描述語言PostScript為基礎(chǔ)發(fā)展而來的一種先進(jìn)成像模塊(Advanced Imaging Model ),可以以相對(duì)設(shè)備獨(dú)立的方式描述影像,而不依賴特定設(shè)備特性為參照,避免了輸出圖像時(shí)對(duì)設(shè)備的依賴。可以實(shí)現(xiàn)高精度、高清晰度的圖像輸出。
作為一種特殊的文件格式,PDF文檔并沒有傳統(tǒng)意義上的順序數(shù)據(jù)結(jié)構(gòu)。一個(gè)PDF文檔是通過稱為“對(duì)象”的模塊組合而成。PDF的顯著優(yōu)勢(shì)在于繼承了PostScript語言的特點(diǎn),通過頁面描述指令在頁面各個(gè)準(zhǔn)確位置引用文件中的文本、圖片、圖形等對(duì)象實(shí)現(xiàn)內(nèi)容展示。從這個(gè)意義上而言,PDF頁面更類似于一種特殊的圖片。
PDF其中各類對(duì)象的位置(position)、尺寸(size)、方向(orientation)的描述是通過建立頁面坐標(biāo)系實(shí)現(xiàn)[9]。
通過對(duì)PDF頁面中各類對(duì)象的坐標(biāo)系進(jìn)行重建,可以獲得相應(yīng)的位置信息,通過對(duì)指定位置的對(duì)象屬性信息進(jìn)行解讀就可以實(shí)現(xiàn)對(duì)圖譜特定數(shù)據(jù)的獲取。
2.3 圖譜報(bào)告的形式和數(shù)據(jù)
常見的圖譜報(bào)告可以歸納為三種基本形式:文本型、圖型、圖文混合型。如下圖所示:
上述報(bào)告中的數(shù)據(jù)可以歸納為兩類,一類為文本,一類為圖形。因此通過解析圖譜報(bào)告PDF文件其中的文本對(duì)象或圖形對(duì)象就可以達(dá)到獲得數(shù)據(jù)的目的。
2.4 圖譜報(bào)告PDF文件的文本解析
PDF通過兩種方式實(shí)現(xiàn)文本(Text)的應(yīng)用展示:方式1,將字型(Glyph)以包括文本狀態(tài)(Text state),文本對(duì)象和運(yùn)算符(Text objects and operators),字體數(shù)據(jù)結(jié)構(gòu)(Font data structures)組合的方式嵌入系統(tǒng),作為文本對(duì)象與文件一同傳輸。這種文本應(yīng)用的方式是以字符(Character)組合的形式保存字符串(String),以參數(shù)(parameters)的形式保存字體(Fonts),以字型(Glyph)方式進(jìn)行頁面描繪。
方式2, 對(duì)于特殊字型是采用矢量繪圖的方式進(jìn)行描繪。所展示出的字型不是以字符串和字體參數(shù)的形式保存,而是以繪圖圖形的形式保存。
通過上述兩種方式可以最大程度還原版面的文字效果,實(shí)現(xiàn)打印頁面的精確輸出。而以方式1輸出的PDF文件可以通過對(duì)文本對(duì)象進(jìn)行對(duì)象屬性分析獲得對(duì)應(yīng)的字符/字符串,經(jīng)整理后而獲得所需要的數(shù)據(jù)。
隨著信息技術(shù)的發(fā)展,現(xiàn)有多種開源的軟件可供選擇,現(xiàn)以Pdfplumber為演示工具,以文本型報(bào)告實(shí)例為數(shù)據(jù)源,對(duì)文本數(shù)據(jù)抓取操作進(jìn)行演示。
Pdfplumber是基于Pdfminer二次開發(fā)由Python語言編寫的PDF文檔解析庫,尤其對(duì) PDF文件中的表格內(nèi)容進(jìn)行了針對(duì)性的優(yōu)化,使用方便。通過極少的代碼就可以實(shí)現(xiàn)數(shù)據(jù)的讀取。
以下是相關(guān)代碼和解析效果示意圖。
通過上述代碼是通過默認(rèn)的功能對(duì)PDF頁面中的表格進(jìn)行整體的識(shí)別和讀取,并不具備對(duì)特定數(shù)據(jù)處理的功能。
通過變更解析模式,采用定位識(shí)別和讀取導(dǎo)出的方式,就可以獲得指定數(shù)據(jù)。示例采用導(dǎo)出到微軟Office辦公軟件EXCEl中的方式進(jìn)行演示:
以下為相關(guān)代碼:
以下為代碼運(yùn)行結(jié)果:
在上述示例中,采用的是python語言編寫的xlwings庫作為數(shù)據(jù)導(dǎo)出工具,這是一種支持操作Excel文件的Python第三方庫。同樣的,通過引入支持?jǐn)?shù)據(jù)庫的應(yīng)用工具也可以實(shí)現(xiàn)圖譜指定數(shù)據(jù)抓取到數(shù)據(jù)庫的功能。通過上述方法或類似方法就可以實(shí)現(xiàn)對(duì)圖譜報(bào)告PDF文件的指定文本數(shù)據(jù)的抓取。
2.5 圖譜報(bào)告PDF文件的圖形解析
2.5.1 典型圖譜的分解
圖譜報(bào)告的PDF文件是通過一系列圖形對(duì)象與文本對(duì)象的搭配實(shí)現(xiàn)圖譜的輸出。如下圖所示:
通過將圖譜進(jìn)行歸納分析可知,典型圖譜可以被歸納為兩大類對(duì)象,文本對(duì)象及圖形對(duì)象。
文本對(duì)象通常是對(duì)圖譜的指示和說明,如樣品信息,刻度單位,刻度值,這種文本說明可以便于圖譜的使用者更有效的利用圖譜。
圖譜的圖形是通過圖形對(duì)象組合而來,其中的圖形對(duì)象可以歸納為長方形、直線、曲線3類細(xì)分圖形對(duì)象。例如作為整個(gè)圖譜框架的長方形對(duì)象,描繪圖譜的曲線對(duì)象,作為坐標(biāo)軸和坐標(biāo)刻度以及在某些情況下作為積分線的直線對(duì)象。
2.5.2 PDF文件中的路徑對(duì)象與矢量圖
PDF的顯著優(yōu)勢(shì)在于繼承了PostScript語言的特點(diǎn),通過頁面描述指令對(duì)指定區(qū)域進(jìn)行著色繪制頁面,可以通過路徑描述的方式描繪出可以任意放大和縮小的矢量圖。
常見的照片為位圖,亦稱為點(diǎn)陣圖像或柵格圖像,是由稱作像素(圖片元素)的單個(gè)點(diǎn)組成的。
而矢量圖是通過數(shù)學(xué)公式計(jì)算獲得,具有編輯后不失真的特點(diǎn)。微軟Office辦公軟件EXCEl中通過表格數(shù)據(jù)所繪制的散點(diǎn)圖就是通過矢量繪圖的方式實(shí)現(xiàn)。
PDF文件中的矢量圖通常是采用路徑對(duì)象(Path Object)的形式實(shí)現(xiàn),該類對(duì)象中又包含直線(Line),曲線(Curve)(含三次貝塞爾曲線(Cubic Bézier Curve)),長方形(Rectangle)等細(xì)分對(duì)象。這些路徑對(duì)象包含一些繪圖運(yùn)算符(Painting operators)作為對(duì)象屬性實(shí)現(xiàn)圖像細(xì)節(jié)的描繪,如邊框繪制(Stroke)或填充(Fill),其中還包括線形、寬度、顏色等細(xì)節(jié)參數(shù)。
矢量圖是通過一系列的點(diǎn)通過線連接繪制而成。不同的點(diǎn)通過順序組合描繪圖形,點(diǎn)與點(diǎn)之間的先后順序決定了圖形的形狀。各點(diǎn)之間連接的先后順序發(fā)生改變,則相同坐標(biāo)的點(diǎn)所組成的圖形也會(huì)存在差異。
點(diǎn)是最基本的繪圖元素。點(diǎn)的位置通過頁面坐標(biāo)的形式進(jìn)行確定。對(duì)這些組成這些圖形對(duì)象的路徑點(diǎn)的解析就可以將所繪制的圖形進(jìn)行還原。
矢量圖示例如圖10所示。
通過采用Python語言編寫的文檔解析庫Pdfminer作為演示工具,對(duì)上述矢量圖形進(jìn)行解析,通過對(duì)矢量圖形(或稱路徑對(duì)象)的pts屬性進(jìn)行分析,可以獲得生成矢量圖的各點(diǎn)坐標(biāo),解析結(jié)果見圖11。
其中的LTRect對(duì)應(yīng)的是長方形對(duì)象;LTLine對(duì)應(yīng)的是直線對(duì)象;LTCurve對(duì)應(yīng)的是曲線對(duì)象。
由上述示例可知,示例1,3,5的規(guī)則圖形和示例2,4的不規(guī)則圖形都可以通過路徑繪圖的方式進(jìn)行圖形的輸出,其路徑點(diǎn)的坐標(biāo)都可以被解析。
2.5.3 PDF頁面的坐標(biāo)系與對(duì)象框架
頁面的繪圖是基于PDF頁面的坐標(biāo)系進(jìn)行頁面定位。坐標(biāo)決定了文本對(duì)象,圖形對(duì)象,圖片對(duì)象的位置(position)、方向(orientation)、尺寸(size)。通常采用的是以頁面的左下角作為坐標(biāo)系的原點(diǎn)(0,0),以橫向的頁面寬度和縱向的頁面高度分別作為坐標(biāo)系的縱向和橫向坐標(biāo)范圍。
不同的對(duì)象根據(jù)頁面排布情況依據(jù)相對(duì)原點(diǎn)的距離被賦予不同的坐標(biāo)。可以采用x0,y0,x1,y1的數(shù)據(jù)賦值方式確定排布范圍。其中 x0代表對(duì)象的左下角橫坐標(biāo),y0代表對(duì)象的左下角縱坐標(biāo),其中 x1代表對(duì)象的右上角橫坐標(biāo),y1代表對(duì)象的右上角縱坐標(biāo)。
以(x0,y0)與(x1,y1)所定義出來的矩形范圍即為對(duì)象的框架范圍,框架作為對(duì)象的容器,決定對(duì)象的頁面位置和的大小。各類對(duì)象都在框架中進(jìn)行展示。
組成路徑對(duì)象的路徑點(diǎn)的坐標(biāo)也是以上述坐標(biāo)系為參照所設(shè)定獲得。通過獲得路徑對(duì)象的坐標(biāo)信息并加以整理就可以實(shí)現(xiàn)對(duì)圖譜曲線數(shù)據(jù)的提取。
2.5.4 圖譜的絕對(duì)坐標(biāo)與相對(duì)坐標(biāo)
對(duì)于圖譜曲線的解析需要引入絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的概念。
絕對(duì)坐標(biāo)指通過實(shí)驗(yàn)所獲得的定位數(shù)據(jù),這一定位方式所依據(jù)的是確定的實(shí)驗(yàn)數(shù)據(jù)之間一一匹配的關(guān)系,如X衍射法中的2θ角與衍射強(qiáng)度、液相氣相等分離色譜測(cè)定法的保留時(shí)間與峰高、差熱分析法中的溫差和溫度。
相對(duì)坐標(biāo)指依據(jù)PDF頁面的坐標(biāo)系而獲得的定位數(shù)據(jù),是以對(duì)象所處頁面位置通過算法折算獲得的數(shù)據(jù)。隨頁面布局及排版的變化,其坐標(biāo)也會(huì)發(fā)生相應(yīng)的改變。
圖譜曲線上,任意的繪圖點(diǎn)在具有絕對(duì)坐標(biāo)的同時(shí),也存在對(duì)應(yīng)的相對(duì)坐標(biāo)。根據(jù)絕對(duì)坐標(biāo)與相對(duì)坐標(biāo)之間的這種一一匹配的關(guān)系,依據(jù)坐標(biāo)變換的原理,尋找到坐標(biāo)變換的規(guī)律就可以將數(shù)據(jù)從相對(duì)坐標(biāo)轉(zhuǎn)化為絕對(duì)坐標(biāo)。
通過已知絕對(duì)坐標(biāo)及對(duì)應(yīng)相對(duì)坐標(biāo)的兩點(diǎn)就可以實(shí)現(xiàn)對(duì)其他任意已知絕對(duì)坐標(biāo)或已知相對(duì)坐標(biāo)的點(diǎn)與所對(duì)應(yīng)的相對(duì)坐標(biāo)或絕對(duì)坐標(biāo)的變換[10]。
Xj1-Xj2=kh*(Xx1-Xx2)
Yj1-Yj2=kz*(Yx1-Yx2)
其中,Xj1,Xj2分別為已知的兩點(diǎn)絕對(duì)坐標(biāo)的橫坐標(biāo),Xx1、Xx2分別為已知的兩點(diǎn)相對(duì)坐標(biāo)的橫坐標(biāo)。kh、kz分別為橫坐標(biāo)校正系數(shù)和縱坐標(biāo)校正系數(shù)。
其中,Yj1,Yj2分別為已知的兩點(diǎn)絕對(duì)坐標(biāo)的縱坐標(biāo),Yx1、Yx2分別為已知的兩點(diǎn)相對(duì)坐標(biāo)的縱坐標(biāo)。kh、kz分別為橫坐標(biāo)校正系數(shù)和縱坐標(biāo)校正系數(shù)。
當(dāng)任一點(diǎn)的相對(duì)坐標(biāo)已知為(Xx0,Yx0),則可以通過已知條件進(jìn)行推導(dǎo),獲得其絕對(duì)坐標(biāo)(Xj0,Yj0)。
Xj0= kh*(Xx0-Xx1)+Xj1
Yj0= kZ*(Yx0-Yx1)+Yj1
通過上述的處理就可以實(shí)現(xiàn)將PDF文件頁面上的圖譜曲線的逼真還原。
2.6 圖譜報(bào)告PDF文件的圖形解析步驟示例
以常見的圖文混合型圖譜作為解析素材,通過PDF閱讀軟件福昕高級(jí)PDF編輯器及Python語言編寫的Pdfminer庫對(duì)圖譜圖形進(jìn)行分析,步驟如下:
2.6.1 定位圖譜圖形位置
圖譜一般是通過工作站或工作軟件調(diào)用報(bào)告模板讀取報(bào)告數(shù)據(jù)生成。在報(bào)告模板中對(duì)于圖譜圖形的調(diào)用,通常會(huì)存在圖譜圖形模塊的框架。該框架在生成圖譜PDF文件的過程中會(huì)以長方形對(duì)象的形式寫入PDF頁面中。在頁面上通常表現(xiàn)為范圍最大的長方形對(duì)象。
通過尋找這一范圍框架,可以精確定位所需要提取分析的圖譜曲線。這一范圍框架的通常為整個(gè)頁面上最大的長方形。通過篩選頁面上符合這一條件的圖形對(duì)象就可以得到。通過對(duì)這一范圍的確定,可以提高分析效率。
2.6.2 圖譜曲線初步分析
在本示例中,可通過PDF編輯軟件對(duì)其進(jìn)行初步的分析:圖譜曲線是由三個(gè)曲線拼接組合而成,另有三條曲線以積分線的形式出現(xiàn)。
2.6.3 圖譜曲線的進(jìn)一步分析
對(duì)其中的一條曲線進(jìn)行進(jìn)一步分析,可得到下圖:
明顯可見曲線是通過順序連接點(diǎn)串接構(gòu)成。通過Pdfminer工具對(duì)該段曲線進(jìn)行分析,讀取該對(duì)象的.pts數(shù)據(jù),可知組成該段曲線的點(diǎn)共計(jì)512個(gè)。
2.6.4 圖譜曲線的特定點(diǎn)的分析示例
對(duì)曲線上的各點(diǎn)可進(jìn)行進(jìn)一步分析獲得各點(diǎn)的位置信息,以上述圖譜的峰位置為例:
通過篩選該段圖譜曲線上的最高點(diǎn),即縱坐標(biāo)最大的點(diǎn),就可以得知該點(diǎn)為512個(gè)繪圖點(diǎn)中的第104個(gè),坐標(biāo)為(211.2,541.92)。
2.6.5 圖譜曲線的特定點(diǎn)的絕對(duì)坐標(biāo)與相對(duì)坐標(biāo)
圖譜曲線上,任意的繪圖點(diǎn)在具有絕對(duì)坐標(biāo)的同時(shí),也存在對(duì)應(yīng)的相對(duì)坐標(biāo)。示例曲線所采用的是保留時(shí)間與峰高的匹配關(guān)系。以上述峰位置為例,其絕對(duì)坐標(biāo)(4.101(保留時(shí)間),1273.69031(峰高))所對(duì)應(yīng)的相對(duì)坐標(biāo)為(211.2,541.92)。
這一絕對(duì)坐標(biāo)在數(shù)據(jù)匯總表有相關(guān)的記錄,可以通過對(duì)數(shù)據(jù)匯總表文本對(duì)象的解析獲得。
通過獲得兩組或兩組以上的絕對(duì)坐標(biāo)/相對(duì)坐標(biāo)的配對(duì),就可以采用坐標(biāo)變換的方法,推算曲線上其他已知相對(duì)坐標(biāo)的點(diǎn)所對(duì)應(yīng)的絕對(duì)坐標(biāo),從而完成對(duì)圖譜曲線的解析。
2.6.6 坐標(biāo)變換準(zhǔn)確性評(píng)估
在所選擇的演示圖譜中有三個(gè)有記錄的峰,按照坐標(biāo)變換原理,可以通過已知絕對(duì)坐標(biāo)及對(duì)應(yīng)相對(duì)坐標(biāo)的兩點(diǎn)就可以實(shí)現(xiàn)對(duì)其他任意已知絕對(duì)坐標(biāo)或已知相對(duì)坐標(biāo)的點(diǎn)與所對(duì)應(yīng)的相對(duì)坐標(biāo)或絕對(duì)坐標(biāo)的推算。
通過三點(diǎn)之間的相互推算,我們就可以得到實(shí)際坐標(biāo)的理論值,通過理論值與實(shí)際值的差異來評(píng)估這個(gè)坐標(biāo)變換的準(zhǔn)確性。
通過對(duì)圖譜的分析,可以獲得示例中三個(gè)峰的絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的實(shí)際值。結(jié)果見表1:
通過三點(diǎn)之間的相互推導(dǎo),我們就可以得到三個(gè)峰的絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的理論值。結(jié)果見表2:
通過計(jì)算獲得理論值與實(shí)際值偏差(%)。結(jié)果見表3:
在表3 數(shù)據(jù)中,可以發(fā)現(xiàn)除一個(gè)點(diǎn)(峰3, 絕對(duì)坐標(biāo)Y)外,其他點(diǎn)的偏差絕對(duì)值都在1%以下。這一情況是由于參與計(jì)算縱坐標(biāo)校正系數(shù)kh的點(diǎn)之間縱坐標(biāo)的差值過小導(dǎo)致。
通過比較可以得知,點(diǎn)(峰1,絕對(duì)坐標(biāo)Y)與點(diǎn)(峰1,相對(duì)坐標(biāo)Y)與同列的其他點(diǎn)相比偏差最小,而點(diǎn)(峰2,絕對(duì)坐標(biāo)X)與點(diǎn)(峰2,相對(duì)坐標(biāo)X)與同列的其他點(diǎn)相比偏差最小。
在計(jì)算橫/縱坐標(biāo)校正系數(shù)kh和kz時(shí),參與計(jì)算的兩點(diǎn)之間的坐標(biāo)位置差異越大,則獲得的偏差越小,相應(yīng)的數(shù)據(jù)坐標(biāo)變換越準(zhǔn)確,還原度越高。
通過謹(jǐn)慎選擇可以保證結(jié)果的準(zhǔn)確性,上述方法進(jìn)行坐標(biāo)變換其偏差值在可接受范圍內(nèi)。
2.6.7 圖譜曲線相關(guān)的文本信息分析示例:
可通過在圖譜框架范圍內(nèi)進(jìn)行文本對(duì)象分析獲得文本的位置信息和內(nèi)容信息。分析示例見圖19:
文本對(duì)象的使用決定了其頁面布局。根據(jù)其布局位置信息的規(guī)律性,可以識(shí)別并獲得相關(guān)的文本內(nèi)容信息。
此外,作為縱坐標(biāo)/橫坐標(biāo)刻度標(biāo)記的文本對(duì)象其中也包含有絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的信息,也可以用于計(jì)算橫/縱坐標(biāo)校正系數(shù)kh和kz。
在其中,由于峰標(biāo)注采用的排版方式問題,其讀取的內(nèi)容信息存在一定的錯(cuò)誤,這與進(jìn)行文本對(duì)象分析時(shí)所采用的水平掃描方式有關(guān),可通過進(jìn)一步的優(yōu)化加以改善。
2.6.8? 圖譜數(shù)據(jù)的輸出
通過對(duì)上述圖形對(duì)象和文本對(duì)象的解析,我們可以將原PDF文件中的圖譜曲線分解為曲線坐標(biāo)列表,積分線坐標(biāo)列表,刻度標(biāo)記及標(biāo)注,樣品信息等可歸類的單獨(dú)數(shù)據(jù),可將這些解析出的數(shù)據(jù)匯總以自定義圖譜的形式輸出。所解析出的數(shù)據(jù)也可以供在Origin或者Excel中進(jìn)行數(shù)據(jù)圖譜的描繪。這將使得數(shù)據(jù)的使用及分析更加自由。
以下采用python語言編寫的matplotlib庫作為圖譜的輸出工具演示輸出效果,實(shí)例可見圖21:
所輸出的顯示效果與相關(guān)工作站軟件所提供的離線瀏覽功能類似,可以通過鼠標(biāo)移動(dòng)獲得曲線上的各位置信息,也可以放大、拖拉,可以更方便地解讀圖譜。
通過設(shè)定參數(shù),也可以采用3D繪圖的方式將原先的平面圖形轉(zhuǎn)換為可以拖動(dòng)的3D圖形進(jìn)行分析。實(shí)例可見圖22:
通過的編程處理,也可以將重疊圖譜進(jìn)行拆分、轉(zhuǎn)換。實(shí)例可見圖23、24。
3 應(yīng)用與展望
本文所探討的內(nèi)容,是通過對(duì)PDF格式圖譜文件的解析獲得逼真的圖譜數(shù)據(jù),將各類私有數(shù)據(jù)格式轉(zhuǎn)化為規(guī)范的、便于使用和交換的通用數(shù)據(jù)格式,為數(shù)據(jù)的進(jìn)一步應(yīng)用提供足夠的便利性和自由度。使得圖譜數(shù)據(jù)的分析可以不再受限于工作站和專用軟件而困于一個(gè)個(gè)信息孤島。通過與數(shù)據(jù)庫的結(jié)合,為圖譜數(shù)據(jù)的應(yīng)用提供了新的發(fā)展方向。
在本文所述的研究中,對(duì)指定文本信息的提取技術(shù)較為成熟,已廣泛應(yīng)用于各類SDMS系統(tǒng)及由此拓展得到的LIMS系統(tǒng),以Star-Lims較為典型,在藥檢所/院為代表的檢驗(yàn)機(jī)構(gòu)中多有采用。
而對(duì)于基于PDF文件的圖譜圖形數(shù)據(jù)提取的研究,鮮見相關(guān)文獻(xiàn)的報(bào)道。而通過這一研究使得SDMS可以采集的pdf圖譜文件的數(shù)據(jù)對(duì)象從數(shù)據(jù)匯總表中的檢驗(yàn)數(shù)據(jù)文本對(duì)象擴(kuò)大到圖譜曲線圖形對(duì)象,采集的數(shù)據(jù)更加全面。對(duì)可形成連續(xù)圖譜曲線的實(shí)驗(yàn)報(bào)告(包括液相、氣相、紅外、紫外分光、差熱分析)都可以通過此方法處理。
在圖譜報(bào)告中,圖譜曲線所蘊(yùn)含的信息量要遠(yuǎn)多于數(shù)據(jù)匯總表中的記載,而這一研究可以提升圖譜數(shù)據(jù)的利用效率。相比檢驗(yàn)型的儀器分析,對(duì)于研究型的儀器分析,該項(xiàng)研究更具意義。
通過對(duì)報(bào)告功能的改進(jìn)開發(fā),采用該方案可以實(shí)現(xiàn)所輸出的報(bào)告內(nèi)容采用自定義的圖譜曲線外觀,使得報(bào)告整體風(fēng)格更加的統(tǒng)一,而避免采用原始圖譜附件的形式。可以滿足實(shí)驗(yàn)室的出具報(bào)告、結(jié)果分析的基本需求。
通過數(shù)據(jù)庫前端的進(jìn)一步開發(fā),就可以對(duì)圖譜曲線數(shù)據(jù)進(jìn)行檢索、處理和比對(duì),部分實(shí)現(xiàn)商業(yè)化儀器網(wǎng)絡(luò)工作站的功能。這些功能的開發(fā)可根據(jù)自身情況,例如所采用的 LIMS編制語言、功能需求進(jìn)行自行定制,在使用上具有更高的自由度。
儀器分析在中國的發(fā)展已經(jīng)超過了20年。在使用單位的各類型儀器上都累積了大量的實(shí)驗(yàn)數(shù)據(jù)。以藥檢系統(tǒng)為例,每年各級(jí)藥檢機(jī)構(gòu)的國抽、省抽任務(wù)及各類研究項(xiàng)目所涉及的檢驗(yàn)數(shù)據(jù)量就非常可觀。隨著大數(shù)據(jù)研究及AI技術(shù)的日益進(jìn)步,技術(shù)條件已成熟,對(duì)這些“沉睡”數(shù)據(jù)的有效使用必將促進(jìn)研究的進(jìn)一步發(fā)展。
作為輔助研究的有效工具,數(shù)據(jù)挖掘技術(shù)可將數(shù)據(jù)之中所蘊(yùn)含的信息經(jīng)過聚類分析、分類分析、相關(guān)性分析等手段應(yīng)用于分析方法開發(fā)、風(fēng)險(xiǎn)趨勢(shì)研究等方向,為將來的研究提供指導(dǎo),從而提高研究的效率。
現(xiàn)有的累積數(shù)據(jù)也可以作為訓(xùn)練數(shù)據(jù)集應(yīng)用于AI模型的開發(fā),實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)判斷和結(jié)果的自動(dòng)輸出,進(jìn)一步提高工作效率。
規(guī)范的數(shù)據(jù)是實(shí)現(xiàn)上述應(yīng)用遠(yuǎn)景的基礎(chǔ)。以PDF文件為媒介,將各類私有數(shù)據(jù)格式轉(zhuǎn)化為規(guī)范的,便于使用和交換的通用數(shù)據(jù)格式,可以實(shí)現(xiàn)跨儀器類型、跨生產(chǎn)廠家、跨研究機(jī)構(gòu)的數(shù)據(jù)整合。這將使得針對(duì)數(shù)據(jù)研究可以在統(tǒng)一的資源環(huán)境下實(shí)施。
這種應(yīng)用遠(yuǎn)景的配套條件也需要逐步完善,例如與圖譜信息直接相關(guān)的樣品信息、樣品處理方法、檢測(cè)條件、檢測(cè)參數(shù)等圖譜中不能完全反映的問題,也需要納入對(duì)應(yīng)的數(shù)據(jù)庫中;此外還有數(shù)據(jù)來源合法性、數(shù)據(jù)交換規(guī)范、有效數(shù)據(jù)認(rèn)可及機(jī)構(gòu)間協(xié)作等事務(wù)性問題需要解決。
參考文獻(xiàn):
[1] 常周鑫,崔玉花,李洋洋,等.大型儀器檢測(cè)無機(jī)非金屬元素含量的研究[J].分析儀器,2021(5):59-65.
[2] 李蕾,黃鵬,闞家義,等.微量熱法用于檢出藥品中污染金黃色葡萄球菌的可行性探討[J].藥物分析雜志,2021,41(2):300-305.
[3] 蒲婧哲,張亞中,朱夜琳,等.基于物種特異性PCR方法的雞內(nèi)金真?zhèn)舞b別[J].中國實(shí)驗(yàn)方劑學(xué)雜志,2019,25(17):142-147.
[4] 張玉歌,龐青云,郭洪祝,等.基于NuGenesis的儀器檢測(cè)數(shù)據(jù)的科學(xué)管理[J].中國藥事,2016,30(1):17-23.
[5] 林偉強(qiáng).廣東省藥品檢驗(yàn)所LIMS應(yīng)用[J].今日藥學(xué),2008,18(4):88-90.
[6] 鄭正,汪海宣,劉業(yè)飛.LIMS系統(tǒng)在食品藥品檢驗(yàn)檢測(cè)機(jī)構(gòu)中的實(shí)施[J].中小企業(yè)管理與科技(中旬刊),2017(7):139-140.
[7] Petter Moree.打破制藥行業(yè)數(shù)據(jù)孤島 實(shí)現(xiàn)數(shù)據(jù)完整性[J].流程工業(yè),2020(4):46-47.
[8] ASTEM E1947-98(2014). Standard Specification for Analytical Data Interchange Protocol for Chromatograpgic Data[S].2014.
[9] PDF 32000-1:2008.Document management-Portable document format-Part 1[S].2008.
[10] 劉羽.基于PDF文件解析的圖譜數(shù)據(jù)還原方法:CN112861821A[P].2021-05-28.
【通聯(lián)編輯:李雅琪】