999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

流行病學(xué)調(diào)查報告數(shù)據(jù)標準化入口的SAS實現(xiàn)*

2013-07-27 09:30:34東南大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計系210009王詩遠
中國衛(wèi)生統(tǒng)計 2013年1期

東南大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計系(210009) 王詩遠 劉 沛

Epidata以其操作簡單,界面友好以及強大的錄入和核查功能,尤其是可方便地下載免費的漢化版受到了我國流行病與醫(yī)學(xué)統(tǒng)計工作者的青睞〔1〕。但在應(yīng)用中,尤其在大型流行病學(xué)分析報告過程中,由于多方合作及Epidata設(shè)計上的不合理等多方面原因,常常出現(xiàn)Epidata數(shù)據(jù)庫變量命名不規(guī)范、變量標簽及變量值標簽缺失或不完整等問題。這些問題的存在不僅對數(shù)據(jù)整理造成了不便,也為統(tǒng)計分析和統(tǒng)計圖表的制作增加了難度和工作量,同時也為標準化自動分析報告程序的構(gòu)建和應(yīng)用造成了障礙。針對上述問題,本文對Epidata數(shù)據(jù)進入SAS的標準化數(shù)據(jù)入口程序構(gòu)建進行了研究,在介紹其方法學(xué)的同時,通過流行病學(xué)實例說明了我們所建立方法的實用價值。

方法介紹

為解決前文所述問題,一般方法是在SAS DATA步中利用RENAME語句對變量進行重命名使其規(guī)范統(tǒng)一;利用LABEL語句對變量進行標簽添加;利用SAS PROC FORMAT過程自定義輸出格式,并用FORMAT語句將格式應(yīng)用于變量以實現(xiàn)對變量值標簽的添加〔2〕。此種方式缺點為在補充信息時需要對照分析數(shù)據(jù)集,觀察變量標簽及其取值。當(dāng)數(shù)據(jù)庫結(jié)構(gòu)復(fù)雜,取值多樣時,難免增大工作的難度、出錯的概率及書寫大量信息語句的工作量。此種方式的局限性還表現(xiàn)為當(dāng)自定義格式包含信息不全時,無法對原有的自定義格式信息進行添加,也無法解決當(dāng)前已定義的自定義格式中已存在的標簽值修改問題。

例如,變量SEX自定義輸出格式為:1為男,2為女,但缺失值標簽在格式中未定義,傳統(tǒng)方法難以解決缺失值標簽添加的問題。另外,即使1和2的值標簽都已定義,但若想將‘男’替換為‘男性’,也難以實現(xiàn),為后續(xù)的統(tǒng)計表格制作帶來諸多不便。本文提供的方法較好地解決了這些問題,從而為自動輸出規(guī)范化的統(tǒng)計報表提供了便利。

1.變量規(guī)范化重命名及標簽添加的宏程序

在處理變量規(guī)范化重命名及標簽添加時,利用SAS中SQL數(shù)據(jù)字典得到目標分析數(shù)據(jù)集的變量相關(guān)信息保存至數(shù)據(jù)集,隨后輸出至excel,并利用其友好的界面,方便直觀地進行編輯。最后導(dǎo)入SAS形成參數(shù),利用全局X語句并結(jié)合X語句相關(guān)的系統(tǒng)選項,實現(xiàn)excel文件的打開并保證程序運行的連續(xù)性。導(dǎo)入excel參數(shù)后,利用標準化程序?qū)崿F(xiàn)變量重命名及變量標簽的添加及更改。具體程序及參數(shù)解釋見本文的應(yīng)用實例。

(1)SQL數(shù)據(jù)字典簡介

SQL可以通過FROM語句查詢隱藏邏輯庫DICTIONARY下屬成員快速獲取全部邏輯庫、數(shù)據(jù)集、SAS系統(tǒng)選項及與當(dāng)前會話相關(guān)的外部文件的相關(guān)信息。值得一提的是,邏輯庫DICTIONARY僅可以通過SQL進行查詢。但SAS系統(tǒng)還提供了一系列基于SQL數(shù)據(jù)字典〔3〕,明確儲存在SASHELP邏輯庫下的視圖來實現(xiàn)DATA及PROC對數(shù)據(jù)字典的訪問功能。部分常用DICTIONARY成員名稱、包含信息及對應(yīng)視圖見表1。

表1 常用DICTIONARY成員、包含信息及對應(yīng)視圖

(2)全局X語句簡介

X語句是SAS提供的主機操作系統(tǒng)的接口全局語句,分析人員可以通過X語句在SAS會話中直接發(fā)布主機操作系統(tǒng)命令,達到系統(tǒng)操作的目的。例如創(chuàng)建文件夾、拷貝文件、打開文件等功能。值得一提的是,結(jié)合X語句相關(guān)的SAS系統(tǒng)選項,可以讓程序的運行更加靈活〔2〕。X語句相關(guān)的SAS系統(tǒng)常用選項見表2。

表2 全局語句X相關(guān)系統(tǒng)選項及功能

2.變量自定義格式定制、修改、補充的宏程序

在處理定制、修改、補充自定義格式的問題上,可以巧妙利用PROC FORMAT的輸出控制數(shù)據(jù)集選項CNTLOUT=〔4〕,將格式信息轉(zhuǎn)換成輸出控制數(shù)據(jù)集并在數(shù)據(jù)集層面實現(xiàn)自定義格式的定制、修改、補充功能。在上一步工作完成后利用輸入控制數(shù)據(jù)集選項CNTLIN=,通過外部數(shù)據(jù)集創(chuàng)建自定義格式〔4〕。輸入輸出控制數(shù)據(jù)集中關(guān)于格式定義的常用關(guān)鍵變量見表3。

表3 輸入輸出控制數(shù)據(jù)集常用變量功能

同樣,在數(shù)據(jù)集層面的定制、修改、補充自定義格式的工作也可以利用excel界面進行編輯和配置參數(shù),并用全局X語句及相關(guān)的系統(tǒng)選項,實現(xiàn)excel文件的操作并保證程序運行的連續(xù)性。具體程序及參數(shù)解釋見本文的應(yīng)用實例。

應(yīng)用實例

以我們參與的國家科技重大專項“艾滋病和病毒性肝炎等重大傳染病防治”中生命質(zhì)量調(diào)查數(shù)據(jù)為例,說明標準化入口程序的使用過程及部分關(guān)鍵語句的釋義。該數(shù)據(jù)庫共分人口學(xué)特征、健康狀況等7個維度共213個變量。數(shù)據(jù)庫存在多種問題如:變量命名不規(guī)范、變量標簽設(shè)置不合理、變量標簽缺失、變量值標簽缺失、變量值標簽不統(tǒng)一等。本文選取其中有代表性的部分問題變量列于表4。

通過數(shù)據(jù)標準化入口程序完成數(shù)據(jù)的標準化過程如下:

1.調(diào)用宏%CHANGENAMEANDLABEL

宏程序中參數(shù)CHANGENAMEANDLABELIN表示目標數(shù)據(jù)集,CHANGENAMEANDLABELEXCEL表示輸出excel位置及名稱。程序運行過程如下:

(1)生成局部宏變量LIB和DATASET,分別存放通過截取CHANGENAMEANDLABELIN參數(shù)獲得的邏輯庫和數(shù)據(jù)集名稱。如果用戶提供一級名稱則默認LIB=WORK。

(2)通過LIB和DATASET或取數(shù)據(jù)集變量名稱及其標簽,并生成兩個新變量用于存放新變量名及標簽。

表4 流行病現(xiàn)場調(diào)查中的部分問題變量

(3)生成EXCEL參數(shù)表,并利用X語句打開完成參數(shù)配置,見表5(選取部分變量)。

表5 重命名及標簽添加、修改參數(shù)表

(4)讀取參數(shù)配置結(jié)果,讀取新變量名參數(shù)及原變量名分別存放在宏變量NEWNAMELIST和RENAMELIST中,新變量標簽參數(shù)及原變量名至宏變量至NEWLABELLIST和RELABELLIST中,同時計算重命名參數(shù)及變量標簽參數(shù)個數(shù)分別存放在NAMENOBS和LABELNOBS中,為建立循環(huán)自動更新做準備。值得注意的是,可以通過讀取非空的定義參數(shù)使上述RELABELLIST和NEWLABELLIST、NEWNAMELIST和RENAMELIST中的單元數(shù)目相等且一一對應(yīng)。

(5)通過循環(huán)實現(xiàn)重命名、標簽添加和更新。

參數(shù)DEFINEVARFORMATIN為目標分析數(shù)據(jù)集,CLASSFIABLEEXCEL為存放 Exce的位置及名稱,CLASSFIABLELEVELLIMIT參數(shù)為判斷是否為分類變量的數(shù)值標準,高于此水平的便認為定量變量,也就無需進行自定義值標簽。如果要對定量變量進行區(qū)段定義值標簽,可以通過在配置表和輸入控制數(shù)據(jù)集中增加相應(yīng)END變量實現(xiàn),此處不再贅述。

(1)類似%CHANGENAMEANDLABEL,首先生成局部宏變量LIB和DATASET分別存放用戶指定的DEFINEVARFORMATI參數(shù)通過截取獲得的邏輯庫和數(shù)據(jù)集名稱。利用LIB和DATASET通過SQL數(shù)據(jù)字典取得目標數(shù)據(jù)集變量名稱、標簽、長度、類型、格式五個變量儲存至數(shù)據(jù)集。為了程序運行高效簡潔,在上述生成數(shù)據(jù)集中生成新變量VALUELIST,使下一步中讀取變量取值并更新至數(shù)據(jù)集。

(2)讀取每個變量全部取值,用分隔符分隔并更新至數(shù)據(jù)集。

/*讀取數(shù)據(jù)集中所有變量名儲存在varnamelist宏變量中,計算變量數(shù)記如宏變量varno中以便下一步建立循環(huán)*/

(3)在數(shù)據(jù)步中拆分取值并生成變量自定義格式的excel參數(shù)表,并完成參數(shù)配置,見表6(選取部分變量)。

表6 變量自定義格式修改、生成、補充參數(shù)表

讀取參數(shù)表,生成自定義格式并用自定義格式驅(qū)動變量,最終結(jié)果見表7。

(1)生成程序控制參數(shù)LOGIC,如果LOGIC=1則利用原有自定義格式并生成其輸出控制數(shù)據(jù)集_TEMPFORMATDATA。

(2)讀取由分析人員定制的excel參數(shù)表,并完成關(guān)鍵變量的整理使其符合輸入控制數(shù)據(jù)集格式保存為_TEMPVALUEDATA。在此過程中完成格式命名,命名規(guī)則為:變量名+FORM。并利用ID變量標記需要格式驅(qū)動變量,并將所有需要驅(qū)動的變量名存儲在宏變量OUTNEEDFMTVARNAME中。

(3)依據(jù)控制參數(shù)LOGIC完成是否合并_TEMPVALUEDATA和_TEMPFORMATDATA。為了方便說明列舉LOGIC=1時程序如下:

/*生成判斷變量,并依據(jù)判斷變量完成已存在自定義格式的修改*/

/*合并用戶指定的excel的自定義格式及邏輯庫本身自帶的自定義格式信息,完成修改,添加,補充*/

(4)依據(jù)輸入控制數(shù)據(jù)集生成自定義格式,并依據(jù)宏變量OUTNEEDFMTVARNAME完成自定義格式與變量的關(guān)聯(lián),結(jié)果見表7。

表7 通過標準化入口程序的數(shù)據(jù)

討 論

本研究設(shè)計的程序具有自動化和標準化的特點,雖以Epidata數(shù)據(jù)庫為例,但貫穿其中的基本思想及其實現(xiàn)過程、編程方法均建立在SAS數(shù)據(jù)集的層面,所以具有通用性,適用于各類數(shù)據(jù)管理軟件如 excel、CSPRO等,較好地解決了SAS與數(shù)據(jù)管理軟件的接口問題,在自動化分析報告程序的開發(fā)和應(yīng)用中也有著重要意義。但值得注意的是,良好的數(shù)據(jù)結(jié)構(gòu)不僅能提高工作效率,還能保證數(shù)據(jù)分析的準確性和統(tǒng)計報表的規(guī)范性。因此,事先良好的調(diào)查表設(shè)計是至關(guān)重要的一環(huán),某些條件下甚至是其他環(huán)節(jié)無法彌補的,但在現(xiàn)實工作中往往被忽視。在程序的編寫過程中筆者總結(jié)了幾個需要注意的問題,現(xiàn)分述如下:

1.程序設(shè)計和修改時,應(yīng)注意更新變量名與更新變量標簽的語句順序。更新變量標簽的語句應(yīng)在前,以防先更新變量名稱后,更新變量標簽時無法找到原變量名而報錯。將整個過程分為變量名、標簽的操作和自定義格式的操作也出于上述考慮。

2.在程序中大量使用了利用分隔符分隔儲存多個參數(shù)的單個宏變量,在兩個這樣的宏變量進行對接時應(yīng)注意單元間的對應(yīng)關(guān)系,尤其注意首個是分隔符或者因為掃描到空值而產(chǎn)生的兩個連續(xù)分隔符,常常使SCAN函數(shù)無法掃描到正確單元。

3.利用SQL查詢得到的是變量的輸出格式值,而并非數(shù)據(jù)真值,所以在構(gòu)建excel參數(shù)表時變量格式信息是必須的,在進行參數(shù)設(shè)置時應(yīng)綜合考慮。

4.在輸出控制數(shù)據(jù)集與分析人員定義的格式數(shù)據(jù)集合并過程中,常常會存在矛盾觀測。而且分別來源于已存在自定義格式的輸出控制數(shù)據(jù)集和分析人員自定義的格式數(shù)據(jù)集,這部分觀測有相同的起始值、類型和格式名。由于分析人員欲通過其定制的自定義格式數(shù)據(jù)集中觀測替換自定義格式輸出數(shù)據(jù)集的觀測來達到自定義格式某特定值標簽修改的目的,因此就需要對來源進行識別,刪除輸出控制數(shù)據(jù)集中的矛盾觀測,保留分析人員自定義的部分。

5.在關(guān)聯(lián)變量與自定義格式時,利用了自定義變量輸出格式的命名規(guī)則(變量名+form.),方便有效地達成了目的。

6.在利用SQL中SELECT語句DISTINCT關(guān)鍵詞進行取值時,查詢結(jié)果會自動排序,所以缺失值都在第一位。

1.胡靜.EpiData軟件的特點及使用簡介.疾病監(jiān)測,2006(5):273-275.

2.Sas Institute Inc.Sas 9.1.3 Help and Documentation.Cary Nc:Sas Institute Inc,2003.

3.Sas Institute Inc.Sas Institute Inc.Sas9.1.3 Sql Procedure Users Guide.Cary,Nc,2006.

4.Sas Institute Inc.Sas Institute Inc.Base Sas9.1.3 Procedures Guide:Statistical Procedures.Cary,Nc,2006.

主站蜘蛛池模板: 天天色综网| 国模视频一区二区| 免费看的一级毛片| 91精品情国产情侣高潮对白蜜| 免费激情网站| 在线观看国产黄色| 日本精品一在线观看视频| 国产精品美女网站| 午夜啪啪福利| 91po国产在线精品免费观看| 亚洲美女操| 中文字幕永久视频| 亚洲AV人人澡人人双人| 久久99蜜桃精品久久久久小说| 亚洲欧美日韩综合二区三区| 久久情精品国产品免费| 一级毛片视频免费| 狼友视频国产精品首页| 亚洲精品中文字幕无乱码| 欧美日韩在线第一页| 久久精品人人做人人爽| 思思99热精品在线| 福利小视频在线播放| 免费一极毛片| 国产精品短篇二区| 成人免费午夜视频| 久久免费精品琪琪| 久久福利网| 国产精品午夜福利麻豆| 大学生久久香蕉国产线观看| 亚洲精品成人片在线观看| 国产成a人片在线播放| 亚洲AⅤ波多系列中文字幕| 91口爆吞精国产对白第三集| 真实国产乱子伦视频| 白浆视频在线观看| 亚洲Av综合日韩精品久久久| 国产午夜精品一区二区三| 久久久国产精品免费视频| 日韩第九页| 国产精品成人免费综合| 福利国产微拍广场一区视频在线| 国产成人艳妇AA视频在线| 亚洲嫩模喷白浆| 亚洲视频影院| 国产精品性| 国产成人av大片在线播放| 亚洲码在线中文在线观看| 成年人免费国产视频| 国产精女同一区二区三区久| 亚洲国产精品成人久久综合影院| 尤物在线观看乱码| 99久久精品国产综合婷婷| 亚洲娇小与黑人巨大交| 亚洲第一视频网| 天天摸夜夜操| 国产青青草视频| 不卡无码网| 午夜视频www| 久久久噜噜噜| 亚洲狼网站狼狼鲁亚洲下载| 网友自拍视频精品区| 日本午夜网站| 亚洲欧洲天堂色AV| 黄色不卡视频| 久久这里只有精品66| 午夜免费小视频| 999国内精品视频免费| 久久亚洲AⅤ无码精品午夜麻豆| 欧洲高清无码在线| 国产色伊人| 亚洲va在线观看| 国产18在线播放| 91青草视频| 自慰高潮喷白浆在线观看| 午夜人性色福利无码视频在线观看| 亚洲无码精品在线播放| 亚洲日韩精品伊甸| 欧美全免费aaaaaa特黄在线| 亚洲国产精品日韩av专区| 久久99精品久久久大学生| 在线色综合|