摘 要 當前能用來進行統計分析的軟件越來越多,而其中應用最廣泛的兩種就是R與SAS。本文從使用者的角度出發,結合大學中這兩種軟件的使用情況,分別從學生、老師和學校三個方面對這兩種軟件使用問題的反饋進行了分析,并提出了解決這些問題的對策——集成。根據SAS與R兩者各自的特點,對兩者軟件進行集成,便可很大程度解決這兩種統計分析軟件使用中的問題。本文列舉了4種可行的集成方案,并說明了優缺點,為以后的統計分析軟件的集成研究提供了一些理論參考依據。
關鍵詞 R SAS 集成 統計分析
中圖分類號:G424 文獻標識碼:A
Integration of R and SAS Statistical Teaching in Applied Research
JIN Zhezhi, LIU Guanghua
(Department of Mathematics, College of Science, Yanbian University, Yanji, Jilin 133002)
Abstract Current can be used for statistical analysis software, more and more, and one of the most widely used of the two is R and SAS. From the user point of view, this paper combined with the usage of these two kinds of software in the university, respectively from students, teachers, and school three aspects of the two kinds of software use question feedback are analyzed, and put forward the countermeasures to solve these problems, the integration. According to the characteristics of both SAS and R software for integration between the two, can greatly solve the two problems in using statistical analysis software. This article lists the four feasible integration solutions, and illustrates the advantages and disadvantages, and for further statistical analysis software integration research provides some theory reference.
Key words R; SAS; Integration; Statistical analysis
0 引言
隨著電子計算機技術的發展,統計分析理論與實踐已離不開計算機,使統計分析在精度和效率上得到了驚人的提高。因此專門用來進行數據統計分析分析的統計分析軟件也越來越多,比如SAS,R,SPSS,EXCEL等,而SAS與R是其中最為主流的兩種。大學校園里普遍使用的統計分析軟件便是SAS與R,這兩種軟件給學生、老師和學校帶來極大方便的同時,也暴露了各自的不足。針對于SAS軟件,學校認為,購買正版SAS軟件的價格太高了,給學校經費造成巨大壓力,再者軟件更新很快,意味著這種巨大的經費投入是長期的。因此,很多學校迫于經費的壓力,根本沒有使用正版軟件,而是使用所謂破解版等盜版軟件。同時學生和老師認為,因為盜版軟件會缺失正版軟件中一些重要的應用模塊,這就會影響學生以及老師們的學習和研究,同時盜版軟件大多數含有病毒,這也將給學校硬件和軟件設備均帶來很大的威脅,導致學校中的設備總是會出現不能正常使用的情況,這也間接地影響著老師和學生的研究學習。針對R軟件,它并非專門的統計分析軟件,因此在運用于統計分析時,并沒有SAS那么詳細的結果,以及準確的驗證工具。面對學生、老師和學校反饋的這些問題的影響愈來愈深,不得不讓我們去思考這些問題產生的原因及采取的對策。本文從使用者的角度出發,結合大學中這兩種軟件的使用情況,分別從學生、老師和學校三個方面對這兩種軟件使用問題的一些反饋進行了分析,并提出了解決這些問題的對策——集成。根據SAS與R兩者各自的優缺點,對兩者軟件進行集成,便可很大程度解決這兩種統計分析軟件使用中的問題。本文列舉了4種可行的集成方案,并說明了優缺點,為以后的統計分析軟件的集成研究提供了一些理論依據。
1 軟件特點分析
SAS與R都是應用很廣泛的統計分析軟件,因此這兩種軟件的種種弊端很早就已經暴露出來了,但是為什么仍遲遲得不到解決呢?因為它們的那些問題均是源自軟件本身的特點,只要軟件本身不改變,那些問題也就無法消除。本文從學生、教師、學校等三個方面對這兩種統計分析軟件使用問題的反饋出發對這兩種統計分析軟件的特點進行研究與分析。
1.1 SAS軟件的特點
(1)需要購買正版軟件,成本高。SAS是非開源軟件,是商業軟件,所以是需要付費的,并且價格十分昂貴。同時作為一種軟件,它的更新速度是很快的,因此版本換的很快,每一次版本的更換又需要支付費用,這就造成使用正版SAS的成本是很高的。
(2)靈活方便、功能齊全。SAS的宗旨是為所有需要進行數據處理、數據分析的非計算機人員提供一種易學易用,完整可靠的軟件系統。①操用方便:用戶把要解決的問題用SAS語言表達出來,組成SAS程序,提交SAS系統即可。執行的情況和輸出結果都在屏幕上顯示出來。②靈活:SAS系統提供很多語句及選項供用戶靈活地使用某種統計方法。③功能齊全:SAS系統提供的二十多個模塊可供用戶根據實際需要靈活地選擇使用。
(3)編程能力強、簡潔易學。SAS語言是SAS系統的基礎,是用戶與系統對話的工具。該語言的特點是用戶不必告訴SAS“怎樣做”,只需告訴它你要“做什么”就行了。
(4)處理與分析任意組合。SAS程序的結構由兩個基本步驟任意組合而成。DATA步用于對數據的加工處理;PROC步用于分析數據和編寫報告。
(5)適用性強、應用面廣。SAS系統適用于初學者或有經驗的用戶;能滿足從事行政、管理、分析、編輯等部門人員對信息需求的用戶。SAS系統可用來解決自然科學和社會科學各個領域的各種問題。
1.2 R軟件的特點
(1)R 是自由軟件。也就是說,它不會向你收取任何費用,但是它的能力不會比任何同類型投入成千上萬美元價值不菲的商業軟件差。從功能相似的角度來說,R 和MATLAB 最像的。
(2)R是一個全面的統計研究平臺,提供了各式各樣的數據分析技術。幾乎任何類型的數據分析工作皆可在R中完成。并且通過R 你可以和全球一流的統計計算方面的專家合作討論,它是全世界統計學家思維的最大集中。當你加入了R 的郵件列表,每天都會收到五六十份關于R 的資訊郵件。
(3)R是一個可進行交互數據分析和探索的強大平臺。因為R是可進行交互數據的強大平臺,因此在R軟件中任意的一個分析步驟的結果均可以被輕松保存、操作,并作為進一步分析的輸入,這使得R語言的操作性極強。
(4)R 和其他編程語言/數據庫之間有很好的接口。R可以輕松地從各種類型的數據源導入數據,包括本文文件、數據庫管理系統、統計軟件,乃至專門的數據倉庫。它同時可以輸出并寫入到這些系統中。代碼整合的時候感覺R 為你提供了一系列對象,你用其他語言只要調用這些對象就可以了。這對數據整合工作非常有用。
(5)R擁有頂尖水準的制圖功能。無論多么復雜的數據,R都可以將它們可視化,R擁有最全面且最強大的可視化這一系列可用功能。
(6)R可運行與多種平臺上,包括Windows、Unix、Linux等。因為自由開源軟件具有零成本或低廉的成本的特點,十分有利于優質資源的開發與共享,因此自由開源軟件在各個領域的應用已成為主流趨勢。因此在操作系統上也將會是百花齊放,像Linux這種開源操作系統普及率將會越來越高,這時候具備多平臺運行能力的R將具備極大的優勢。
1.3 為什么R與SAS要集成
很多人在比較 R、SAS、SPSS 等統計軟件時,總是偏向某一種軟件而對其他軟件一味地指責。筆者認為,競爭可以帶來技術的創新與進步,但是任何一款軟件都不可能集所有優點于一身,能夠包治百病,滿足所有用戶各種各樣的需求,所以軟件之間的合作對使用者而言更有意義,也是勢在必行。
對于R與SAS這兩種統計分析軟件來說,它們有各自的優勢,也有各自的問題,競爭促進創新,合作才能帶來雙贏,因此兩者的集成能融合各自的優勢解決各自的問題,從而更能滿足使用者的各種需求。
1.4 可行的R與SAS集成方案及其優缺點
(1)通過 SAS/IML 在SAS里面提交R代碼。SAS/IML 9.22 推出了一個新功能:用戶可以在 IML 里面執行 R 代碼,R 和 SAS 的數據也可以相互交換。該種集成方案的優點有:①因為R代碼本質上是在R里運行,所以全面支持R的各種模型和函數;②這種集成方案支持32位或64位的Windows、Linux操作系統;③這種集成方案在數據交換、錯誤捕獲等方面表現不錯,并且支持SAS Format。同時該種集成方案的缺點有:需要購買 SAS/IML(9.22版本或更高版本),成本高。
(2)通過 SAS Model Manager 將R模型導出生成的PMML文件翻譯成SAS代碼。Predictive Model Markup Language(PMML)是由數據挖掘小組(Data Mining Group,DMG)牽頭,眾軟件廠商共同研究制定的一套用于表示模型的標記語言,目的是為了在不同軟件產品之間實現模型的共享。這種集成方案的優點有:①可以將生成的SAS代碼快速集成到各種基于SAS開發的應用系統中;②可以將R模型和SAS模型進行預測性能方面的比較;③可以對R模型和SAS模型進行性能監測。同時這種集成方案的缺點有:①需要購買 SAS Model Manager(12.1版本),成本高;②SAS Model Manager目前也僅支持幾種常用的PMML模型。
(3)通過宏 Proc_R 實現在SAS里面提交R代碼。PROC_R 于2012年發表在 Journal of Statistical Software 上,是一位華人 Wei Xin 在美國羅氏制藥公司工作期間發表的,是使用了管道技術以批處理的方式執行R代碼。這種集成方案的優點有:①因為R代碼本質上是在R里運行,所以全面支持R的各種模型和函數;②不需要購買 SAS/IML,成本低。這種集成方案的缺點有:①只支持 Windows 系統,但是使用者如果有一定編程功底,可以將源代碼改造成Linux可用的版本;②數據交換通過 csv 文件實現,可能不支持 SAS FORMAT;③這種集成方案在錯誤捕獲等方面略弱。
(4)將R生成的神經網絡和決策樹模型翻譯成SAS代碼。用 R 建神經網絡模型,然后將模型翻譯成 SAS 語言格式的評分代碼,并在SAS 里對新數據進行預測。這種集成方案的優點有:①可以將生成的SAS代碼快速集成到各種基于SAS開發的應用系統中;②這種集成方案在Windows和Linux操作系統上都是可行的;③不需要購買SAS/IML或者SAS/EM,成本低。這種集成方案的缺點有:①這種集成方案目前只支持神經網絡和決策樹模型,應用范圍相對較窄;②這種集成方案是無法處理自變量取值缺失的情況。
2 結論
本文從學生、老師和學校三個方面對SAS與R兩種統計分析軟件的問題以及特點進行了分析,并提出了有效解決兩種軟件各自問題的對策——集成。軟件各自出現的問題來自各自軟件的特點,集成綜合兩種統計分析軟件的優點,可解決兩種軟件各自在使用中出現的問題,研究結果給以后統計分析軟件的集成研究提供了理論參考依據。針對學生,老師以及學校需求的多樣性特點,列舉出了4種可行的集成方案,各高校可根據學校的實際情況,選擇合適的集成方案以達到學校的實際需求。
參考文獻
[1] 馮雪楠,崔玉杰.實用統計軟件比較分析[J].北京工業大學學報,2008.20(1):62-65.
[2] 尹永學.自由開源軟件在高等教學中的應用[J].高教視窗,2009:156-157.
[3] 郭貌,李克.聯合SAS和R分析醫學數據舉例[J].2012.29(2):288-290.
[4] 薛毅,陳立萍.統計建模與R軟件[M].北京:清華大學出版社,2007.