基于龍芯3A的編譯器及操作系統深度優化

2017-06-01 08:48:21何信華連彥澤王新

中國高新技術企業 2017年9期

何信華　連彥澤　王新

摘要：為了深度發揮龍芯3A1500的性能，文章提出了一種基于龍芯3A的編譯器及操作系統深度優化方法，使用loongson3a指令集（mips64r2是loongson3a指令集的子集）重新編譯了Fedora21（即Loongnix1.0）操作系統。經過試驗驗證，優化后的操作系統性能大幅度提升，部分函數性能提升6倍以上。

關鍵詞：龍芯處理器；編譯器；操作系統；深度優化；基礎指令集文獻標識碼：A

中圖分類號：TP302 文章編號：1009-2374（2017）08-0044-02 DOI：10.13535/j.cnki.11-4406/n.2017.08.021

1 概述

重新編譯srpm包共14781個，編譯后生成39369個rpm包，該系統原生支持64位，同時兼容32位應用程序，包括O32和N32，集成了office、瀏覽器、編譯工具、調試工具、QT圖形工具、媒體播放、云計算、數據庫等各類應用，是迄今為止龍芯處理器上最完整的操作系統，提供海量軟件倉庫。

2 編譯器優化

GCC編譯器添加了一系列針對龍芯GS464處理器核（簡稱464核）的定制和優化，主要工作如下：

2.1 GS464、GS464E處理器核基礎支持

將464核的基礎指令集從mips64升級到mips64r2。升級后，編譯器代碼生成時以mips64r2的標準進行，與mips64相比，指令集中將增加如下指令：（d）ror、（d）seb、（d）seh、（d）ext、（d）mthc1、（d）mfhc1。

根據464核官方文檔中描述的指令延遲特征，建立了后端流水線描述；添加龍芯三操作數乘法、除法、取模以及load到0號寄存器的預取指令模板支持；針對龍芯464處理器核在O32 ABI下（即FR=0），浮點寄存器應按照mips3模式使用的特征，對奇數號浮點寄存器的使用規則進行了定制；添加-march=loongson3a選項，該選項雖然名字叫做3a，但實際上可以控制3A/3B/2H/2J處理器的優化。在GCC代碼中，可以通過TARGET_LOONGSON_3A宏來實現對464核的定制優化。

2.2 函數序跋的128位訪存優化

本優化在GCC的pro_and_epilogue遍實施，該遍生成函數的序和跋的RTL指令序列，該遍通過gen_prologue（）（由模板define_expand prologue生成）調用到mips后端的對應函數，分別為mips_expand_prologue（）和mips_expand_epilogue（）。在這兩個函數中，分別有對應于寄存器保存（序）和寄存器恢復（跋）的代碼生成函數，通過函數mips_for_each_saved_reg來對每一個需要保存和恢復的寄存器生成對應的store和load的RTL指令。

為了實現該優化，為mips_for_each_saved_reg增加一個參數，用于區分保存/恢復。當同時滿足條件時，進行特殊的代碼生成過程，否則依然按照原來的方式生成寄存器保存和恢復序列。

實現該優化后，可以提高代碼密度，減小代碼尺寸，并且減少訪存指令數量，從而減小訪存隊列和訪存部件壓力。但是由于龍芯3A處理器和3B處理器對128位訪存指令的實現細節不同，對3A處理器而言，128位訪存指令是在浮點訪存功能部件中實現的，使用時需要內核將浮點協處理器置為可用狀態，而內核出于效率考慮，一般不使用浮點指令。因此3A處理器不宜在系統態使用128位訪存，而3B處理器在用戶態和系統態下均可使用。該優化spec2000平均提升5～6%，有單個測試用例提升10%。

2.3 64位數組指針乘法優化

464核由于不對hi/lo寄存器重命名，因此在執行m指令時，后續指令都要暫停取指重命名以等待其結果。在gcc的-mips3指令集選項下，乘法指令是雙操作數的（mult和multu），結果隱式寫入hi/lo寄存器，當使用-mips64指令集選項后，編譯器能夠產生三操作數的乘法指令，但僅局限于將兩個源通用寄存器內的32位的有符號數相乘得到一個64位結果存入目標通用寄存器。

龍芯擴展指令集提供了將兩個64位整數相乘的低64位結果存入結果寄存器的指令gsdmult和gsudmult，且龍芯還具有在執行32位定點alu操作和訪存操作時，將通用寄存器的高32位進行隱式的符號擴展的特點。

該優化可以在減小代碼密度的同時，提升運算速度，運算速度的提升來自于三個方面：首先，指令變少；其次，會堵流水線的hi/lo移動指令被消除；最后，鏈式alu操作減少，降低了464核上alu到alu的forwarding具有一拍延遲的影響。

該優化可以用于所有具有464核處理器的系統態和用戶態上，無任何副作用。

2.4 將464核流水線描述實驗性的改為跟5kc一致

在對coremark程序的指令調度調優中，發現將流水線描述改成跟5kc一致后，性能有2%～3%提升，但對SPEC2000進行測試，卻發現26個程序有升有降。

主要修改的是mips.md和loongson.md文件。需要注意的細節是mips.h文件中的枚舉enum processor_type以及mips.c文件中的static const struct mips_rtx_cost_data mips_rtx_cost_data[PROCESSOR_MAX]數組，以及mips.md文件中的（define_attr “cpu”…）語句中，關于不同處理器名稱的出現順序應該一致，否則將出現rtx insn的cost和流水線描述不能與實際的-march選項所選擇的處理器相匹配的問題。而mips.c文件中的mips_cpu_info_table卻無需跟另外三者順序完全對應，該表的查找是采用字符串hash進行的。

優化5的兩個patch，除了將在-march=loongson3a選項下的指令調度全部都變成以5kC的方式進行調度，并對與464核的指令集有了更多的描述。

2.5 指令實現數學庫中round、lround、trunc、cabs、floor和ceil函數

glibc中的數學函數round、lround、trunc和cabs，這些函數使用c語言實現，通過編譯器生成的二進制目標碼執行效率低。由于round、lround、trunc、cabs等指令與glibc中對應函數舍入方式不同，無法直接替換為對應指令。通過gcc中的__builtin_round、__builtin_lround、__builtin_trunc等接口，實現glibc中對應函數的功能。性能提升明顯，其中spec2000中189.lucas程序提升20%。

glibc中的數學函數floor和ceil，這些函數使用c語言實現，通過編譯器生成的目標碼執行效率低。由于floor、ceil等指令與glibc中對應函數舍入方式不同，無法直接替換為對應指令。通過gcc中的__builtin_floor、__builtin_ceil接口，實現glibc中對應函數的功能。性能提升明顯，其中spec2000中177.mesa程序提升15%。

3 數學庫優化

Fedora21基于GNU的glibc-2.20版本優化了數學庫及一些string類函數，glibc的數學庫計算精度滿足IEEE754標準。操作系統的核心庫glibc（數學庫是其核心的一部分）使用上述優化的GCC版本編譯，充分發揮loongson3a指令集優勢，流式DMA運算特性支持，能夠數倍甚至數量級倍提升三角函數、矩陣運算、FFT等的性能表現。

龍芯處理器提供了abs、sqrt等專用指令，編譯器不會直接生成這些指令，從而采用效率很低的C代碼，通過手寫匯編指令的方法直接使用這些專用指令。分別執行百萬次abs和sqrt函數，使用abs指令的性能與C函數相比，性能提高32%，使用sqrt指令的性能與C函數相比，性能提高6倍。

編譯器提供了大量的編譯選項，不同的編譯選項影響生成的目標代碼質量，最終影響程序的運行時間，采用編譯選項搜索優化，找到適合龍芯處理器和ZY計算的最優編譯選項。例如，統計6種三角函數的200萬次計算時間，-O3情況下計算時間為12.3秒，-O2情況下計算時間為16.4秒，-O3與-O2相比，計算時間減少了25%。

4 QT優化

目前為止已經完成了初步優化，優化的主要工作如下：（1）QT4.7.4和QT4.8.6的向量指令優化；（2）QT4.8.6中獨立繪制過程的部分算法級優化；（3）QT4.8.6中OPENGL后端繪制過程的橢圓繪制的優化；（4）QT4.7.4和QT4.8.6中內存填充過程的優化等。

5 試驗結果

multi_calc包括sin、cos、asin、acos等32個函數，是將測試2中的函數放在一起循環百萬次計算，也分為dbl-64精度和flt-32精度。可以看出與單個函數測試均值的能提升基本一致，flt-32精度下fedora21優化較fedora13提升較大。

6 結語

基于龍芯3A對編譯器及操作系統進行了深度優化，采用算法和內嵌匯編指令的方法優化熱點函數，提高操作系統的整體性能。通過內嵌匯編指令，一方面可以直接使用龍芯專用指令；另一方面可以減少指令數量，提高指令的執行效率，從而減少程序的運行時間。通過裁剪保留操作系統最基本的核心功能，從而保證操作系統的最小CPU和內存消耗，滿足不同應用場景的需要。

參考文獻

[1] 胡奇明.VxWorks操作系統的重新編譯和優化研究與

實現[D].國防科學技術大學，2008.

（責任編輯：蔣建華）

中國高新技術企業2017年9期

中國高新技術企業的其它文章: 鈣法三羥甲基丙烷的生產工藝研究; 水泥穩定碎石基層的質量通病及預防措施探析; 民用飛機平顯系統架構及顯示設計研究; 建筑工程測量中存在的問題及應對措施分析; 對酒店辦公裝修需求開展施工管理工作探究; 文物博物館安全防范工程入侵報警系統設計