高性能嵌入式計算幾個關鍵問題及其研究進展

2013-01-01 00:00:00王慶季振洲朱素霞

智能計算機與應用 2013年4期

摘要：隨著多核處理器芯片在嵌入式應用領域越來越受到關注，提高應用程序開發產能同時獲得并行性能收益是多核大眾化并行計算研究的核心目標。本文著重綜述了嵌入式應用領域面臨的三個關鍵問題。首先，對當前的高性能嵌入式計算與超級計算做了比較，并對嵌入式應用領域做了分類總結。其次，對當前的適用于嵌入式的片上多核處理器架構做了研究。最后，綜述了多核并行編程的方式的研究現狀并總結了嵌入式多核并行未來的研究問題。

關鍵詞：多核處理器，高性能嵌入式，并行計算，嵌入式多核

中圖分類號：TP311.5 文獻標識號：A 文章編號： 2095-2163（2013）03-

Research on High-performance Embedded Computing

WANG Qing1， JI Zhenzhou1， ZHU Suxia2

（1 School of Computer Science and Technology， Harbin Institute of Technology；2 School of Software， Harbin Institute of Technology， Harbin， 150001， China）

Abstract： While more and more attention are paid to the multi-core processor chips in the field of embedded applications， to improve application development productivity and get parallel performance gains of multicore are becoming the goal of parallel computing. This article focuses on the three key issues facing the field of embedded applications. First of all， the paper compares the current high-performance embedded computing and supercomputing and classified the field of embedded applications， second， studies the current architecture of the embedded multi-core processor technology. Finally， the paper proposes the overview of multi-core parallel programming way and summarizes the research questions in the future embedded multicore parallel.

Keywords： Multicore； High-performance Embedded Computing； Parallel Computing； Embedded Multicore

0 引言

在數字信息技術和網絡通訊技術高速發展的后PC（Post-PC）時代，嵌入式系統已經遍及科學研究、工程設計、軍事技術、各類產業和商業文化藝術以及人們的日常生活的方方面面。隨著國內外各種嵌入式產品的進一步開發和推廣，嵌入式系統與人們的生活越發緊密地結合。現今市場上的手機、PDA、MP3播放器等大眾消費電子類產品均屬嵌入式系統。嵌入式系統還涉及眾多應用領域，如電信網絡控制、路由器、交換機、網關、工業醫療控制、監控設備等。嵌入式系統銷售數額每年可達數十億美元，其市場份額在過去的幾十年中正在不斷地增加。

通常，嵌入式系統可定義為：以應用為中心、以計算機技術為基礎、軟/硬件可裁剪、普適于應用系統對功能、可靠性、成本、體積、功耗具有嚴格要求的一類專用計算機系統[1]。

傳統上嵌入式系統設計是以低功耗為首要目標，但是隨著計算密集型的嵌入式應用的不斷擴寬，最近嵌入式系統已經轉向高性能嵌入式計算（High-performance embedded computing，HPEC）[2]。面對日益復雜的嵌入式應用，片上多核處理器（CMP）可以作為高性能嵌入式計算的一個有效解決辦法。CMP采用多個性能適中的處理核心提高能量效率，使用高的數據級并行或者線程級并行提高整個處理器的性能。在高性能嵌入式計算中通過增加處理器的內核數來抵消為降低功耗而犧牲時鐘頻率帶來的性能影響[3]。多處理器片上系統（Multi-processor Systems-on-Chip，MPSoC）憑借其高性能、強大的并行處理能力和多選擇、靈活的系統可配置性逐漸成為高性能嵌入式計算的另一個有效解決辦法。盡管CMPs和MPSoCs都能應用到嵌入式平臺上，但是MPSoCs又不同于CMPs，MPSoCs可以針對特殊嵌入式應用的需要提供一個自定義可配置架構（包括特殊指令集），比如實時性、可靠性等。在嵌入式領域，充分利用CMPs和MPSoCs帶來的高性能和低功耗技術可以滿足不同應用需求。

1 高性能嵌入式計算分類

1.1 高性能嵌入式計算

近年來，高性能計算的研究主要集中于超級計算機（supercomputers） [4-7]，但是在對功耗要求同等重要的高性能嵌入式計算領域的研究卻相對較少[8]。嵌入式高性能計算領域的功耗和性能問題也同樣存在于超級計算機中，因為最先進的超級計算機也是利用了片上多處理器，比如Jaguar超級計算機就是由224 162個AMD Opteron 6核片上處理器組成的[9]。但在應用方面，超級計算機與高性能嵌入式計算的區別主要表現在三方面：

（1）超級計算機的應用主要是數據集中的并行計算，每次計算通過對所有的處理單元分配相應數據子集的獨立計算任務。而嵌入式應用主要是由多種任務組成的，每個任務在單個或者幾個處理器上執行，并且這些任務往往具有時效性限制。

（2）超級計算機的應用主要集中在充分利用眾多處理器上的核數。而高性能嵌入式的應用可擴展的處理器核數卻小得多。

（3）超級計算機的應用首要優化目標提供計算性能，當然現在能量消耗也已經成為第二個重要的衡量指標。而對于高性能嵌入式計算來說，性能和能耗優化卻是同等重要的目標。而且，可靠性和容錯計算在嵌入式應用中也尤為重要。

1.2 嵌入式應用分類

隨著技術的進步，高性能嵌入式計算的拓展應用已遍布各個領域（例如，消費電子產品，汽車，工業自動化，網絡，醫療，國防，航空航天，空間計算等）。由于經濟的壓力對嵌入式系統發展的影響，許多嵌入式應用需要其計算平臺具備穩定可靠，易于使用，高性能及低成本等優勢特性。不同的嵌入式應用具有不同的特征。為了更詳細地分析高性能嵌入式計算，從應用方面可以把高性能嵌入式計算分為以下幾個部分：

1）吞吐密集型計算。吞吐密集型計算是指需要處理高吞吐量的嵌入式應用。比如在嵌入式應用占據相當部分的網絡和多媒體應用[10]就是典型的吞吐密集型應用，因為有關服務質量（QoS）需求的不斷提高推動嵌入式平臺提供高速高吞吐量的處理能力。在網絡應用上，嵌入式系統硬件平臺需要網絡協議棧以及與其他網絡協議連接設備。在系統中實現對連接嵌入式設備或部件到網絡支持遠程設備管理，包括應用程序自動升級等。傳統的只能由超級計算機解決的大規模復雜性問題（例如，氣候研究，氣象預報，分子模擬，物理模擬和數據挖掘等），已經可以使用基于網絡的高性能嵌入式計算獲得有效解決，通過網絡計算（如云計算，物聯網技術）將數以千計的嵌入式系統的邏輯互連，從而實現高性能計算，也提高了服務質量。例如，在多媒體應用中，針對視頻流處理，可能需要幾秒十億次運算數（GOPS）的高吞吐量[11]。

（2）熱受限應用。熱受限應用是指如果平臺設備溫度增加到一個閾值時，可能會導致應用執行結果不正確的嵌入式應用。根據不同的目標市場，嵌入式應用程序運行時溫度多會高于45℃，比如在電信通訊嵌入式設備上溫度通常超過55℃，而在傳統的計算機系統上，設備溫度一般不超過38℃[12]。而且在嵌入式平臺上，典型的主動冷卻系統（風扇為主）對大多數嵌入式應用并不可行，結果只能采用被動和無風扇的散熱解決方案。因此，在熱量約束的嵌入式應用中，惡劣和高溫的作業環境，是高性能嵌入式計算面臨的最大挑戰，若加上有限的計算空間和能耗預算，更加劇了這些挑戰。

（3）可靠性。1996年6月4日，在歐洲“阿麗亞娜5型火箭” 的首次鑒定發射中，因計算機導航程序故障導致了失敗，其主要原因是設計過程中雖然重視了硬件的可靠性，但對于軟件可靠性的重要性卻沒有充分認識[13]。隨著計算機技術及相關工業領域應用的日新月異，嵌入式系統在多個行業如：航天、能源、工控等都被大量應用。這些關鍵領域的應用，因其利益可觀，而系統事故代價卻巨大，客觀上對嵌入式系統可靠性和處理性能等方面提出更高的要求。這些應用在嵌入式系統中通常需要運行很多年不發生錯誤或者要求能從錯誤中恢復。因為可靠性要求高的嵌入式應用在惡劣的環境中部署后再實現拆除和維護都是不可行的。因此，相比傳統的計算機系統，嵌入式系統在硬件和軟件上都要經過更為精細的可靠性開發和測試。關鍵嵌入式系統（如汽車安全氣囊，太空任務，飛機飛行控制器等），具有非常高的可靠性要求。例如，商業客機的分析控制嵌入式系統的可靠性要求達到每小時10-10次故障，任何一個故障都有可能導致飛機招手無法挽回的損失[14]。

（4）實時性應用。嵌入式系統在與嵌入對象體系交互時，要滿足事件交互過程的響應要求。在嵌入式應用系統的具體設計中，必須考慮系統中每一個任務運行時，能否滿足響應時間的要求，這就是嵌入式應用的實時性問題。除了糾正功能操作，實時的嵌入式應用程序有著更多的嚴格時序約束。雖然嵌入式的實時操作嚴格意義上并不代表著高性能，只有在滿足任務的最后時間期限的情況下才需要高性能計算。實時操作系統（Real-time operating systems，RTOSs）就是能夠保證嵌入式應用實時性的操作系統。

（5）并行與分布式應用。并行和分布式應用選擇了分布式嵌入式設備進行合作、聚合嵌入式應用所需要的功能或資源。無線傳感器網絡（Wireless sensor network，WSN）應用就通過傳感器節點收集和統計傳感器的靜態或者動態數據，并使用分布式故障檢測算法。當前許多嵌入式應用借助了不同的并行方法，如指令級并行（instruction level parallelism，ILP）和線程級并行（thread-level parallelism，TLP）。高性能嵌入式計算也需要對當前的嵌入式應用通過并行來實現高性能和低功耗。

2高性能嵌入式計算硬件技術

嵌入式平臺可以使用不同的高性能嵌入式計算技術（如硬件，中間件和軟件等）來實現嵌入式應用的高性能、低功耗計算。吞吐密集型應用在硬件上可以利用先進體系結構技術，比如，tiled多核體系結構[15]，高帶寬互連機制等，在硬件支持的中間層可以采用推測線程執行，如DVFS，超線程等技術，在軟件層上則采用數據預取，任務調度和任務遷移等技術。這些高性能嵌入式計算技術可以結合具體使用來滿足嵌入式應用，并且這些技術也可以提高應用更多方面的性能特征。

為了滿足不同的嵌入式應用的需求，高性能嵌入式計算在體系結構上采用CMP或者MPSoC結構。當前片上多核處理領域從處理器核結構布局上可以分為同構CMP，異構CMP[16-18]，聯合（conjoined-core）CMP[19]和分片式CMP等4類，判斷的依據則是根據芯片，也包括所有處理核心，是否采用相同的結構布局或者相同的指令集。

常見的同構CMP由結構和功能相同的通用處理器核構成，往往片上的處理器核心具備相同的執行模式和相同的處理性能。ARM11 MPCore[20]就是典型的集成了4個ARM處理器核形成同構處理器的實例。該片上多處理器采用極為緊密的耦合方式相互關聯，是一種共享存儲式的CMP。ARM11 MPCore多核處理器支持完全一致的數據高速緩存，提供了獨特的支持對稱多處理模式（symmetric multiprocessing， SMP）和非對稱處理模式（asymmetric multiprocessing， AMP），或者兩種方式組合的靈活的多處理器架構設計。 MPCore處理器通過共享緩存數據的能力來提高嵌入式應用程序的性能，并且利用多種處理器之間的負載均衡的方法提升了多任務或者多線程應用程序的處理能力。

異構CMP通常是在片上集中多個不同的大小，不同性能或者不同指令集的處理器核心。異構CMP主要用于面向特殊應用的場合，比如某一類處理任務表現了性能或者功能方面的側重，增加DSP核以提高信號處理效率，集成圖形芯片提高圖形處理能力和配置VLIW針對多媒體應用，等等[20]。例如IBM提出的典型民用多媒體異構處理器Cell，由一個Power結構的處理器核心（PPE，Power Processor Element）和八個輔助處理器（SPE，Synergistic Processor Element）構成。為了更清晰地描述同構CMP與異構CMP的區別，表1 給出了同構CMP和異構CMP的對比結果。

Rakesh Kuma等提出conjoined-core CMP是一種新型的片上多核結構，在此CMP結構中，相鄰的處理器核心間通過拓撲連通所有可行的共享資源（例如，浮點計算單元（FPU），指令和數據高速緩存等）以減少芯片面積，并且對性能產生的影響最小，同時提高了整體計算效率。由于conjoined-core CMP是以拓撲結構為導向，在布局上必須與體系結構協同設計，否則，結構的共享資源就可能脫出處理器核心緊密耦合或者造成更大代價的通信成本。針對該處理器結構中的共享資源，最簡單的使用方式通過靜態調度，處理器核心即可通過不重疊的指令周期來實現資源共享。例如，一個內核在偶數周期可以使用共享資源，而其他核心在奇數周期使用共享資源，或者一個核心在前5個周期使用共享資源可，下一個核心在接下來的5個周期使用共享資源，依次類推。結果表明，conjoined-core CMP結構可減少50%的芯片面積并且比常規CMP結構提高了9-12%性能。

近幾年，由于CMP的核心數量不斷增長，業內提出了一種基于片上互連結構的分片式CMP的新結構。在單個tiled片結構上，每個節點包括了處理器核心，片上高速緩存以及互連功能結構。由于該CMP具有集成度高，擴展能力強等設計特點，現已被很多研究機構和微處理器廠商所采用，其中包括：Stanford大學研發的16核Raw處理器，Intel設計的Tera-Scale、80核Tera處理器以及100核以上規模的Tile-gx處理器。

3 多核并行編程技術

當前，為了降低編寫并行程序的難度，許多研究機構和公司提出了系列新的語言，包括Atomos，Cilk，StreamIt等。在并行編程和調試上，開發人員則必須接受特殊培訓使得這些人員能夠處理并行中出現的死鎖，活鎖和數據競爭沖突等問題。將現有的單線程應用程序轉換為并行多線程程序是一個不小的挑戰，因為有些單線程應用程序不是很容易并行化而且在并行化過程中可能也會產生一些不可預知的錯誤。為了更有效地利用多核系統，又必須挖掘應用程序提取細粒度并行，這項工作不僅是繁瑣，而是要在其后進展中也要繼續開發針對不同多核平臺的并行程序，實現并行程序的可移植性和性能兼容性。

因此，多核編程的難度和復雜性不可避免地首推程序員，特別是對那些在嵌入式多核平臺上的編程。在嵌入式領域，編程語言長期以來依靠匯編代碼或低級別的C語言代碼，必然過多地依賴于軟件工具，如編譯器和運行時優化等。

在多核編程方面，高性能并行代碼一般是由手工編寫或編譯器自動實現。針對不同的應用特性，當前業界有不同形式的并行方法提高計算效率[1]。下面將深入探討在當前嵌入式研究領域中存在的各類并行方式。

（1）指令級并行（ILP，instruction-level parallelism）。指令級并行是指多個可以重疊的處理器指令在同一周期內并發執行，如圖1 所示。超標量和通用處理器體系結構開發指令級并行主要是通過硬件識別獨立的指令然后多發射實現的。但是，這種處理器結構硬件的復雜度較高，并且會引起更高的功耗，因此該種處理器結構并不適于高性能嵌入式計算領域。

超長指令字（VLIW）處理器的出現使得嵌入式領域指令級并行開發獲得了一個新的發展機遇，特別是針對信號處理的應用。與超標量處理器不同，VLIW處理器每時鐘周期發射固定數目的指令，這些指令或者被組織成一條長指令的形式，或者組合成一個固定的指令包，指令之間的并行由關鍵指令顯式地標示出來。因此，編譯器在識別和標示指令級并行時扮演著非常重要的角色，并且負責調度這些獨立的指令在同一時鐘周期內相應執行。在嵌入式領域中的VLIW處理器應用比較廣泛的是TI C6x DSP處理器，在每個時鐘周期內可以發射8個運算操作[2]。

（2）數據級并行。數據級并行方法是指同一運算操作指令在同一時間對數據集的不同部分實施并行運算，如圖2所示。數據級并行大量應用在信號處理，圖像處理以及大型數據密集型計算等應用方面。數據級并行起源于SIMD和矢量運算模型，從20世紀90年代中期到后期，幾大廠商的通用處理器開發了擴展SIMD指令集，比如英特爾SSE，SSE2，AMD的3DNow，ARM NEON和摩托羅拉AltiVec指令級。引進這些具有SIMD模型的擴展指令集進一步推動了DSP技術的創新發展。通用處理器的一個基本操作能同時作用多個元素的能力支撐即成為SIMD并行處理。通過SIMD擴展，捕捉信號處理、多媒體等應用中潛在的數據并行特性來加速其應用進展，但在大多數情況下，數據級并行仍然是由編程人員進行明確識別。

當前的圖形處理單元（GPU）采用更廣泛的SIMD模型實現，比如英偉達（NVIDIA）的通用并行計算架構（Compute Unified Device Architecture）[3]。該設計包含了CUDA指令集架構以及GPU內部的并行計算引擎。現在開發人員可以使用C語言來為CUDA架構編寫程序，編寫后的程序在支持CUDA的處理器上能以超高性能有效運行。CUDA也支持GPU和CPU之間的協調計算，實現了在CPU上運行應用程序的串行部分，而將并行部分映射到GPU進行運算。自從2007年公布CUDA架構以來，可以證明在許多計算密集型的信號處理和多媒體圖像處理等應用上均得到顯著的速度提升[4-5]。

（3）循環級并行。循環級并行是一個在科學計算領域通用的并行處理方法。該并行方法就是將同一個循環中不同的獨立迭代分配到不同處理器上并行處理的過程，具體如圖3所示。在編譯器領域，針對循環自動并行化，當前很多的研究機構和大學已經取得了相當成熟的工作成果。如伊利諾伊大學的Polaris，斯坦福大學的SUIF和Rice大學的Parascope編譯器等。編譯器在對程序代碼中的循環并行發揮了重要的作用，在預編譯階段，編譯器對程序代碼中的數據依賴性分析，并識別獨立的循環迭代，再通過靜態分析就可以準確實現循環并行。而且，還可通過代碼變換的方式挖掘串行程序的并行可能[6]。比如，為了連續訪問數據的循環次序調整的循環變換技術（loop interchange）；為提高數據在緩存中重用率的循環分塊（loop tiling）技術；為使數據的訪問能夠進行流水或給編譯器提供更多優化資源的循環展開技術（loop unrolling）等。編譯器使用這些技術，使得同一種循環算法在同一計算平臺上呈現了多種不同的實現形式。除了循環的自動并行方法，程序員另外又對并行循環采用顯式并行的指導性語言表示并行計算，比如OpenMP并行語言編程。

在嵌入式應用計算領域中，循環級并行是最容易開發、應用也是最廣泛的并行形式[7]，循環級并行可以通過編譯器在編譯階段得以實現，因此循環級并行在嵌入式多核平臺上將是主流的并行方式。

（4）流水線并行（pipeline parallelism）。在流水線并行操作模型（也稱為流編程，或流模型）中，應用程序將分解成一系列的階段，每個階段上對一組數據進行部分處理，完成后則將其轉發到下一個階段處理，并開始下一組數據的工作。這些數據元素通常是一個時間序列或者某數據集的獨立子集。在這種情況下，一系列相連模塊并行處理獨立數據元素，如圖4所示。流水線并行常常用于那些有獨立計算資源，即可以同時從磁盤讀取、計算和使用硬件進行繪制的數據集。流水線并行處理的數據集必須是一個時間序列或者可以分成獨立的子集，這些處理數據一部分一部分地像“流”一樣通過可視化管道。流水線并行的各處理模塊（各并行處理部分）占用著不同的計算資源。

流水線并行的主要思想是通過劃分多階段來增加throughput。流水線之間用FIFO隊列鏈接，利用了生產者-消費者關系的數據局部性優化。流水線并行主要通過平衡各個管線階段來提高效率。當前主要應用的流水線并行的流編程語言有StreamIt， Brook， CUDA， SPUR， Cg， Baker，和Spidle等。StreamIt是麻省理工學院針對RAW 流處理器開發的一種編程語言，是Java 語法的一個子集擴充。該語言將流處理器的處理過程看做一個個獨立的計算模塊filter，每個filter 都有自己的存儲器，能夠通過所提供的高帶寬的數據通路和自己最近鄰居通信。當前在眾多數字信號處理應用領域，已有一套StreamIt基準程序。比如快速傅立葉變換（FFT），離散余弦變換（DCT）和MPEG解碼器/編碼器。

流程序一般都含有大量明確的并行計算。然而，當前面臨的主要挑戰是如何在目標體系結構上獲得一個有效的流水線并行化。通常在并行化后、程序執行過程中，通信和同步占了很大的開銷，還會發生一些資源的限制，主要包括：有限的處理能力，每個處理元件上有限的存儲空間，互連帶寬和直接內存訪問的延遲等等。

4 結束語

針對嵌入式應用領域，本文研究了嵌入式計算的近期發展，傳統的嵌入式系統設計是以低功耗為首要目標，但是隨著計算密集型的嵌入式應用不斷擴展，嵌入式系統于最近已經開始轉向高性能嵌入式計算。面對日益復雜的嵌入式應用，片上多核處理器（CMP）可以作為高性能嵌入式計算的一個有效解決辦法。通過采用多個性能適中的處理核心提高能量效率，使用高的數據級并行或者線程級并行提高整個處理器的性能。在高性能嵌入式計算中通過增加處理器的內核數來抵消為降低功耗而調低時鐘頻率帶來的性能影響。

本文重點綜述了高性能嵌入式計算領域的三個關鍵問題，包括嵌入式嵌入式應用分類、嵌入式多核硬件架構以及嵌入式多核并行計算的方式。片上多核技術的發展是近幾年內對計算影響最大的因素，并行計算和并行軟件將使嵌入式應用領域經歷思維方式和技術兩方面的重大變革。變革包含的具體內容是多方面的，如算法、編程模型、編程語言、編譯器、操作系統等，為嵌入式多核軟件帶來巨大挑戰的同時也將帶來巨大的創新機會。

參考文獻：

[1] HENNESSY J L， PATTERSON D A. Computer Architechture [M]. 北京：機械工業出版社， 2007.

[2] MUNIR A， RANKA S， GORDON-ROSS A. High-performance energy-efficient multicore embedded computing[J]. IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS， 2012，23（4）：684-700

[3] CROWLEY P， FRANKLIN M， BUHLER J， et al. Impact of CMP design on high-performance embedded computing[C]//Proc. of High Performance Embedded Computing Workshop， 2006.

[4] HWANG K. Advanced parallel processing with supercomputer architectures[C]//Proc. IEEE， 1987，75（10）：1348-1379.

[5] KLIETZ A， MALEVSKY A， CHIN-PURCEL K. Mix-and-match high performance computing[J].IEEE Potentials， 1994，13（3）：6-10.

[6] PULLEYBLANK W. How to build a supercomputer[J]. IEEE Rev.， 2004，50（1）：48-52.

[7] BOKHARI S， SALTZ J. Exploring the performance of massively multithreaded architectures[J]. Concurrency and Computation： Practice Experience， 2010，22（5）：588-616.

[8] FENG W c， CAMERON K. The Green500 list： encouraging sustainable supercomputing[J]. Computer， 2007，40（12）：38-44.

[9] Top500. Top 500 Supercomputer Sites. http：//www.top500.org/， June 2011.

[10] MILOJICIC D. Trend wars： embedded systems[J]. IEEE Concurrency， 2000，8（4）：80-90.

[11] KORNAROS G， Multi-core Embedded Systems[M]. Taylor and Francis Group， CRC Press， 2010.

[12] AHMAD I， RANKA S. Handbook of Energy-Aware And Green Computing[M]. Taylor and Francis Group， CRC Press， 2011.

[13] 陳光宇，黃錫滋，唐小我.故障樹模塊化分析系統可靠性[J]. 電子科技大學學報， 2006， 35（6）：989-992.

[14] KNIGHT J C. Software Challenges in Aviation Systems[M]. Springer， 2002.

[15] SANKARALINGAM K， NAGARAJAN R， LIU H， et al. Exploiting ILP， TLP， and DLP using Polymorphism in the TRIPS architecture[C]//Proc. of the 30th Annual International Symposium on Computer Architecture， New York， USA： ACM， 2003：422？433.

[16] HUH J， BURGER D， KECKLER S. Exploring the design space of future CMPs[C]//Proc. of the 2001 International Conference on Parallel Architectures and Compilation Techniques， San Francisco， USA， 2001：199-210.

[17] DAVIS J D， LAUDON J， OLUKOTUN K. Maximizing CMP throughput with Mediocre cores[C]//Proc. of the 14th International Conference on Parallel Archiectures and Compilation Techniques， Galveston， TX，USA， 2005：51-62.

[18] RAKESH K， DEAN T， JOUPPI N. Heterogeneous chip multiprocessors[J]. IEEE Computer， 2005， 38（11）： 32-38.

[19] KUMAR R， JOUPPI N， TULLSEN D. Conjoined-core chip multiprocessing[C]//Proc. IEEE/ACM MICRO， 2004.

[20] BRYANT R E， O’HALLARON D. Computer Systems： A Programmer’s Perspective[M]. Beijing： China Electric Power Press， 2007： 461-501.

基金項目：國家自然科學基金（61173024）。

作者簡介：王慶（1982-），男，山東棗莊人，博士研究生，主要研究方向：并行計算、嵌入式多核；

季振洲（1965-），男，黑龍江哈爾濱人，博士，教授，博士生導師，主要研究方向：計算機系統結構、并行計算等；

朱素霞（1978-），女，山東壽光人，博士研究生，講師，主要研究方向：計算機系統結構、并行計算等。

智能計算機與應用2013年4期

智能計算機與應用的其它文章: 贛州市建設用地審批管理系統分析與設計; 統計機器翻譯中雙語語料的過濾及詞對齊的改進; 多媒體教室計算機系統的科學維護; 動態圖數據上查詢與挖掘算法的研究綜述; IPv6在線代理的設計與實現; 基于主動學習的相關反饋算法研究