FPGA 類高性能可編程邏輯器件,正是多模無線基站的最佳構(gòu)建平臺(tái)之一。Xilinx率先發(fā)布和量產(chǎn)的65nm平臺(tái)FPGA,則以大量先進(jìn)技術(shù)和全新的設(shè)計(jì)有效增加了系統(tǒng)產(chǎn)品的生命周期并滿足了3G、LTE、IMT-Advanced等移動(dòng)通信標(biāo)準(zhǔn)和高性能處理設(shè)備對(duì)更多功能、性能、功耗和綜合成本的苛刻要求。
更大容量、更高性能
盡管DSP的工作時(shí)鐘頻率已經(jīng)提升到GHz量級(jí),但還是無法滿足高端應(yīng)用系統(tǒng)對(duì)實(shí)時(shí)性的要求。換句話說,算法復(fù)雜度與傳統(tǒng)DSP的性能之間一直存在著落差。而且,隨著3G及LTE、IMT-Advanced等未來移動(dòng)通信技術(shù)的出臺(tái),通信系統(tǒng)中的MIMO、OFDM、LDPC等無線算法和AVS等實(shí)時(shí)視頻編譯碼算法的復(fù)雜度直線上升,使得這種落差呈進(jìn)一步擴(kuò)大態(tài)勢(shì)。
傳統(tǒng)上,這一落差是由專用信號(hào)處理芯片(ASIC或ASSP)來進(jìn)行彌補(bǔ)。不過,F(xiàn)PGA憑借高度的靈活性和近些年來性能的提升以及功耗的改善,特別是近兩年的時(shí)間內(nèi)采用65nm工藝的高性能FPGA的推出,加快了自身向這塊 DSP無法覆蓋的信號(hào)細(xì)分市場(chǎng)滲透的速度。筆者以Xilinx的Virtex 5為例進(jìn)行闡述。
Virtex-5系列所采用的6輸入 LUT ExpressFabric技術(shù)在將性能提升了2個(gè)速度級(jí)別同時(shí)使動(dòng)態(tài)功耗降低了35%,面積縮小 45%,總邏輯單元數(shù)多達(dá) 330,000個(gè)。同時(shí),Virtex 5高達(dá)11.6 Mbit 的靈活嵌入式 Block RAM,可以以高達(dá) 550 MHz的工作速率運(yùn)行。每個(gè)Block RAM模塊最高可存儲(chǔ) 36 Kbit 數(shù)據(jù),可以配置成工作頻率為 550 MHz的FIFO而無需消耗邏輯資源,或配置為雙端口 RAM以增加帶寬,還可以級(jí)聯(lián)增加實(shí)現(xiàn)更大存儲(chǔ)器。
為了滿足設(shè)計(jì)師對(duì)多通道、高性能DSP算法加速的需要,所有 Virtex-5 系列都提供大量增強(qiáng)嵌入式型DSP48E slice塊,在更大的動(dòng)態(tài)范圍內(nèi)實(shí)現(xiàn)48位全精度結(jié)果而無需消耗邏輯結(jié)構(gòu)資源;DSP48E Slice 支持專門的布線所實(shí)現(xiàn)的加法鏈結(jié)構(gòu)突破了加法樹的性能瓶頸。特別在面向信號(hào)處理的SXT 平臺(tái)上的 Slice更多達(dá) 6?0 個(gè),可以工作在550 MHz,實(shí)現(xiàn) 352 GMACS 的性能。同時(shí)每個(gè) DSP48E Slice 在翻轉(zhuǎn)率為 38% 的情況下,功耗僅為 1.38 mW/100 MHz,比90nm器件降低了40%。
更高的I/O速率,支持更多I/O標(biāo)準(zhǔn)
雖然現(xiàn)代電子系統(tǒng)互連越來越趨向于串行交換式互連網(wǎng)絡(luò),但對(duì)差分或單端并行I/O也有越來越高的性能要求。如LTE通信系統(tǒng)中采用的MIMO技術(shù)可能需要系統(tǒng)FPGA同TI公司串行LVDS輸出的 4通道14bit 125 MSPs ADC芯片互連,單差分對(duì)最高數(shù)據(jù)率可能高達(dá)1.04Gbps,對(duì)FPGA提出了很高的要求;通信系統(tǒng)中大量采用DDR2、DDR3、QDR2等高時(shí)鐘速率存儲(chǔ)器實(shí)現(xiàn)對(duì)高速信號(hào)和分組數(shù)據(jù)的緩存處理,也需要FPGA提供有效的互連接口。
可靠的源同步數(shù)據(jù)采集是構(gòu)建高性能并行接口時(shí)所面臨的最為關(guān)鍵、困難的挑戰(zhàn),需要妥善處理時(shí)鐘、數(shù)據(jù)線間的Skew以及信號(hào)間的噪聲和串?dāng)_。如果一款器件能實(shí)現(xiàn):1.25 Gbps的差分I/O 或 800 Mbps 單端 I/O 互連;能在寬電壓、速度范圍內(nèi)支持40多種高性能I/O標(biāo)準(zhǔn)協(xié)議和定制電氣標(biāo)準(zhǔn)協(xié)議;能夠確保時(shí)鐘和數(shù)據(jù)對(duì)齊時(shí)序要求,簡(jiǎn)化源同步接口設(shè)計(jì),輕松做到高性能源同步并行或存儲(chǔ)器接口,則將是非常理想的。Xilinx的Virtex 5是通過利用增強(qiáng)型SelectIO塊、ChipSync 技術(shù)和Sparse chevron 封裝技術(shù)、接地管腳的分配方法實(shí)現(xiàn)上述性能指標(biāo):在確保時(shí)鐘位于數(shù)據(jù)有效窗口的中央,實(shí)現(xiàn)可靠的讀數(shù)據(jù)采集的同時(shí)更好的控制同步開關(guān)輸出(SSO)噪聲。 Virtex 5 的推出為設(shè)計(jì)師實(shí)現(xiàn)系統(tǒng)互連最大帶寬提供了足夠的設(shè)計(jì)靈活性。例如使用DDR2 SDRAM實(shí)現(xiàn)高達(dá)384 Gbps的存儲(chǔ)器帶寬。
在傳統(tǒng)無線基站和嵌入式信號(hào)處理系統(tǒng)中,多個(gè)FPGA及信號(hào)處理器件主要通過總線或用戶專用互連結(jié)構(gòu)。但總線結(jié)構(gòu)存在性能限制,難以滿足高性能系統(tǒng)的需要;而專用系統(tǒng)則難以滿足互連互通的需要。因此,基于串行交換互連,以Serial RapidIO、PCI Express、GE為代表的嵌入式互連網(wǎng)絡(luò)逐步進(jìn)入無線基站和高性能處理系統(tǒng)。而處于多?;竞拖到y(tǒng)集成平臺(tái)中心位置的FPGA,需要直面高速串行互連的需求。
Virtex 5所采用的全新 RocketIO GTP 千兆位級(jí)串行收發(fā)器設(shè)計(jì)和SelectIO并行I/O技術(shù)實(shí)現(xiàn)了新興串行標(biāo)準(zhǔn)和現(xiàn)有并行標(biāo)準(zhǔn)間的靈活橋接,支持操作范圍介于100Mbps 到 3.75Gbps之間的所有常見串行互連接口標(biāo)準(zhǔn)協(xié)議并可在單個(gè) FPGA 中實(shí)現(xiàn)多個(gè)標(biāo)準(zhǔn)或定制協(xié)議(如sRIO、PCIe、FE/GE、FC、SAS、SATA等)。RocketIO GTP的可調(diào)整發(fā)送預(yù)加重和接收均衡技術(shù),可以驅(qū)動(dòng)超出40” 的背板,在惡劣通道上實(shí)現(xiàn)可靠的接收。
Virtex 5采用嵌入式PCIe模塊將多種功能集成到單個(gè)65nm FPGA的方式來實(shí)現(xiàn)。Virtex-5 FPGA平臺(tái)內(nèi)置增強(qiáng)型PCI Express端點(diǎn)模塊,可以實(shí)現(xiàn)處理層、數(shù)據(jù)鏈路層和物理層功能,支持 1、2、4 或 8通道。
Xilinx在對(duì)硬IP和軟IP進(jìn)行比較之后,在Virtex 5系列中采用了嵌入提升用戶有效邏輯使用率和降低系統(tǒng)功耗的硬IP的方式來實(shí)現(xiàn)GE、PCIe等串行互連標(biāo)準(zhǔn)。例如×8模式的PCIe硬核可以比其他廠商FPGA以軟核形式實(shí)現(xiàn)的降低至少1.5W的功耗。
Xilinx 65nm 平臺(tái)FPGA包含多個(gè)符合IEEE 802.3標(biāo)準(zhǔn)的嵌入式10/100/1000 Mbps以太網(wǎng)MAC模塊:內(nèi)置式硬IP為每個(gè)以太網(wǎng)MAC釋放大約1800個(gè)邏輯單元;所提供的可編程PHY接口同時(shí)支持標(biāo)準(zhǔn)的MII/GMII和使用 RocketIO收發(fā)器時(shí)的SGMII接口;當(dāng)使用RocketIO收發(fā)器時(shí),可以實(shí)現(xiàn)1000 Base-X的單芯片解決方案并廣泛應(yīng)用于AMC、ATCA和MicroTCA等新興系統(tǒng)結(jié)構(gòu)標(biāo)準(zhǔn);由于已經(jīng)通過UNH測(cè)試認(rèn)證的兼容性和互操作能力,因此減少了系統(tǒng)的設(shè)計(jì)和驗(yàn)證工作量。
Xilinx的Virtex 5系列具有低歪斜、低抖動(dòng)的差分時(shí)鐘結(jié)構(gòu),可以達(dá)到550MHz的工作頻率,再加上更加靈活的時(shí)鐘管理管道結(jié)合了新型 PLL 和DCM(數(shù)字時(shí)鐘管理器),使得該器件在保證了去Skew實(shí)現(xiàn)低時(shí)鐘抖動(dòng)的前提下同時(shí)確保了高精度和控制靈活性,極大地提高了時(shí)鐘系統(tǒng)的性能。
Xilinx 利用65nm工藝的100Mbps–3.75Gbps收發(fā)器、集成式接口模塊和通過預(yù)驗(yàn)證PCI Express、三模以太網(wǎng)模塊及其他IP,不僅可以輕松快速滿足創(chuàng)建板級(jí)、背板級(jí)和系統(tǒng)級(jí)的互連需要,也滿足新一代通信、信號(hào)處理、圖形、存儲(chǔ)、網(wǎng)絡(luò)交換和I/O器件上的需要,而且還將設(shè)計(jì)風(fēng)險(xiǎn)降至最低,節(jié)省了在早期的ASSP和ASIC中的投資。
更低功耗 更低成本
Xilinx 通過對(duì)Virtex-5系列采用新工藝、新技術(shù)、新封裝和大量集成硬IP等方式,使得工程師在使用65nm工藝FPGA進(jìn)行設(shè)計(jì),可以大幅降低設(shè)計(jì)風(fēng)險(xiǎn)的同時(shí)顯著降低功耗同時(shí)提升系統(tǒng)性能,實(shí)現(xiàn)性能和功耗的最佳均衡,并提升設(shè)計(jì)速度。這其中包括:采用ExpressFabric 技術(shù)將性能提升30%的同時(shí)使動(dòng)態(tài)功耗降低35%;利用 65nm 三柵極氧化層技術(shù)降低以漏電流為主的靜態(tài)功耗;采用新的RocketIO GTP收發(fā)器,使功耗比上一代器件降低77%;更小的散熱系統(tǒng)進(jìn)一步降低系統(tǒng)功耗;嵌入式 Block RAM 和分布式 RAM/FIFO減少了對(duì)外部RAM的需求;ChipSync 電路可以將時(shí)鐘調(diào)整到數(shù)據(jù)正中,從而保證存儲(chǔ)器接口的可靠性;SelectIO 電路可以靈活支持各種片上 I/O接口標(biāo)準(zhǔn);DSP48E slices 為嵌入式乘法器提供了可選的加法器和累加器;RocketIO GTP 收發(fā)器提供內(nèi)置式串行 I/O 性能和業(yè)內(nèi)最低的功耗;PCI Express 端點(diǎn)模塊設(shè)計(jì)用于和 RocketIO GTP 收發(fā)器一起使用,以便提供用于兼容的 PCIe 連接功能;10/100/1000 以太網(wǎng) MAC 模塊和 RocketIO GTP 收發(fā)器一起使用,提供內(nèi)置式以太網(wǎng)連接功能以上種種基于65nm工藝器件的優(yōu)勢(shì),大大降低了系統(tǒng)綜合成本,例如實(shí)現(xiàn)x8模式的PCI Express,使用Xilinx的Virtex-5 FPGA可以比其他廠商的相同檔次器件節(jié)約近10,000個(gè)LUT。
另外,Virtex-5 的 Sparse chevron 封裝技術(shù)的獨(dú)特的管腳排列降低了串?dāng)_改善了信號(hào)完整性,有助于去除成本高昂的板級(jí)調(diào)試和重設(shè)計(jì)過程?;月?a href="http://hljzzgx.com/tags/電容/" target="_blank">電容去除了數(shù)百個(gè)外部電容,可以簡(jiǎn)化 PCB 布局和布線,縮小 PCB 尺寸,使系統(tǒng)成本再次降低。
如果FPGA的用量達(dá)到一定規(guī)模,還可以使用 Xilinx 的65nm EasyPath技術(shù),在保證器件質(zhì)量的同時(shí)將批量生產(chǎn)成本降低 30-75%,而且大幅縮短交貨時(shí)間。
實(shí)例與結(jié)論
早在2006年2月,Mercury Computer Systems、VMETRO等公司就已經(jīng)開始實(shí)際使用*估Virtex-5 系列FPGA,而*估結(jié)果促使更多的廠商迅速轉(zhuǎn)向65nm的Virtex-5 FPGA。
得益于Virtex-5 LX系列的超大邏輯和存儲(chǔ)容量,DiNI的DN9000K10PCIe板采用6片Virtex-5 LX330和1片LX50T可實(shí)現(xiàn)高達(dá)1100萬門級(jí)的ASIC驗(yàn)證任務(wù)。Nallatech 和Alpha Data采用LX110T實(shí)現(xiàn)高性能PMC計(jì)算子板。VMETRO采用Virtex-5 LX110T實(shí)現(xiàn)高性能CPCI接口處理模塊,采用V5LX110T 和V5SX95T實(shí)現(xiàn)高性能VXS信號(hào)處理平臺(tái)。Curtiss-Wright 以LX330T為核心構(gòu)建CHAMP-FX2高性能信號(hào)處理平臺(tái)。Sundance則采用Virtex-5 LXT或SXT構(gòu)建靈活的嵌入式處理模塊。
65nm工藝FPGA 已經(jīng)逐步蠶食 ASIC 和 ASSP的傳統(tǒng)市場(chǎng),廣泛應(yīng)用到網(wǎng)絡(luò)、電信、存儲(chǔ)、服務(wù)器、計(jì)算、無線、廣播、視頻、成像、醫(yī)療、工業(yè)和軍用等諸多高性能領(lǐng)域,尤其是在以多模無線基站為代表的高端市場(chǎng)成為理想系統(tǒng)集成平臺(tái)。
評(píng)論
查看更多