空間輻射環(huán)境中的帶電粒子會(huì)導(dǎo)致航天器電子系統(tǒng)的半導(dǎo)體器件發(fā)生單粒子效應(yīng),嚴(yán)重影響航天器的可靠性和壽命,其中高能質(zhì)子和重離子是導(dǎo)致單粒子效應(yīng)的主要因素。必須對(duì)航天器用電子元器件的單粒子效應(yīng)進(jìn)行評(píng)估,采取一定的抗輻射加固措施,提高其可靠性。因此,空間輻射的單粒子效應(yīng)研究具有重要意義。
基于SRAM的FPGA在航天領(lǐng)域受到極大關(guān)注。Xilinx公司的FPGA相繼在MARS2003 Lander (JPL)XQR4062XL: Controlling Pyrotechnics、MARS2003 Rover(JPL) XQVR1000: Motor Control、GRACE (NASA)XQR4036XL: Sensor等任務(wù)中成功應(yīng)用之后,國外航天界對(duì)Xilinx FPGA的應(yīng)用興趣大增。我國相關(guān)領(lǐng)域?qū)ilinx FPGA的航天應(yīng)用正處在研究階段,對(duì)其中亟待解決的可靠性設(shè)計(jì)問題研究相對(duì)較少,本文根據(jù)作者在某衛(wèi)星載荷設(shè)備信號(hào)處理器中的實(shí)踐對(duì)Xilinx FPGA(以下簡稱FPGA)的可靠性設(shè)計(jì)技術(shù)進(jìn)行了研究。
1 Xilinx FPGA介紹
Xilinx SRAM型FPGA主要由以下幾部份組成,圖1所示為Virtex II FPGA的結(jié)構(gòu)圖。
(1) 配置存儲(chǔ)器(Configure Memory):FPGA可以看作配置存儲(chǔ)器和受其控制的可配置邏輯資源兩層的疊加。配置存儲(chǔ)器是FPGA內(nèi)部的一個(gè)大容量存儲(chǔ)器,控制著可配置邏輯資源,如布線資源、可編程邏輯資源、數(shù)字時(shí)鐘等邏輯功能。配置存儲(chǔ)器的失效將造成FPGA功能的持久失效(直至重新配置成功)。
(2)布線資源(Routing Resource):布線資源是FPGA內(nèi)部邏輯功能單元互聯(lián)的通道,它將用戶設(shè)計(jì)的各個(gè)邏輯功能模塊連在一起。
(3)可編程I/O(Programmable I/O):FPGA的輸入輸出接口,通常情況下I/O腳可以設(shè)置成輸入、輸出、高阻態(tài)、雙向I/O。
(4)可編程邏輯單元(CLB:Configurable Logic-Block):可編程邏輯功能單元是FPGA的細(xì)胞,通過它可以完成各式各樣的邏輯功能。
( 5 ) 塊存儲(chǔ)器(Block Select-RAM)和乘法器(Multiplier)等:FPGA內(nèi)部集成的硬件存儲(chǔ)器和乘法器,用以實(shí)現(xiàn)快速的數(shù)字運(yùn)算。
(6)數(shù)字時(shí)鐘管理模塊(DCM:Digital Clock Manager):FPGA內(nèi)部的時(shí)鐘管理單元。通過它可以對(duì)輸入時(shí)鐘進(jìn)行倍頻、分頻處理,同時(shí)還可以減小時(shí)鐘的抖動(dòng),提高時(shí)鐘的驅(qū)動(dòng)能力。
目前FPGA的工藝水平從Virtex系列的220nm發(fā)展到Virtex II的150nm,一直到現(xiàn)在Virtex 4系列高密度FPGA的90nm,雖然抗總劑量效應(yīng)能力在不斷增強(qiáng),但是隨著器件的核電壓的降低、門數(shù)的劇增,單粒子效應(yīng)會(huì)越來越明顯。因此FPGA上述組成部分,如配置存儲(chǔ)器、CLB和塊存儲(chǔ)器的抗輻射可靠性設(shè)計(jì)越來越重要。
2 輻射效應(yīng)及其影響
空間電子設(shè)備由于其所處的軌道不同,受到的輻射影響也不相同,但是,總的來講對(duì)Xilinx FPGA影響比較大的輻射效應(yīng)主要有:總劑量效應(yīng)(TID:Total Ionizing Dose)、單粒子翻轉(zhuǎn)(SEU:Single Event Upset)、單粒子閂鎖(SEL:Single Event Latch-up)、單粒子功能中斷(SEFI:Single Event Functional Interrupt)、單粒子燒毀(SEB:Single Event Burnout)、單粒子瞬態(tài)脈沖(SET:Single Event Transient)、位移損傷(Displacement Damage)等。上述輻射效應(yīng)產(chǎn)生的機(jī)理不盡相同,引起FPGA的失效形式也不同。
FPGA的配置存儲(chǔ)器、DCM、CLB、塊存儲(chǔ)器對(duì)單粒子翻轉(zhuǎn)比較敏感, 可通過TMR( 三倍冗余法) 、Scrubbing等來解決。
單粒子閉鎖會(huì)導(dǎo)致FPGA電流增大,局部溫度升高,有時(shí)甚至可以高達(dá)200℃上,如果FPGA長時(shí)間處于高溫狀態(tài)將導(dǎo)致器件的永久損壞。只有降低電源電壓才能退出閂鎖狀態(tài),因此在檢測到單粒子閂鎖之后最好的辦法是斷開器件的電源。
FPGA中單粒子功能中斷的敏感部分為配置存儲(chǔ)器、上電復(fù)位電路(POR:power on reset)、Select-MAP接口和JATAG接口,分別可通過Monitor the DONE pin、Read and Write to FAR、Read-back and compare to known CRC和toggling PROG等措施解決,對(duì)所有SEFI,Xilinx提供IP監(jiān)視和改正。
單粒子瞬態(tài)脈沖能引起FPGA內(nèi)部邏輯電路的短時(shí)錯(cuò)誤,可通過TMR、Scrubbing等來解決。單粒子瞬態(tài)脈沖對(duì)于小于0.25μm工藝的FPGA影響較大。
上述輻射效應(yīng)對(duì)FPGA造成的影響有的是永久性的,如總劑量效應(yīng)、單粒子燒毀、位移損傷;有的是能夠恢復(fù)的,如單粒子翻轉(zhuǎn)、單粒子功能中斷、單粒子瞬態(tài)脈沖。接下來根據(jù)對(duì)上述輻射影響的分析,研究提高FPGA抗輻射效應(yīng)的可靠性設(shè)計(jì)方法。
3 FPGA抗輻射效應(yīng)可靠性設(shè)計(jì)
FPGA抗輻射效應(yīng)可靠性設(shè)計(jì)可以從以下幾方面進(jìn)行考慮:FPGA整體設(shè)計(jì)加固考慮;散布內(nèi)部間接檢測輻射效應(yīng)的自檢模塊;引入外部高可靠性的電子器件在空間中不可避免地會(huì)受到輻射效應(yīng)監(jiān)測模塊等措施 。
3.1 整體加固設(shè)計(jì)
在電子設(shè)備的外面一般采用一定厚度的材料對(duì)輻射進(jìn)行屏蔽,屏蔽可以減少設(shè)備所受的輻射效應(yīng)。不同的材料對(duì)不同的粒子有著不同的屏蔽性能,經(jīng)常采用的材料有鋁、鉭和脂類化合物等。整體屏蔽的辦法在航天電子設(shè)備中使用較多,也比較成熟。
結(jié)合我們實(shí)際,考慮整星及電控機(jī)箱的整體屏蔽效果,在軌高500km及四年工作壽命條件下,選器件耐輻射能力10~20krad(Si)以上。
3.2 冗余設(shè)計(jì)
冗余設(shè)計(jì)方法是被公認(rèn)為比較可靠的應(yīng)對(duì)輻射效應(yīng)的方法。常用的冗余設(shè)計(jì)有三倍冗余法(TMR:Triple Module Redundancy)和部分三倍冗余法(PTMR:Partial Triple Module Redundancy)。圖2所示為Xilinx推薦的三倍冗余設(shè)計(jì)邏輯,這種邏輯充分的考慮了SEU、SET產(chǎn)生的影響。雖然TMR帶來了可靠性的提高,但是也會(huì)使模塊的速度降低(有的甚至低到原來的80%)、占用資源和功率增加(約為3.2倍)。
TMR: Throughput Logic
簡單復(fù)制(Three copies of the original design-Logic and I/O)
TMR Tradeoffs(TMR折中方案)
設(shè)計(jì)時(shí)可以根據(jù)實(shí)際情況對(duì)關(guān)鍵部分使用部分三倍冗余法。全部邏輯和敏感端口三模冗余有時(shí)需要權(quán)衡做出折衷,如下表。
FPGA的可編程I/O也容易受到輻射粒子的影響產(chǎn)生SEU和SEL(目前只發(fā)現(xiàn)三態(tài)腳在發(fā)生錯(cuò)誤時(shí)可以變成輸出腳,還沒有發(fā)現(xiàn)I/O發(fā)生方向轉(zhuǎn)換(即輸入變成輸出或者輸出變成輸入)。輸入輸出腳的三倍冗余設(shè)計(jì)是一種非常有效的方法,尤其是對(duì)因?yàn)榕渲么鎯?chǔ)器發(fā)生單粒子效應(yīng)的情況下,但是這種方法需要占用三倍的I/O資源,所以設(shè)計(jì)的時(shí)候需要慎重考慮。
我們?cè)贔PGA內(nèi)分多個(gè)區(qū)域,分別采用TMR設(shè)計(jì),減小出錯(cuò)概率。
3.3 防止關(guān)鍵電路SET引起的抖動(dòng)
SET在時(shí)鐘電路或者其他數(shù)據(jù)、控制線上容易產(chǎn)生短脈沖抖動(dòng),這種抖動(dòng)有可能會(huì)造成電路的誤觸發(fā)或者數(shù)據(jù)鎖存的錯(cuò)誤。為了減少這種短脈沖抖動(dòng)的影響,在設(shè)計(jì)時(shí)可采用如下方法:
(1) 內(nèi)部復(fù)位電路盡可能使用同步復(fù)位;
(2) 控制線盡可能配合使能信號(hào)線使用;
(3) 組合邏輯數(shù)據(jù)在鎖存時(shí)盡可能配合使能信號(hào)。
也就是說,盡量在觸發(fā)邏輯中配合另一個(gè)使能條件,這樣就可以屏蔽由SET產(chǎn)生的大部分抖動(dòng)。
3.4 系統(tǒng)監(jiān)控與重配置(Configuration Scrubbing)
在某些設(shè)計(jì)壽命不是很長的衛(wèi)星中,COTS器件的應(yīng)用已經(jīng)成為可能,在類似的信號(hào)處理或者星務(wù)管理平臺(tái)中,采用一種金字塔形體系結(jié)構(gòu)可以大大提高平臺(tái)的可靠性,有效地抵抗各種輻射效應(yīng)引起的可恢復(fù)故障。
Actel高可靠性的反熔絲FPGA負(fù)責(zé)從非易失大容量存儲(chǔ)器中讀取Xilinx FPGA的配置數(shù)據(jù)對(duì)其進(jìn)行配置,然后在運(yùn)行期間,對(duì)最容易受輻射效應(yīng)影響的配置存儲(chǔ)器按列進(jìn)行讀操作,然后與標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行比對(duì),對(duì)出現(xiàn)錯(cuò)誤的列進(jìn)行局部重配置。
另外,也可以通過對(duì)回讀數(shù)據(jù)進(jìn)行CRC校驗(yàn)來檢驗(yàn)配置存儲(chǔ)器是否出現(xiàn)錯(cuò)誤。
對(duì)配置存儲(chǔ)器的回讀校驗(yàn)和重配置(或局部重配置)是一種有效的抵抗輻射效應(yīng)的方法。
Scrubbing通過部分重置刷新配置存儲(chǔ)器,通過連續(xù)重置修復(fù)SEU,Scrub速度至少十倍于最壞的SEU速度。可以通過兩條途徑來實(shí)現(xiàn)Scrubbing,第一條途徑是回讀、比較、修復(fù)(closed-loop scrubbing)),第二條途徑是連續(xù)重置(open-loop scrubbing)。
并不是所有的資源都可以被scrubbed的, 比如SRL16s、LUT RAM、BRAM、BRAM data就不能被scrubbed,可以使用BRAM多模冗余或EDAC算法。
也并不是所有的資源都需要被scrubbed,大部分routing bits不需要scrubbed。
4 結(jié)論
文章結(jié)合實(shí)際工程實(shí)踐給出了解決常見的FPGA輻射失效問題的一些方法;對(duì)FPGA在電源輸入端使用限流電阻,信號(hào)處理板采用雙機(jī)冷備份,對(duì)于單粒子翻轉(zhuǎn)和鎖定均具有相應(yīng)對(duì)策,如發(fā)生單粒子翻轉(zhuǎn)或鎖定只對(duì)單機(jī)的部分功能有影響,都可以通過切機(jī)或重新加電消除影響。本文給出的有關(guān)大規(guī)??膳渲秒娮悠骷脑O(shè)計(jì)方法可以為航天電子設(shè)備的設(shè)計(jì)提供參考。
評(píng)論
查看更多