rm新时代足球交易平台,RM新时代app官方版下载

研究背景及基礎(chǔ)知識

FPGA是實現(xiàn)高性能計算與網(wǎng)絡(luò)的重要工具，得益于其高度的并行性與用戶可編程的特性，F(xiàn)PGA得到了越來越廣泛的應(yīng)用。FPGA由CLB（Configurable Logic Block，可編程邏輯單元）、BRAM（Block RAM，塊RAM）、DSP48E1（專用數(shù)字處理單元）、可編程布線資源、可編程IO資源等部分組成，其中，CLB是實現(xiàn)邏輯功能的基礎(chǔ)，Xilinx 7系列FPGA CLB內(nèi)部結(jié)構(gòu)如圖1.1所示[1]。

從圖1.1中我們可以看到，一個CLB由兩個SLICE組成，而SLICE可以分為SLICEL和SLICEM，SLICEL僅可以實現(xiàn)邏輯功能，而SLICEM除了可以實現(xiàn)邏輯功能外，還可以實現(xiàn)位寬為1bit、深度為64bit的RAM， SLICEL和SLICEM的結(jié)構(gòu)如圖1.2和圖1.3所示[1]，SLICEL和SLICEM都是由4個6輸入LUT（Look up table，查找表）、3個MUX（數(shù)據(jù)選擇器）、1個Carry Chain（進位鏈）和8個Flip-Flop（觸發(fā)器）組成，其中，LUT本質(zhì)是一塊6地址輸入1數(shù)據(jù)輸出的存儲器（不考慮5輸入LUT的情況），通過改變其內(nèi)容，可以得到各種各樣的真值表，也就得到了各種各樣的邏輯功能，這是FPGA可編程性的基礎(chǔ)之一。

比圖1.2和圖1.3可以發(fā)現(xiàn)，SLICEL的4個LUT，只有6bit地址輸入和1bit數(shù)據(jù)輸出（不考慮5輸入LUT的情況），當(dāng)bitstream文件配置下去后，用戶是無法對LUT內(nèi)容進行更改的，可以將之看作是一塊ROM；而SLICEM除6bit讀地址輸入和1bit數(shù)據(jù)輸出外，還有6bit的寫地址輸入（圖1.2中W6:W1）和1bit的寫數(shù)據(jù)使能（圖1.2中WEN），2bit的寫數(shù)據(jù)輸入（DI1和DI2），這也是SLICEM的LUT可以被配置為位寬為1bit、深度為64bit的RAM的原因。

研究目的

在7系列FPGA中，將近2/3的SLICE是SLICEL，其余的是SLICEM[1]，也就是說，F(xiàn)PGA內(nèi)2/3的資源在bitstream文件下載后，其邏輯功能就無法更改了，除非修改代碼并生成新的bitstream文件。這給可重構(gòu)計算、基于LUT的高帶寬查找算法等研究帶來了很大的困擾：這些研究希望在設(shè)備運行時對LUT的內(nèi)容進行動態(tài)修改，而只有SLICEM的LUT存在寫數(shù)據(jù)接口，也就是這些研究中的算法只能利用1/3的LUT資源。作者在研究基于FPGA的高性能可重構(gòu)CRC算法時，就遇到了上述問題，可編程CRC的關(guān)鍵計算模塊由LUT實現(xiàn)，而為了實現(xiàn)CRC生成式的可編程，必須要使用SLLICEM的LUT，導(dǎo)致時序不理想，且需要額外使用復(fù)雜的配置電路。作者收到啟發(fā)，發(fā)現(xiàn)使用Xilinx 提供的HWICAP IP核即可實現(xiàn)對SLICEL的LUT的動態(tài)編程，無需Vivado軟件參與，即可實現(xiàn)ms乃至us級別的重配置速度[2][3]，該方案是基于FPGA實現(xiàn)高性能可重構(gòu)CRC的理想選擇。然而，網(wǎng)上關(guān)于該研究的資料是十分稀缺的；Xilinx官方提供的內(nèi)容也十分分散且有限，部分內(nèi)容還被有意地忽略了；學(xué)術(shù)界的論文大多集中在如何設(shè)計高性能的ICAP控制器，以取代性能較低的HWICAP控制器。到目前為止，還無法找到關(guān)于如何使用HWICAP，實現(xiàn)單個LUT的內(nèi)容重配置的內(nèi)容。作者經(jīng)過1個多月的摸索，基本打通了單個LUT重配置的各個環(huán)節(jié)，最終基于Artix-7 FPGA開發(fā)板，搭建了一套演示環(huán)境，實現(xiàn)了單個LUT內(nèi)容的讀取與重配置，該項研究的各項內(nèi)容如下所述：第二節(jié)介紹LUT的尋址與配置方式，只有知道LUT如何尋址，才能對特定位置的LUT進行重配置；第三節(jié)介紹LUT的信息提取，包括LUT位置提取與LUT引腳映射關(guān)系提?。坏谒墓?jié)對rbt文件進行解析（僅限于LUT內(nèi)容部分），只有了解LUT初始值是如何映射到rbt文件中，才能利用HWICAP實現(xiàn)LUT內(nèi)容的正確配置；第五節(jié)介紹HWICAP的具體操作，包括HWICAPIP核的操作與ICAP的操作命令；第六節(jié)搭建了驗證系統(tǒng)，基于Artix-7FPGA開發(fā)板，在Vivado環(huán)境下，使用TCL命令，實現(xiàn)單個LUT的重配置;第七節(jié)對上述工作進行總結(jié)，指出后面的工作方向。

LUT尋址與配置方式

一、FPGA的基本結(jié)構(gòu)

想要對LUT進行尋址，必須要知道LUT在FPGA中的組織方式，也就是知道FPGA的結(jié)構(gòu)，需要說明的是，Xilinx 7系列FPGA與其前代產(chǎn)品相比，組成出現(xiàn)了較大的變化，在這里介紹Virtex-5 FPGA與Artix-7 FPGA的具體結(jié)構(gòu)。

Virtex-5系列FPGA和Artix-7系列FPGA都是基于ASMBL（AdvancedSilicon Modular Block）架構(gòu)的(但是Virtex-5基于二代ASMBL技術(shù)，Artix-7基于四代ASMBL技術(shù)) ，這里以7系列FPGA為例，對ASMBL架構(gòu)進行簡單介紹。

圖1.1 ASMBL架構(gòu)

7系列FPGA ASMBL架構(gòu)如圖1.1所示，該架構(gòu)的關(guān)鍵在于，資源按列排布，同一列的資源是相同的，通過組合不同的列，可以得到面向各種應(yīng)用、滿足各種功能的FPGA，該架構(gòu)的模塊化思想，大大簡化了FPGA的設(shè)計。我們來看一張真實的FPGA的內(nèi)部結(jié)構(gòu)圖（器件型號為XC7A100T 該圖通過Vivado軟件得到），如圖1.2所示，該FPGA分為8個區(qū)域（8個Clock Region），圖中大量的淡藍色非規(guī)則部分，是已經(jīng)被占用的模塊，我們選擇比較“干凈”的X0Y3區(qū)域進行介紹；

圖1.2 XC7A100T內(nèi)部結(jié)構(gòu)

圖1.3 X0Y3區(qū)域結(jié)構(gòu)

X0Y3區(qū)域放大后的圖片如圖1.3所示，圖中最左側(cè)橘色部分為IO接口，藍色部分為CLB，紅色部分為BRAM資源（RAM36E1），綠色部分為DSP資源（DSP48E1），這樣的資源組織方式與前面說的ASMBL架構(gòu)是完全吻合的。我們再次將圖2中的藍色方塊放大，如圖1.4所示，可以看到，每個藍色方塊內(nèi)部，都由2個SLICE組成。

圖1.4 CLB內(nèi)部結(jié)構(gòu)

作者肉眼數(shù)了一下，一列藍色方塊中，藍色方塊的數(shù)量是50個，也就是一列CLB中包含50個CLB（這個知識后面要用到）；一列紅色方塊中，紅色方塊的數(shù)量是10個，也就是一列BRAM中包含10個RAM36E1；一列綠色方塊中，紅色方塊的數(shù)量是20個，也就是一列DSP中包含20個DSP48E1；

圖1.5 FPGA中間部位的BUFG

需要特別注意的是，在FPGA的中間部分，是一組BUFG，如圖1.5所示（圖1.2放大，觀察FPGA正中央），在BUFG的上方，是FPGA的上半部分（top），F(xiàn)PGA的下方是下半部分（bottom），這個知識后面會用到，可能有人會有疑問，圖1.2結(jié)構(gòu)如此對稱，上半部分和下半部分不是一目了然的么？但是我們需要知道，不是所有的FPGA都是四行兩列八個ClockRegion的，如圖1.6（芯片型號為XC7Z020），為三行了兩列六個Clock Region，這時只能通過觀察BUFG的位置（圖1.6中白框所在位置），判斷哪幾行是top部分，哪幾行是bottom部分。

圖1.6 XC7Z020內(nèi)部結(jié)構(gòu)

圖1.7 XC5VLX110T所示

再來看一下Virtex-5FPGA的內(nèi)部結(jié)構(gòu)，如圖1.7所示，可以看到，Virtex-5FPGA的結(jié)構(gòu)與7系列FPGA很相似，都是模塊化的、按列排布的；我們重點關(guān)注一下CLB方面的區(qū)別，對比圖1.3和圖1.7可以發(fā)現(xiàn)，7系列FPGA一列CLB包含CLB的個數(shù)為50個，而Virtex-5FPGA一列CLB包含CLB的個數(shù)為20個，這種差別在后期介紹LUT尋址時會體現(xiàn)出來。

二、FPGA配置幀格式與尋址格式

FPGA配置數(shù)據(jù)的最小單位是幀，下面先以Virtex-5為例，介紹配置幀的格式與尋址方式；然后介紹7系列FPGA與Virtex-5在配置幀格式與尋址方式方面的區(qū)別。

1.Virtex-5 FPGA配置幀格式與尋址格式

Virtex-5配置幀格式如圖1.8所示，圖中共有36個幀，每個幀包含41個word，每個word由32bit組成，圖中“X odd”部分代表一個CLB中編號為奇數(shù)的SLICE，而“X even”代表編號為偶數(shù)的SLICE，也就是“X odd”代表圖1.4中右側(cè)的SLICE，“X odd”代表圖1.4中左側(cè)的SLICE；Frame26-Frame29和Frame32-Frame35已經(jīng)可以用來配置一個CLB內(nèi)的8個LUT了，為什么配置一個CLB需要36個幀呢？因為除了需要配置LUT外，還需要配置觸發(fā)器、連接線等其他的部分，因為我們僅需要研究LUT內(nèi)容是如何重配置的，因此我們不對這些內(nèi)容進行研究；另外，想要配置一個LUT，使用1個幀是搞不定的，因為1個幀只能配置1個LUT的2個字節(jié)（6輸入LUT初始值為64bit，也就是8字節(jié)），需要4個幀才能配置一個LUT，但是，一個幀又同時涉及到了20個LUT的配置信息，也就是一個幀會對一列SLICE中的LUT進行配置（前面提到過，Virtex-5一列CLB中，CLB數(shù)量是20），這也是為什么要使用RMW（read-modify-write）的思想，也就是想配置1個LUT，需要先把這個LUT對應(yīng)的4個幀讀出來，修改該LUT對應(yīng)的內(nèi)容后，再將這4個幀寫回去，這樣才能保證其他的LUT不受影響。

圖1.8 Virtex-5配置幀格式

細心的讀者可以發(fā)現(xiàn)，圖1.8中一個配置幀包含41個word，而一列SLICE包含20個SLICE，2個word可以配置一個SLICE的4個LUT，怎么多出了一個word？答案在圖1.9中可以找到，一個配置幀的前20個word和后20個word都是用于配置LUT的，而中間的LUT用于其它功能，更多信息可以參考Xilinx官方文檔：UG191。

圖1.9一個配置幀的具體格式

圖1.10 Virtex-5 FPGA配置幀尋址格式

Virtex-5 FPGA配置幀的尋址格式如圖1.10所示，Virtex-5系列FPGA配置幀的地址由24bit組成，其中，bit23-bit21作用是指示配置對象的類型，如取值為000代表對CLB進行配置；bit20作用是指示配置的對象在FPGA的上半部分還是下半部分（相關(guān)內(nèi)容參考圖1.5及圖1.6）；bit19-bit15是選擇行的，如圖1.2所示，該FPGA有4行，但是其編址方式是不是從上到下為0、1、2、3呢？

圖1.11行編址

當(dāng)然不是的，其編址方式如圖1.11所示，上半部分（top）和下半部分（bottom）是分開編址的，接近中間的行，地址為1，遠離中間的行，地址依次加1，舉個例子，圖2.2中X0Y2、X1Y2、X0Y3、X1Y3位于上半部分，X0Y2、X1Y2行地址為0，X0Y3、X1Y3行地址為1；圖2.2中X0Y0、X1Y0、X0Y1、X1Y1位于上半部分，X0Y1、X1Y1行地址為0，X0Y0、X1Y0行地址為1；bit14-bit7是列地址，需要注意的是，列地址是不分clock region的，比如圖2.2中X0Y2、X0Y3的第一列，地址是相同的，另外，CLB、BRAM、DSP等列是統(tǒng)一編址的，列地址可以利用Viavdo軟件，通過TCL命令提取出來；bit6-bit0是選擇具體某一幀的地址，由圖1.8可知，配置1個CLB（或者說配置一列CLB），需要36個幀，但是在對LUT重配置的時候，并不是所有幀都要重新進行RMW操作，只需要對與該LUT相關(guān)的四個幀進行RMW操作即可，對36個幀中某一具體的幀進行尋址，就需要用到minor address了。

2.7系列FPGA配置幀格式與尋址格式 7系列FPGA配置幀格式與圖1.8基本類似，但是由于7系列FPGA一列CLB由50個CLB組成（而Virtex-5為20個），因此一個7系列FPGA配置幀包含101個word； 7系列FPGA的配置幀的尋址格式如圖1.12所示，7系列FPGA的配置幀地址由26bit組成，與圖1.10比較之后，可以發(fā)現(xiàn)，7系列FPGA 列地址為10個bit，而Virtex-5FPGA列地址為8bit，這是由于FPGA規(guī)模變大所致；地址其他部分基本沒有發(fā)生變化。

圖1.12 7系列FPGA的配置幀格式

rbt文件解析

rbt文件和bit文件一樣，都是FPGA的配置文件，bit文件是二進制的，觀察起來是很不方便的，然而rbt文件相當(dāng)于bit文件的ASCII版本因而我們選擇rbt文件作為我們解析的對象。

一、做rbt文件解析的原因 為什么要做rbt文件解析？因為上節(jié)講述配置幀格式的研究中，還存在一個不清楚的地方：圖1.8中半個word可以配置1個LUT的1/4，那這半個word的bit順序，與Verilog代碼中LUT初始值的bit順序，是否是一致的？是否存在某種映射關(guān)系？為了探索這一點，我首先想到的是對rbt文件進行解析，具體來說，建立一個工程，對一個LUT進行初始化，生成bit文件后，觀察rbt文件中相應(yīng)的初始化值是怎樣的。后來發(fā)現(xiàn)，進行這項研究是十分必要的，研究結(jié)果表明，LUT的初始化值與rbt文件中對應(yīng)的內(nèi)容，并不是相等的，二者存在特定的映射關(guān)系，且SLICEL和SLICEM中的LUT，映射關(guān)系是不一樣的。下面對研究過程進行介紹。

圖2.1 各種FPGA配置文件格式

二、準(zhǔn)備工作 rbt文件中的配置數(shù)據(jù)是二進制格式的，觀察十分不方便，因此第一項準(zhǔn)備工作就是將二進制的rbt文件轉(zhuǎn)換為十六進制，這項工作是通過一個python腳本實現(xiàn)的（位置：代碼 bt_translation.py），如圖2.2所示，因為作者此前沒有寫過python腳本，因此代碼很不完善，下面結(jié)合代碼說明需要注意的地方：（1）rbt文件的前7行是rbt文件的介紹信息，如圖2.3所示，在用腳本轉(zhuǎn)換進制之前，這7行需要手動去掉（作者python水平太低）；（2）圖2.2第一行的NUM值為956447，這是rbt文件去除前7行后的行數(shù)；需要注意的是，本工程針對的FPGA型號是XC7A100T，每個型號的FPGA規(guī)模不同，NUM的值也要相應(yīng)變化；（3）圖2.2第三、四行為原始rbt文件的路徑（后綴改為txt）與轉(zhuǎn)換后文件的路徑，這個路徑是絕對路徑，需要根據(jù)實際情況進行修改。

圖2.2 rbt進制轉(zhuǎn)換代碼

圖2.3 rbt文件介紹信息

在UG470中，專門有一部分介紹bitstream的組成，這部分需要重點了解，詳細內(nèi)容見UG470的table 5-19。

三、具體流程

首先建立一個工程，在工程中例化一個LUT，這個LUT的位置必須是固定的，方便進行多次對照試驗，如圖3.4所示，例化LUT的位置為SLICE_X57Y53的LUT-D，如圖2.4所示，為了簡單起見，該LUT的初始值設(shè)置為“0x6996966996696996”，為什么設(shè)置成這個值呢？因為LUT初始值為該值時，作用為一個六輸入一輸出異或門，而異或門是CRC算法中的基本單元。

綜合工程（工程在：工程jtag_axi_icap_lut_AX7103_simple_lut_6996文件夾下），生成rbt文件后，將rbt文件轉(zhuǎn)成十六進制（見上述準(zhǔn)備工作），結(jié)果如表2.1所示：

表2.1 rbt文件對應(yīng)行數(shù)和值-1

rbt文件行數(shù)	rbt文件值
510521	0x69960000
510622	0x 96690000
510723	0x 69960000
510824	0x 96690000

圖2.4 LUT初始化-1

觀察表2.1可以發(fā)現(xiàn)，rbt文件對應(yīng)值的行數(shù)，總是差了101個word，與之前描述的配置幀格式是可以對應(yīng)上的。那是不是可以說Verilog代碼中LUT初始值的bit順序（圖2.4）和rbt中的bit順序，是一致的呢？還不能這么說，因為“6”的二進制表示是“0110”，9的二進制表示為“1001”，可以發(fā)現(xiàn)這兩個值都是十分對稱的值。

為了進一步驗證是否存在某種bit順序映射關(guān)系，建立新的工程。LUT位置不變，但初始化值設(shè)置為“0x0123456789ABCDEF”，如圖2.5所示，綜合工程（工程在：工程jtag_axi_icap_lut_AX7103_simple_lut_0123文件夾下），生成rbt文件后，將rbt文件轉(zhuǎn)成十六進制（上述操作），結(jié)果如表2.2所示：

表3.2 rbt文件對應(yīng)行數(shù)和值-2

rbt文件行數(shù)	rbt文件值
510521	0x fe760000
510622	0x ba320000
510723	0x 98100000
510824	0x dc540000

圖2.5 LUT初始化-2

可以發(fā)現(xiàn)，rbt文件值與LUT初始化值完全不一樣，可以證明，確實存在某種特殊的映射關(guān)系。如何確定這種映射關(guān)系呢？最簡單的是，建立多個工程，每個工程初始化值只有1bit（如0x0000000000000001、0x0000000000000002、0x0000000000000004、0x0000000000000008等），觀察生成rbt文件中對應(yīng)值的位置，理論上需要建立64個工程才能完全確定這個關(guān)系（但其實存在規(guī)律，不用這么多），成功破譯了其對應(yīng)關(guān)系，測試原始數(shù)據(jù)如表2.3所示（為了簡單起見，將1個LUT的4部分?jǐn)?shù)據(jù)寫到一起，作為一個完整的word,“X”代表0x0000）：

表2.3測試原始數(shù)據(jù)-1

LUT初始值	rbt數(shù)據(jù)
0x X_X_X_0001	0x 8000_X_X_X
0x X_X_X_0002	0x X_8000_X_X
0x X_X_X_0004	0x 4000_X_X_X
0x X_X_X_0008	0x X_4000_X_X
0x X_X_X_0010	0x 2000_X_X_X
0x X_X_X_0020	0x X_2000_X_X
0x X_X_X_0040	0x 1000_X_X_X
0x X_X_X_0080	0x X_1000_X_X
0x X_X_X_0100	0x X_X_X_8000
0x X_X_X_0200	0x X_X_8000_X
0x X_X_X_0400	0x X_X_X_4000
0x X_X_X_0800	0x X_X_4000_X
0x X_X_X_1000	0x X_X_X_2000
0x X_X_X_2000	0x X_X_2000_X
0x X_X_X_4000	0x X_X_X_1000
0x X_X_X_8000	0x X_X_1000_X
0x 0100_X_X_X	0x X_X_X_0008
0x 0200_X_X_X	0x X_X_0008_X
0x X_0100_X_X	0x X_X_X_0080
0x X_0200_X_X	0x X_X_0080_X
0x X_X_0100_X	0x X_X_X_0800
0x X_X_0200_X	0x X_X_0800_X
0x 0001_X_X_X	0x 0008_X_X_X
0x 0002_X_X_X	0x X_0008_X_X
0x X_0001_X_X	0x 0080_X_X_X
0x X_0002_X_X	0x X_0080_X_X
0x X_X_0001_X	0x 0800_X_X_X
0x X_X_0002_X	0x X_0800_X_X

將64bit初始值的最高位（MSB）定義為bit-64，最低位（LSB）定義為bit-1，則LUT初始值與rbt文件的位置映射關(guān)系如表2.4所示：

LUT初始值	rbt數(shù)據(jù)
1	64
2	48
3	63
4	47
5	62
6	46
7	61
8	45
9	16
10	32
11	15
12	31
13	14
14	30
15	13
16	29
57	4
58	20
41	8
42	24
25	12
26	28
49	52
50	36
33	56
34	40
17	60
18	44

觀察規(guī)律后，將該映射規(guī)律用python代碼（文件位置：代碼map_SliceL.py）表示出來，如圖2.6所示，

圖2.6對應(yīng)python代碼

后來又發(fā)現(xiàn)，SLICEL和SLICEM的LUT，從verilog代碼初始值到rbt文件值的映射關(guān)系還是不一樣的，上面是SLICEL的映射關(guān)系，SLICEM（位置是SLICE_X56Y53）的測試數(shù)據(jù)、映射關(guān)系、python代碼分別如表2.5、表2.6、圖2.7所示,表2.6中紅色字體，代表這幾組數(shù)據(jù)是推測得來的（后來證實推測正確）。

表2.5測試原始數(shù)據(jù)-1

LUT初始值	rbt數(shù)據(jù)
0x X_X_X_0001	0x X_X_8000_X
0x X_X_X_0002	0x X_X_X_8000
0x X_X_X_0004	0x X_X_4000_X
0x X_X_X_0008	0x X_X_X_4000
0x X_X_X_0010	0x X_X_2000_X
0x X_X_X_0020	0x X_X_X_2000
0x X_X_X_0040	0x X_X_1000_X
0x X_X_X_0080	0x X_X_X_1000
0x X_X_X_0100	0x 8000_X_X_X
0x X_X_X_0200	0x X_8000_X_X
0x 0100_X_X_X	0x 0008_X_X_X
0x 0200_X_X_X	0x X_0008_X_X
0x X_0100_X_X	0x 0080_X_X_X
0x X_0200_X_X	0x X_0080_X_X
0x X_X_0100_X	0x 0800_X_X_X
0x X_X_0200_X	0x X_0800_X_X
0x 0001_X_X_X	0x X_X_0008_X
0x 0002_X_X_X	0x X_X_X_0008
0x X_0001_X_X	0x X_X_0080_X
0x X_0002_X_X	0x X_X_X_0080
0x X_X_0001_X	0x X_X_0800_X
0x X_X_0002_X	0x X_X_X_0800

表2.6映射關(guān)系-1

LUT初始值	rbt數(shù)據(jù)
1	32
2	16
3	31
4	15
5	30
6	14
7	29
8	13
9	64
10	48
11	63
12	47
13	62
14	46
15	61
16	45
57	52
58	36
41	56
42	40
25	60
26	44
49	20
50	4
33	24
34	8
17	28
18	12

圖2.7對應(yīng)python代碼

上述關(guān)系推導(dǎo)出來之后，還是得不到表2.2的結(jié)果，理論上，初始化值映射后，結(jié)果應(yīng)如表2.7所示，經(jīng)過多次探索嘗試后，發(fā)現(xiàn)原因：Verilog代碼中例化的LUT與FPGA上LUT的管腳的映射關(guān)系是不同的，通過一個例子說明，如圖2.8所示，Verilog代碼例化的LUT，初始化值“0x0123456789ABCDEF”，對應(yīng)的6位地址是I5-I0，但實際FPGA內(nèi)部的LUT如圖2.9所示，對應(yīng)的地址是A6-A1。

表2.7 rbt文件對應(yīng)行數(shù)和值-3

rbt文件行數(shù)	rbt文件值
510521	0x d8d80000
510622	0x ffaa0000
510723	0x 55000000
510824	0x d8d80000

圖2.8 Verilog代碼例化的LUT

圖2.9 FPGA內(nèi)實際的LUT

而Verilog代碼例化的LUT與實際的LUT，地址引腳的對應(yīng)關(guān)系如圖2.10所示，二者又存在一種映射關(guān)系，發(fā)生這種情況的原因是，綜合工具Vivado會綜合考慮各種情況，選擇最優(yōu)的布線，為了達到這種最優(yōu)，允許一個LUT的地址線進行某種翻轉(zhuǎn)。

圖2.10引腳對應(yīng)關(guān)系

為了支持上述的翻轉(zhuǎn)，作者寫了一個簡單的python腳本（目錄：代碼lut_pin_map.py），如圖3.11所示，假如數(shù)據(jù)m是Verilog代碼中的LUT初始化值，則n是映射到實際FPGA中的LUT初始化值。

圖2.11 LUT引腳映射代碼

四、總結(jié)

從Verilog代碼中的LUT初始值到rbt文件中的LUT初始值，遵循的流程如圖2.12所示，經(jīng)過兩次轉(zhuǎn)換后，Verilog代碼中的LUT初始值可以轉(zhuǎn)換為rbt文件中的LUT初始值。

圖2.12 LUT初始化值轉(zhuǎn)換流程

LUT信息提取

我們?nèi)绾沃来渲玫腖UT，其位置是多少？代碼中的LUT與實際的LUT引腳映射關(guān)系是怎樣的？當(dāng)然可以通過Verilog代碼中的位置約束（如BEL="D6LUT",LOC="SLICE_X57Y53"）和xdc文件中的引腳鎖定約束（如set_property LOCK_PINS {I0:A1 I1:A2 I2:A3 I3:A4 I4:A5 I5:A6}[get_cells u_xor_lut/LUT6_inst_D_right]），在生成rbt文件之前，人為地分配好一切，但是，這樣做可能會導(dǎo)致設(shè)計性能下降，因為Vivado的綜合實現(xiàn)算法，是Xilinx公司多年研究的成果，可以認為其是最優(yōu)的。因此，作者不建議通過添加位置約束和LUT引腳鎖定約束的方式，確定待配置LUT的信息，而是生成rbt文件之后，通過Vivado軟件和TCL命令，將LUT的位置信息和引腳約束信息提取出來。

圖1.1 Verilog代碼中的LUT例化

以圖1.1中例化的LUT為例，生成rbt文件后，

LUT位置信息提取命令是：

get_tiles-of_objects [get_property SITE [get_cells -hierarchical"*LUT6_inst_D_right*" ]]

得到的結(jié)果是：CLBLM_L_X34Y53

上述結(jié)果給出的是LUT所在CLB的位置，其中X的值（34）就是前文的圖1.12中的columnaddress，可以通過Y的地址，換算前文圖1.12中的top/bottom address和row address。

LUT引腳映射關(guān)系提取命令是：get_bel_pins-of_objects [get_pins -hierarchical "*LUT6_inst_D_right*"]

得到的結(jié)果是：

SLICE_X57Y53/D6LUT/O6

SLICE_X57Y53/D6LUT/A1

SLICE_X57Y53/D6LUT/A2

SLICE_X57Y53/D6LUT/A3

SLICE_X57Y53/D6LUT/A4

SLICE_X57Y53/D6LUT/A5

SLICE_X57Y53/D6LUT/A6

上述結(jié)果與前文圖2.10中的映射關(guān)系是一致的。

HWICAP操作方法

前面的工作解決了配置幀尋址與配置幀內(nèi)容怎么寫的問題，下面要開始介紹ICAP原語和HWICAP IP核。ICAP原語是Xilinx公司開放給用戶的FPGA內(nèi)部配置接口，如圖2.1所示，使用ICAP原語，需要寫一個控制器，處理接口時序的問題，Xilinx提供了這個控制器，就是HWICAP IP核，如圖2.2所示，這個IP核對外呈現(xiàn)AXI4-LiteSlave接口，使用者可以通過該接口，間接地操縱ICAP原語。

圖1.1 ICAP原語

圖2.2 HWICAP IP核

一、ICAP操作方法

ICAP操作方法主要參考UG953與UG470，尤其是UG470，第五節(jié)Configuration Details介紹了大量有用信息，需要重點關(guān)注的有：

（1）BitstreamComposition小節(jié)，介紹了bit文件/rbt文件的組成形式，可以從中看出一些配置流程相關(guān)的信息；

（2）ConfigurationMemory Frames 小節(jié)，與前文第一節(jié)介紹的幀格式是對應(yīng)的；

（3）ConfigurationPackets小節(jié)，介紹了ConfigurationPackets的細節(jié)，上面說的ConfigurationMemory Frames主要是用于傳輸配置內(nèi)容（如LUT的初始化值），而Configuration Packets主要用于傳輸一些配置相關(guān)的指令，如讀寫配置寄存器。ConfigurationPackets分為兩種，即Type 1packet和Type 2 packet，Type 2報文必須跟在Type 1報文后面，個人認為Type 2報文的作用是對Type 1 報文進行補充，因為Type 1 報文word count字段僅有11bit，只支持2048個word傳輸，而Type 2報文word count字段有27bit，支持134217728個word，具體內(nèi)容請參考UG470 Table 5-20、Table 5-21、Table 5-22；

（4）ConfigurationRegisters小節(jié)，配置相關(guān)寄存器，如圖2.3所示，詳細內(nèi)容請參考UG470 ConfigurationRegisters小節(jié)。

圖2.3 配置寄存器

從圖2.2可知，HWICAP IP核僅支持AXI4-Lite接口，也就是我們操作HWICAP IP核的時候，其實是在配置寄存器，那么該IP核有哪些寄存器呢？如圖2.4所示。

圖2.4 HWICAP IP核的寄存器

下面重點介紹幾個用到的寄存器。我們先分析一下我們將配置幀傳輸進去，需要哪些操作。

寫配置幀：（1）將幀寫入FIFO（2）寫完后開始配置。

上面第一步，將幀寫入FIFO，對應(yīng)的是WriteFIFO Keyhole Register（keyhole就是鑰匙孔，可以說十分形象了），寄存器格式如圖2.5所示；第二步，開始配置，對應(yīng)的寄存器是Control Register，該寄存器可以控制讀，也可以控制寫，寄存器格式如圖2.6所示。

圖2.5 Write FIFO Keyhole Register

圖2.6 Control Register

讀配置幀：（1）告訴IP核讀幾幀（2）開始讀。

第一步對應(yīng)的寄存器是Size Register，定義如圖2.7所示，第二步對應(yīng)的還是ControlRegister，如圖5.6所示。

圖2.7 Size Register

其他的寄存器也有各自的用處，建議讀者參考PG134，進一步了解。

驗證系統(tǒng)

前面做的大量調(diào)研與學(xué)習(xí)，目的是為了能夠做到對單個LUT的在線讀和寫，如何證明我們前面做的工作是正確的呢？答案是建立一個驗證系統(tǒng)，在實際的FPGA系統(tǒng)中，將FPGA內(nèi)部某個特定的LUT內(nèi)容在線讀出來，然后在線將某些內(nèi)容寫進去，如果可以成功做到這一點，可以說研究工作基本成功了。下面我們來介紹驗證系統(tǒng)搭建的詳細流程。

一、開發(fā)板與連接拓補

開發(fā)板連接拓撲如圖3.1所示，F(xiàn)PGA開發(fā)板型號為黑金AX7103，如圖3.2所示，讀者也可以用其他Xilinx FPGA板卡搭建驗證系統(tǒng)（前文的知識適用于所有的7系列FPGA），但是Zynq系列暫時還無法調(diào)通，應(yīng)該是作者忽略了些什么；PC與FPGA通過JTAG連接，PC上運行Vivado軟件，在Vivado TCL Console中輸入TCL命令，可以做到PC與FPGA的交互。

圖3.1驗證環(huán)境拓撲

圖3.2 FPGA開發(fā)板

二、FPGA內(nèi)部模塊設(shè)計

FPGA內(nèi)部模塊設(shè)計如圖3.3所示（工程位置：工程jtag_axi_icap_lut_AX7103_0123），JTAG2AXI IP核和HWICAP IP核負責(zé)實現(xiàn)接收PC的控制指令，實現(xiàn)對LUT內(nèi)容的讀寫；目標(biāo)LUT是被讀寫的對象，其Verilog例化如圖3.4所示。

讀LUT內(nèi)容怎么驗證？

答案：在PC的Vivado軟件TCL Console內(nèi)，寫TCL命令，讀取目標(biāo)LUT內(nèi)容，讀取內(nèi)容與rbt文件的相應(yīng)位置比對（參見前文表2.7，為了簡單起見，我們采用set_property LOCK_PINS{I0:A1 I1:A2 I2:A3 I3:A4 I4:A5 I5:A6} [get_cells u_xor_lut/LUT6_inst_D_right]命令，保證代碼例化LUT與真實LUT管腳一一對應(yīng)，避免出現(xiàn)圖2.10的情況）。

寫LUT內(nèi)容怎么驗證？

答案：在PC的Vivado軟件TCL Console內(nèi)，寫TCL命令，配置目標(biāo)LUT內(nèi)容，配置完成后，觀察ILA。在配置之前，目標(biāo)LUT初始值是0x0123456789ABCDEF，計數(shù)器產(chǎn)生遞減的地址，因此可以用ILA觀察到變化的數(shù)據(jù)；配置內(nèi)容為全0，配置完成后，ILA觀察到的內(nèi)容為全0，證明配置成功。

圖3.3 FPGA內(nèi)部模塊設(shè)計

圖3.4 LUT例化

三、如何編寫TCL代碼 學(xué)習(xí)TCL本身的語法，需要參考Xilinx官方文檔，UG835、UG894，熟悉TCL基本操作，另外，Xilinx高級SAE高亞軍老師的TCL系列教程寫的也很好；學(xué)習(xí)第5節(jié)HWICAP和ICAP的具體操作方法，可以參考Xilinx給的HWICAP官方驅(qū)動（其中的example和src部分讓作者受益匪淺），作者也給出了讀寫LUT需要的TCL代碼（位置：代碼讀LUT-TCL指令和代碼寫LUT-TCL指令），作者寫的這些代碼大量參考了Xilinx給的驅(qū)動（可以從作者代碼的注釋中看出來），另外一定要注意，TCL文件里面的路徑是絕對路徑，要修改成自己電腦上的路徑。 四、驗證結(jié)果

讀LUT內(nèi)容：

下載工程“jtag_axi_icap_lut_AX7103_0123”的bit程序（記得通過VIO復(fù)位，復(fù)位是低電平復(fù)位），運行“read_frame_510521.tcl”文件，該文件讀取LUT的1/4的內(nèi)容，對應(yīng)rbt文件的510521行（見前文表2.7），讀出的結(jié)果如圖3.5所示（如果讀出的結(jié)果不能完全顯示出來，使用“set_param messaging.defaultLimit 5000”命令，修改TCLConsole顯示的消息數(shù)量限制），可以發(fā)現(xiàn)是對應(yīng)的（其他三行的讀操作可以運行同目錄下的其他TCL文件，結(jié)果都是正確的）。

圖3.5讀結(jié)果

寫LUT內(nèi)容

仍然是同樣的bit文件，在配置LUT內(nèi)容之前，ILA可以看到的數(shù)據(jù)如圖3.6所示，從上到下的三個信號，分別是LUT的輸入（地址），LUT的輸出，與LUT輸出的并行化（LUT輸出不方便觀察，并行化之后，方便觀察LUT初始值）；在Vivado TCL Console行“source_write_all.tcl”文件后（記得改地址！?。。?，LUT的內(nèi)容被重置為全0，如圖3.8所示，配置成功。

圖3.6配置前的LUT輸出

圖3.8配置全0后LUT的輸出

驗證系統(tǒng)

獲得的成果：

基本打通了單個LUT動態(tài)讀寫的流程，包括LUT尋址、LUT配置幀格式、rbt文件解析（對照用）、LUT信息提取、LUT配置方法（HWICAP和ICAP操作）、演示驗證系統(tǒng)搭建。

后期還需要做的工作：

（1）后期需要用嵌入式 CPU實現(xiàn)對HWICAP IP核的操作，而不是PC，因為PC+Vivado+TCL的方式效率太低了；作者對軟件開發(fā)了解有限，需要一個精通軟件的人員，協(xié)助作者開發(fā)上層軟件及應(yīng)用，比如開發(fā)文獻中的配表系統(tǒng)；

（2）上述操作方法不適用于Zynq系列，原因未知，目前懷疑是某些操作不到位，Zynq系列的單個LUT動態(tài)讀寫，還需要進一步研究。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴