談IBM UNIX服務(wù)器的技術(shù)優(yōu)勢(shì)
談IBM UNIX服務(wù)器的技術(shù)優(yōu)勢(shì)
1.什么是MBB結(jié)構(gòu)
MBB的全稱是Modular Building Block,每個(gè)BB(Building Block)可包含4路CPU,若干內(nèi)存和I/O卡。在Sun服務(wù)器上稱BB為board;在HP服務(wù)器上稱BB為cell;在原先的Compaq服務(wù)器上稱BB為quad。不同BB內(nèi)的CPU可以有不同的時(shí)鐘頻率。所有的BB通過(guò)一種稱為crossbar switch的交換機(jī)制連接在一起。crossbar switch可以提供BB之間的點(diǎn)對(duì)點(diǎn)的高速連接。
采用MBB技術(shù)可以比較容易的設(shè)計(jì)出擁有更多數(shù)量CPU的服務(wù)器。在這種服務(wù)器上既可以運(yùn)行一個(gè)操作系統(tǒng),也可以在一個(gè)或多個(gè)BB上運(yùn)行多個(gè)操作系統(tǒng)。這就是所謂的服務(wù)器(基于物理分區(qū))的邏輯分區(qū)。
MBB 技術(shù)從出現(xiàn)到現(xiàn)在已經(jīng)超過(guò)十年了,最早是由Sequent (NumaQ)公司在八十年代末到九十年代初時(shí)發(fā)明并采用的。Cray公司在九十年代初時(shí)在它的Cray 6400上采用了MBB技術(shù),該機(jī)型是Sun E10000的前身;Compaq公司在2000年一季度發(fā)布了它的基于MBB技術(shù)的機(jī)型Wildfire (GS320);HP公司發(fā)布了業(yè)界最后一款基于MBB技術(shù)的機(jī)型Superdome,那是在2000年三季度。Sun公司在2001年三季度發(fā)布的 Starfire (F15K)在體系結(jié)構(gòu)上并無(wú)變化,只是將原來(lái)E10000上的CPU換成了SPARC3而已。
2.MBB結(jié)構(gòu)的優(yōu)點(diǎn)
基于MBB技術(shù)的服務(wù)器是由多個(gè)BB構(gòu)成的,所以它天生具有物理分區(qū)(Physical Partition)的特性。前面提到在MBB服務(wù)器上存在一個(gè)連接BB的互連機(jī)制(crossbar switch),它工作在一個(gè)固定的時(shí)鐘頻率上。
例如,在Sunfire服務(wù)器上的Uniboard機(jī)制就是完成這種互連功能的。其總線時(shí)鐘是150MHz,不管CPU的主頻是多少(600,750, 900,1050MHz),它是固定不變的。所帶來(lái)的問(wèn)題是數(shù)據(jù)/指令被傳送出去的等待時(shí)間過(guò)長(zhǎng)。這是典型的高CPU時(shí)鐘頻率和低總線速度的矛盾。
所有的MBB結(jié)構(gòu)的服務(wù)器都具有一個(gè)"顯著"的優(yōu)勢(shì):可以熱插拔CPU板和內(nèi)存板。這是因?yàn)槊恳粋€(gè)BB是物理分開的,每個(gè)4路CPU板可以單獨(dú)從系統(tǒng)中隔離出來(lái)并將其下電。但有一點(diǎn)需要注意:在一個(gè)運(yùn)行的系統(tǒng)中,從一個(gè)BB中拔出CPU、內(nèi)存或I/O板是有限制的,這基于每個(gè)機(jī)型的設(shè)計(jì)不同而不同。例如,Sun 6800服務(wù)器就有一個(gè)警告標(biāo)簽,其注明每個(gè)Uniboard槽在系統(tǒng)運(yùn)行時(shí)空槽位的時(shí)間不能超過(guò)60秒(而且電源、溫度等環(huán)境因素必須控制在一定的范圍內(nèi))。由此推斷,F(xiàn)12K/F15K可能時(shí)間會(huì)更短。
3. MBB結(jié)構(gòu)的缺陷
HP公司當(dāng)初發(fā)布Superdome 服務(wù)器時(shí),曾公布了它與HP其它UNIX服務(wù)器的相對(duì)性能值。64路CPU的Superdome(MBB結(jié)構(gòu))的相對(duì)性能值是20,8路N4000(共享結(jié)構(gòu))的相對(duì)性能值是6.3。我們可以看到,8倍數(shù)量的CPU換來(lái)的只是3倍性能的提升。
造成這種現(xiàn)象的根本原因就在MBB結(jié)構(gòu)上。 Superdome上的每個(gè)cell(BB)里的CPU、內(nèi)存或I/O卡可能需要訪問(wèn)其它c(diǎn)ell里的數(shù)據(jù)。crossbar switch在cell之間建立點(diǎn)對(duì)點(diǎn)的連接,但同時(shí)帶來(lái)延遲(latency)。即如果一個(gè)連接請(qǐng)求建立不成功時(shí),則會(huì)再試一次直到建立連接成功,而此時(shí)其它的連接請(qǐng)求將會(huì)等待。在實(shí)際環(huán)境中,很多客戶通過(guò)建立物理分區(qū)(每個(gè)分區(qū)中最多12到16個(gè)CPU)的方法來(lái)盡量減少這種延遲的影響。這種做法將原來(lái)CPU個(gè)數(shù)較多的機(jī)器分成了若干個(gè)有較少CPU個(gè)數(shù)的機(jī)器,當(dāng)然也就不是原來(lái)宣稱的服務(wù)器的擴(kuò)展性了(例如具有64路CPU的服務(wù)器)。
Sun和Compaq公司的具有MBB結(jié)構(gòu)的服務(wù)器里都有類似的crossbar switch結(jié)構(gòu),當(dāng)然都存在相同的數(shù)據(jù)訪問(wèn)延遲的缺陷:點(diǎn)對(duì)點(diǎn)的連接必須建立,同時(shí)這種連接的建立是競(jìng)爭(zhēng)的。
Sun 公司宣稱其服務(wù)器的擴(kuò)展性是線性的,即服務(wù)器的性能隨著CPU個(gè)數(shù)的增加呈線性增長(zhǎng)。它是用SPECintRate和SPECjbb2000這兩個(gè)基準(zhǔn)測(cè)試值來(lái)證明的。我們需要指出的是:這兩種測(cè)試方法只是基于CPU本身,并沒(méi)有共享數(shù)據(jù)的訪問(wèn)和網(wǎng)絡(luò)及硬盤I/O的發(fā)生。很顯然,這與實(shí)際情況是不相符的。
我們談服務(wù)器的性能是整體的去看。有很多可以整體評(píng)價(jià)服務(wù)器性能的基準(zhǔn)測(cè)試,例如:TPC/C、Oracle ASB11i、Peoplesoft、SAP、Baan、JDEdwards等。這些測(cè)試方法都具有數(shù)據(jù)庫(kù)訪問(wèn)、模擬客戶的實(shí)際應(yīng)用和很大的I/O訪問(wèn)量等特點(diǎn)。
4. 以POWER4為芯片的IBM UNIX服務(wù)器的設(shè)計(jì)
IBM UNIX(p系列)服務(wù)器的設(shè)計(jì)思想是共享式的,即所有CPU可以同等的看到所有的內(nèi)存和I/O的連接方式:一種全新的為數(shù)據(jù)/指令流提供足夠的高速通路的體系結(jié)構(gòu)。
p 系列服務(wù)器CPU數(shù)量的增加是一個(gè)成比例漸進(jìn)的過(guò)程。目前p690上的最大CPU個(gè)數(shù)是32路。從p690"以少勝多"的實(shí)例來(lái)看,服務(wù)器CPU數(shù)量的多少并不真正代表其處理能力的高低。P690(32路CPU)勝過(guò)Superdome(64路CPU)就是一個(gè)有力的證明。
POWER4和以POWER4為芯片的服務(wù)器在設(shè)計(jì)上有兩個(gè)重要點(diǎn):
· 消除對(duì)數(shù)據(jù)傳送的約束
· 數(shù)據(jù)傳送能力是隨著CPU性能的增長(zhǎng)而增長(zhǎng)
下面將比較詳細(xì)的做一介紹:
(1) 在POWER4芯片上設(shè)計(jì)了較大的緩沖區(qū)。一個(gè)POWER4芯片(chip)上有兩個(gè)核心處理器,每個(gè)核心處理器有一個(gè)L1緩沖器(32KB數(shù)據(jù)和 64KB指令),并且每個(gè)芯片上有一個(gè)共享的L2緩沖器(1.5MB)。這個(gè)L2緩沖器的時(shí)鐘頻率是核心處理器的一半。每個(gè) L2緩沖器有三個(gè)32字節(jié)寬的總線與兩個(gè)核心處理器相連,用于向兩個(gè)核心處理器傳送指令和數(shù)據(jù)。另外還有三條8字節(jié)寬的總線用于從兩個(gè)核心處理器回傳數(shù)據(jù)給L2緩沖器。POWER4創(chuàng)造了第一個(gè)消除了控制信號(hào)和數(shù)據(jù)傳送沖突的CPU結(jié)構(gòu)。
POWER4處理器有一個(gè)L3緩沖器控制器,它是與32MB大小的L3緩沖器的接口。在業(yè)界有一種說(shuō)法:任何I/O都是不好的,即CPU運(yùn)行時(shí)所需的數(shù)據(jù)不在內(nèi)存里,需要從外設(shè)中讀入。最理想的狀態(tài)是處理器運(yùn)行時(shí)所需要的指令/數(shù)據(jù)全都滿足,其次是指令/數(shù)據(jù)在L1緩沖器中,再其次是在L2緩沖器中,再其次是在L3緩沖器中,最差的情況是在內(nèi)存里。p 系列服務(wù)器上的緩沖區(qū)總數(shù)量是Sun服務(wù)器的四倍,是HP服務(wù)器的十五倍。 (2) 在POWER4的設(shè)計(jì)中存在一個(gè)稱作分布式交換器(distributed switch)的連接機(jī)制。它提供在一個(gè)MCM(Multi-Chip Module)上的處理器之間的點(diǎn)對(duì)點(diǎn)的連接,也用于在不同的MCM上的處理器之間的點(diǎn)對(duì)點(diǎn)的連接。這個(gè)分布式交換器的時(shí)鐘頻率是CPU的時(shí)鐘頻率的一半。例如,如果是1.3GHz POWER4的處理器,則分布式交換器提供16字節(jié)寬、時(shí)鐘是650MHz的點(diǎn)對(duì)點(diǎn)總線連接。
IBM目前提供給UNIX市場(chǎng)的服務(wù)器,真正實(shí)現(xiàn)了CPU處理能力和服務(wù)器處理能力的線性增長(zhǎng)。
5. 關(guān)于IBM UNIX服務(wù)器上的一些"限制"
IBM 在其UNIX服務(wù)器(p系列)的設(shè)計(jì)上沒(méi)有采用MBB的設(shè)計(jì)結(jié)構(gòu),所以在p系列機(jī)器上不支持物理分區(qū)。IBM沿用了大主機(jī)S390上的邏輯分區(qū)(LPAR)設(shè)計(jì)思想,即設(shè)計(jì)一個(gè)hypervisor(系統(tǒng)管理程序),它能看到所有的真實(shí)資源(CPU、內(nèi)存和I/O卡),并且通過(guò)一個(gè)控制臺(tái)(HMC)來(lái)管理邏輯分區(qū)。通過(guò)HMC將上述提到的資源定義到不同的邏輯分區(qū)中去,每個(gè)邏輯分區(qū)所需的最小資源是一個(gè)CPU、1GB內(nèi)存和一個(gè)PCI插槽。
IBM沒(méi)用象其它廠商那樣采用crossbar switch技術(shù)做CPU之間的連接。在p系列服務(wù)器上所有的CPU能夠看到所有的內(nèi)存和I/O資源,它不允許不同主頻的CPU共存在同一臺(tái)機(jī)器內(nèi)。而 MBB結(jié)構(gòu)的服務(wù)器則允許這樣做,其代價(jià)就是crossbar switch工作在相同的帶寬上(MBB之間的連接帶寬恒定),所以高主頻CPU帶來(lái)的服務(wù)器整體性能提升是有限的。
在p系列服務(wù)器上,如果升級(jí)CPU則必須更換整個(gè)CPU板,其優(yōu)點(diǎn)是CPU主頻和系統(tǒng)總線帶寬同時(shí)得到提升,保證更高主頻的CPU帶來(lái)更高的服務(wù)器性能。
由于沒(méi)有采用MBB的設(shè)計(jì)結(jié)構(gòu),所以在p系列服務(wù)器上不支持熱插拔CPU板和內(nèi)存板。"熱插拔"這個(gè)設(shè)計(jì)思想的目的是為了方便系統(tǒng)維護(hù),即更換服務(wù)器失效部件時(shí)不需停機(jī),以減少計(jì)劃內(nèi)停機(jī)時(shí)間、提高系統(tǒng)的可用性(availability)。
關(guān)于系統(tǒng)可用性方面,IBM的設(shè)計(jì)思想是:在關(guān)鍵性部件(如CPU,內(nèi)存等)出現(xiàn)硬件故障時(shí),系統(tǒng)能自動(dòng)隔離失效部件并且繼續(xù)運(yùn)行。主要包括如下三個(gè)方面的內(nèi)容:
·選用高質(zhì)量的材料,制造高質(zhì)量的部件,提供更高的可靠性。
·IBM 發(fā)明的自診斷技術(shù)FFDC(First Failure Data Capture)能夠做到早發(fā)現(xiàn)故障(例如在p690上就設(shè)計(jì)有5600多個(gè)觀察點(diǎn)),并能自動(dòng)隔離失效部件。目前在p系列服務(wù)器上能做到自動(dòng)隔離失效的 CPU、L2/L3緩沖器、PCI總線、PCI卡和LPAR(邏輯分區(qū))等,使系統(tǒng)能夠繼續(xù)運(yùn)行。
·客戶在計(jì)劃內(nèi)的停機(jī)維護(hù)時(shí)間里,可以很快的修復(fù)失效部件。據(jù)研究表明計(jì)劃內(nèi)的停機(jī)是有代價(jià)的(對(duì)客戶來(lái)講有些損失),但非計(jì)劃內(nèi)停機(jī)所帶來(lái)的損失則是幾何級(jí)數(shù)量的。采用MBB結(jié)構(gòu)服務(wù)器的廠商聲稱熱插拔CPU/內(nèi)存的功能可減少計(jì)劃內(nèi)的停機(jī)時(shí)間,但其服務(wù)器有限的自診斷和自隔離功能將增加非計(jì)劃內(nèi)的停機(jī)時(shí)間。
6. 結(jié)束語(yǔ)
IBM是唯一一家在高端服務(wù)器行業(yè)有能力自己設(shè)計(jì)、研發(fā)和制造的廠家。IBM設(shè)計(jì)和制造CPU的成就是非凡的。從我們目前所熟知的銅芯片、絕緣硅技術(shù),到后繼的low-K dielectric和silicon strainin等新技術(shù)已一一被發(fā)明出來(lái)。 IBM在服務(wù)器的設(shè)計(jì)、軟件的設(shè)計(jì)和存儲(chǔ)器方面的成就也是令人矚目的。從大型主機(jī)上繼承下來(lái)的豐富的多機(jī)系統(tǒng)設(shè)計(jì)、中央數(shù)據(jù)處理、高可靠(RAS)設(shè)計(jì)等經(jīng)驗(yàn)已經(jīng)遷移到UNIX服務(wù)器的設(shè)計(jì)和實(shí)踐中。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
相關(guān)閱讀:
- [電子說(shuō)] 運(yùn)籌帷幄明察秋毫,IBM 集成安全平臺(tái)給企業(yè)“看得見”的安全 2023-10-24
- [電子說(shuō)] IBM Security可落地經(jīng)驗(yàn)助企業(yè)構(gòu)筑現(xiàn)代化安全屏障 2023-10-24
- [電子說(shuō)] 數(shù)百 IBM 志愿者赴京郊八達(dá)嶺育林,以實(shí)際行動(dòng)助力可持續(xù)發(fā)展 2023-10-21
- [電子說(shuō)] IBM開發(fā)新芯片為AI提速:消除片外內(nèi)存,靈感來(lái)自大腦 2023-10-23
- [電子說(shuō)] 【重磅】首批 IBM watsonx 專有 “花崗巖”Granite 模型全球開始上市,化解企業(yè)采 2023-10-20
- [通信網(wǎng)絡(luò)] SSH端口號(hào)是什么?SSH原理詳解分析 2023-10-16
- [電子說(shuō)] IBMS系統(tǒng)在信息化的基礎(chǔ)上實(shí)現(xiàn)醫(yī)院跨子系統(tǒng)的全局化事件的集成管理 2023-10-10
- [軍用/航空電子] 聊聊無(wú)人機(jī)飛控的兩類操作系統(tǒng)介紹 2023-10-08
( 發(fā)表人:admin )