一、前言
進(jìn)程切換是一個(gè)復(fù)雜的過(guò)程,本文不準(zhǔn)備詳細(xì)描述整個(gè)進(jìn)程切換的方方面面,而是關(guān)注進(jìn)程切換中一個(gè)小小的知識(shí)點(diǎn):TLB的處理。為了能夠講清楚這個(gè)問(wèn)題,我們?cè)诘诙旅枋鲈趩?a target="_blank">CPU場(chǎng)景下一些和TLB相關(guān)的細(xì)節(jié),第三章推進(jìn)到多核場(chǎng)景,至此,理論部分結(jié)束。在第二章和第三章,我們從基本的邏輯角度出發(fā),并不拘泥于特定的CPU和特定的OS,這里需要大家對(duì)基本的TLB的組織原理有所了解,具體可以參考本站的《TLB操作》一文。再好的邏輯也需要體現(xiàn)在HW block和SW block的設(shè)計(jì)中,在第四章,我們給出了linux4.4.6內(nèi)核在ARM64平臺(tái)上的TLB代碼處理細(xì)節(jié)(在描述tlb lazy mode的時(shí)候引入部分x86架構(gòu)的代碼),希望能通過(guò)具體的代碼和實(shí)際的CPU硬件行為加深大家對(duì)原理的理解。
二、單核場(chǎng)景的工作原理
1、block diagram
我們先看看在單核場(chǎng)景下,和進(jìn)程切換相關(guān)的邏輯block示意圖:
CPU上運(yùn)行了若干的用戶空間的進(jìn)程和內(nèi)核線程,為了加快性能,CPU中往往設(shè)計(jì)了TLB和Cache這樣的HW block。Cache為了更快的訪問(wèn)main memory中的數(shù)據(jù)和指令,而TLB是為了更快的進(jìn)行地址翻譯而將部分的頁(yè)表內(nèi)容緩存到了Translation lookasid buffer中,避免了從main memory訪問(wèn)頁(yè)表的過(guò)程。
假如不做任何的處理,那么在進(jìn)程A切換到進(jìn)程B的時(shí)候,TLB和Cache中同時(shí)存在了A和B進(jìn)程的數(shù)據(jù)。對(duì)于kernel space其實(shí)無(wú)所謂,因?yàn)樗械倪M(jìn)程都是共享的,但是對(duì)于A和B進(jìn)程,它們各種有自己的獨(dú)立的用戶地址空間,也就是說(shuō),同樣的一個(gè)虛擬地址X,在A的地址空間中可以被翻譯成Pa,而在B地址空間中會(huì)被翻譯成Pb,如果在地址翻譯過(guò)程中,TLB中同時(shí)存在A和B進(jìn)程的數(shù)據(jù),那么舊的A地址空間的緩存項(xiàng)會(huì)影響B(tài)進(jìn)程地址空間的翻譯,因此,在進(jìn)程切換的時(shí)候,需要有tlb的操作,以便清除舊進(jìn)程的影響,具體怎樣做呢?我們下面一一討論。
2、絕對(duì)沒(méi)有問(wèn)題,但是性能不佳的方案
當(dāng)系統(tǒng)發(fā)生進(jìn)程切換,從進(jìn)程A切換到進(jìn)程B,從而導(dǎo)致地址空間也從A切換到B,這時(shí)候,我們可以認(rèn)為在A進(jìn)程執(zhí)行過(guò)程中,所有TLB和Cache的數(shù)據(jù)都是for A進(jìn)程的,一旦切換到B,整個(gè)地址空間都不一樣了,因此需要全部flush掉(注意:我這里使用了linux內(nèi)核的術(shù)語(yǔ),flush就是意味著將TLB或者cache中的條目設(shè)置為無(wú)效,對(duì)于一個(gè)ARM平臺(tái)上的嵌入式工程師,一般我們會(huì)更習(xí)慣使用invalidate這個(gè)術(shù)語(yǔ),不管怎樣,在本文中,flush等于invalidate)。
這種方案當(dāng)然沒(méi)有問(wèn)題,當(dāng)進(jìn)程B被切入執(zhí)行的時(shí)候,其面對(duì)的CPU是一個(gè)干干凈凈,從頭開(kāi)始的硬件環(huán)境,TLB和Cache中不會(huì)有任何的殘留的A進(jìn)程的數(shù)據(jù)來(lái)影響當(dāng)前B進(jìn)程的執(zhí)行。當(dāng)然,稍微有一點(diǎn)遺憾的就是在B進(jìn)程開(kāi)始執(zhí)行的時(shí)候,TLB和Cache都是冰冷的(空空如也),因此,B進(jìn)程剛開(kāi)始執(zhí)行的時(shí)候,TLB miss和Cache miss都非常嚴(yán)重,從而導(dǎo)致了性能的下降。
3、如何提高TLB的性能?
對(duì)一個(gè)模塊的優(yōu)化往往需要對(duì)該模塊的特性進(jìn)行更細(xì)致的分析、歸類,上一節(jié),我們采用進(jìn)程地址空間這樣的術(shù)語(yǔ),其實(shí)它可以被進(jìn)一步細(xì)分為內(nèi)核地址空間和用戶地址空間。對(duì)于所有的進(jìn)程(包括內(nèi)核線程),內(nèi)核地址空間是一樣的,因此對(duì)于這部分地址翻譯,無(wú)論進(jìn)程如何切換,內(nèi)核地址空間轉(zhuǎn)換到物理地址的關(guān)系是永遠(yuǎn)不變的,其實(shí)在進(jìn)程A切換到B的時(shí)候,不需要flush掉,因?yàn)锽進(jìn)程也可以繼續(xù)使用這部分的TLB內(nèi)容(上圖中,橘色的block)。對(duì)于用戶地址空間,各個(gè)進(jìn)程都有自己獨(dú)立的地址空間,在進(jìn)程A切換到B的時(shí)候,TLB中的和A進(jìn)程相關(guān)的entry(上圖中,青色的block)對(duì)于B是完全沒(méi)有任何意義的,需要flush掉。
在這樣的思路指導(dǎo)下,我們其實(shí)需要區(qū)分global和local(其實(shí)就是process-specific的意思)這兩種類型的地址翻譯,因此,在頁(yè)表描述符中往往有一個(gè)bit來(lái)標(biāo)識(shí)該地址翻譯是global還是local的,同樣的,在TLB中,這個(gè)標(biāo)識(shí)global還是local的flag也會(huì)被緩存起來(lái)。有了這樣的設(shè)計(jì)之后,我們可以根據(jù)不同的場(chǎng)景而flush all或者只是flush local tlb entry。
4、特殊情況的考量
我們考慮下面的場(chǎng)景:進(jìn)程A切換到內(nèi)核線程K之后,其實(shí)地址空間根本沒(méi)有必要切換,線程K能訪問(wèn)的就是內(nèi)核空間的那些地址,而這些地址也是和進(jìn)程A共享的。既然沒(méi)有切換地址空間,那么也就不需要flush 那些進(jìn)程特定的tlb entry了,當(dāng)從K切換會(huì)A進(jìn)程后,那么所有TLB的數(shù)據(jù)都是有效的,從大大降低了tlb miss。此外,對(duì)于多線程環(huán)境,切換可能發(fā)生在一個(gè)進(jìn)程中的兩個(gè)線程,這時(shí)候,線程在同樣的地址空間,也根本不需要flush tlb。
4、進(jìn)一步提升TLB的性能
還有可能進(jìn)一步提升TLB的性能嗎?有沒(méi)有可能根本不flush TLB?
當(dāng)然可以,不過(guò)這需要我們?cè)谠O(shè)計(jì)TLB block的時(shí)候需要識(shí)別process specific的tlb entry,也就是說(shuō),TLB block需要感知到各個(gè)進(jìn)程的地址空間。為了完成這樣的設(shè)計(jì),我們需要標(biāo)識(shí)不同的address space,這里有一個(gè)術(shù)語(yǔ)叫做ASID(address space ID)。原來(lái)TLB查找是通過(guò)虛擬地址VA來(lái)判斷是否TLB hit。有了ASID的支持后,TLB hit的判斷標(biāo)準(zhǔn)修改為(虛擬地址+ASID),ASID是每一個(gè)進(jìn)程分配一個(gè),標(biāo)識(shí)自己的進(jìn)程地址空間。TLB block如何知道一個(gè)tlb entry的ASID呢?一般會(huì)來(lái)自CPU的系統(tǒng)寄存器(對(duì)于ARM64平臺(tái),它來(lái)自TTBRx_EL1寄存器),這樣在TLB block在緩存(VA-PA-Global flag)的同時(shí),也就把當(dāng)前的ASID緩存在了對(duì)應(yīng)的TLB entry中,這樣一個(gè)TLB entry中包括了(VA-PA-Global flag-ASID)。
有了ASID的支持后,A進(jìn)程切換到B進(jìn)程再也不需要flush tlb了,因?yàn)锳進(jìn)程執(zhí)行時(shí)候緩存在TLB中的殘留A地址空間相關(guān)的entry不會(huì)影響到B進(jìn)程,雖然A和B可能有相同的VA,但是ASID保證了硬件可以區(qū)分A和B進(jìn)程地址空間。
三、多核的TLB操作
1、block diagram
完成單核場(chǎng)景下的分析之后,我們一起來(lái)看看多核的情況。進(jìn)程切換相關(guān)的TLB邏輯block示意圖如下:
在多核系統(tǒng)中,進(jìn)程切換的時(shí)候,TLB的操作要復(fù)雜一些,主要原因有兩點(diǎn):其一是各個(gè)cpu core有各自的TLB,因此TLB的操作可以分成兩類,一類是flush all,即將所有cpu core上的tlb flush掉,還有一類操作是flush local tlb,即僅僅flush本cpu core的tlb。另外一個(gè)原因是進(jìn)程可以調(diào)度到任何一個(gè)cpu core上執(zhí)行(當(dāng)然具體和cpu affinity的設(shè)定相關(guān)),從而導(dǎo)致task處處留情(在各個(gè)cpu上留有殘余的tlb entry)。
2、TLB操作的基本思考
根據(jù)上一節(jié)的描述,我們了解到地址翻譯有g(shù)lobal(各個(gè)進(jìn)程共享)和local(進(jìn)程特定的)的概念,因而tlb entry也有g(shù)lobal和local的區(qū)分。如果不區(qū)分這兩個(gè)概念,那么進(jìn)程切換的時(shí)候,直接flush該cpu上的所有殘余。這樣,當(dāng)進(jìn)程A切出的時(shí)候,留給下一個(gè)進(jìn)程B一個(gè)清爽的tlb,而當(dāng)進(jìn)程A在其他cpu上再次調(diào)度的時(shí)候,它面臨的也是一個(gè)全空的TLB(其他cpu的tlb不會(huì)影響)。當(dāng)然,如果區(qū)分global 和local,那么tlb操作也基本類似,只不過(guò)進(jìn)程切換的時(shí)候,不是flush該cpu上的所有tlb entry,而是flush所有的tlb local entry就OK了。
對(duì)local tlb entry還可以進(jìn)一步細(xì)分,那就是了ASID(address space ID)或者PCID(process context ID)的概念了(global tlb entry不區(qū)分ASID)。如果支持ASID(或者PCID)的話,tlb操作變得簡(jiǎn)單一些,或者說(shuō)我們沒(méi)有必要執(zhí)行tlb操作了,因?yàn)樵赥LB搜索的時(shí)候已經(jīng)可以區(qū)分各個(gè)task上下文了,這樣,各個(gè)cpu中殘留的tlb不會(huì)影響其他任務(wù)的執(zhí)行。在單核系統(tǒng)中,這樣的操作可以獲取很好的性能。比如A---B--->A這樣的場(chǎng)景中,如果TLB足夠大,可以容納2個(gè)task的tlb entry(現(xiàn)代cpu一般也可以做到這一點(diǎn)),那么A再次切回的時(shí)候,TLB是hot的,大大提升了性能。
不過(guò),對(duì)于多核系統(tǒng),這種情況有一點(diǎn)點(diǎn)的麻煩,其實(shí)也就是傳說(shuō)中的TLB shootdown帶來(lái)的性能問(wèn)題。在多核系統(tǒng)中,如果cpu支持PCID并且在進(jìn)程切換的時(shí)候不flush tlb,那么系統(tǒng)中各個(gè)cpu中的tlb entry則保留各種task的tlb entry,當(dāng)在某個(gè)cpu上,一個(gè)進(jìn)程被銷毀,或者修改了自己的頁(yè)表(也就是修改了VA PA映射關(guān)系)的時(shí)候,我們必須將該task的相關(guān)tlb entry從系統(tǒng)中清除出去。這時(shí)候,你不僅僅需要flush本cpu上對(duì)應(yīng)的TLB entry,還需要shootdown其他cpu上的和該task相關(guān)的tlb殘余。而這個(gè)動(dòng)作一般是通過(guò)IPI實(shí)現(xiàn)(例如X86),從而引入了開(kāi)銷。此外PCID的分配和管理也會(huì)帶來(lái)額外的開(kāi)銷,因此,OS是否支持PCID(或者ASID)是由各個(gè)arch代碼自己決定(對(duì)于linux而言,x86不支持,而ARM平臺(tái)是支持的)。
四、進(jìn)程切換中的tlb操作代碼分析
1、tlb lazy mode
在context_switch中有這樣的一段代碼:
if (!mm) {
next->active_mm = oldmm;
atomic_inc(&oldmm->mm_count);
enter_lazy_tlb(oldmm, next);
} else
switch_mm(oldmm, mm, next);
這段代碼的意思就是如果要切入的next task是一個(gè)內(nèi)核線程(next->mm == NULL )的話,那么可以通過(guò)enter_lazy_tlb函數(shù)標(biāo)記本cpu上的next task進(jìn)入lazy TLB mode。由于ARM64平臺(tái)上的enter_lazy_tlb函數(shù)是空函數(shù),因此我們采用X86來(lái)描述lazy TLB mode。
當(dāng)然,我們需要一些準(zhǔn)備工作,畢竟對(duì)于熟悉ARM平臺(tái)的嵌入式工程師而言,x86多少有點(diǎn)陌生。
到目前,我們還都是從邏輯角度來(lái)描述TLB操作,但是在實(shí)際中,進(jìn)程切換中的tlb操作是HW完成還是SW完成呢?不同的處理器思路是不一樣的(具體原因未知),有的處理器是HW完成,例如X86,在加載cr3寄存器進(jìn)行地址空間切換的時(shí)候,hw會(huì)自動(dòng)操作tlb。而有的處理是需要軟件參與完成tlb操作,例如ARM系列的處理器,在切換TTBR寄存器的時(shí)候,HW沒(méi)有tlb動(dòng)作,需要SW完成tlb操作。因此,x86平臺(tái)上,在進(jìn)程切換的時(shí)候,軟件不需要顯示的調(diào)用tlb flush函數(shù),在switch_mm函數(shù)中會(huì)用next task中的mm->pgd加載CR3寄存器,這時(shí)候load cr3的動(dòng)作會(huì)導(dǎo)致本cpu中的local tlb entry被全部flush掉。
在x86支持PCID(X86術(shù)語(yǔ),相當(dāng)與ARM的ASID)的情況下會(huì)怎樣呢?也會(huì)在load cr3的時(shí)候flush掉所有的本地CPU上的 local tlb entry嗎?其實(shí)在linux中,由于TLB shootdown,普通的linux并不支持PCID(KVM中會(huì)使用,但是不在本文考慮范圍內(nèi)),因此,對(duì)于x86的進(jìn)程地址空間切換,它就是會(huì)有flush local tlb entry這樣的side effect。
另外有一點(diǎn)是ARM64和x86不同的地方:ARM64支持在一個(gè)cpu core執(zhí)行tlb flush的指令,例如tlbi vmalle1is,將inner shareablity domain中的所有cpu core的tlb全部flush掉。而x86不能,如果想要flush掉系統(tǒng)中多有cpu core的tlb,只能是通過(guò)IPI通知到其他cpu進(jìn)行處理。
好的,至此,所有預(yù)備知識(shí)都已經(jīng)ready了,我們進(jìn)入tlb lazy mode這個(gè)主題。雖然進(jìn)程切換伴隨tlb flush操作,但是某些場(chǎng)景亦可避免。在下面的場(chǎng)景,我們可以不flush tlb(我們?nèi)匀徊捎肁--->B task的場(chǎng)景來(lái)描述):
(1)如果要切入的next task B是內(nèi)核線程,那么我們也暫時(shí)不需要flush TLB,因?yàn)閮?nèi)核線程不會(huì)訪問(wèn)usersapce,而那些進(jìn)程A殘留的TLB entry也不會(huì)影響內(nèi)核線程的執(zhí)行,畢竟B沒(méi)有自己的用戶地址空間,而且和A共享內(nèi)核地址空間。
(2)如果A和B在一個(gè)地址空間中(一個(gè)進(jìn)程中的兩個(gè)線程),那么我們也暫時(shí)不需要flush TLB。
除了進(jìn)程切換,還有其他的TLB flush場(chǎng)景。我們先看一個(gè)通用的TLB flush場(chǎng)景,如下圖所示:
一個(gè)4核系統(tǒng)中,A0 A1和A2 task屬于同一個(gè)進(jìn)程地址空間,CPU_0和CPU_2上分別運(yùn)行了A0和A2 task,CPU_1有點(diǎn)特殊,它正在運(yùn)行一個(gè)內(nèi)核線程,但是該內(nèi)核線程正在借用A1 task的地址空間,CPU_3上運(yùn)行不相關(guān)的B task。
當(dāng)A0 task修改了自己的地址翻譯,那么它不能只是flush CPU_0的tlb,還需要通知到CPU_1和CPU_2,因?yàn)檫@兩個(gè)CPU上當(dāng)前active的地址空間和CPU_0是一樣的。由于A1 task的修改,CPU_1和CPU_2上的這些緩存的TLB entry已經(jīng)失效了,需要flush。同理,可以推廣到更多的CPU上,也就是說(shuō),在某個(gè)CPUx上運(yùn)行的task修改了地址映射關(guān)系,那么tlb flush需要傳遞到所有相關(guān)的CPU中(當(dāng)前的mm等于CPUx的current mm)。在多核系統(tǒng)中,這樣的通過(guò)IPI來(lái)傳遞TLB flush的消息會(huì)隨著cpu core的增加而增加,有沒(méi)有辦法減少那些沒(méi)有必要的TLB flush呢?當(dāng)然有,也就是上圖中的A1 task場(chǎng)景,這也就是傳說(shuō)中的lazy tlb mode。
我先回頭看看代碼。在代碼中,如果next task是內(nèi)核線程,我們并不會(huì)執(zhí)行switch_mm(該函數(shù)會(huì)引起tlb flush的動(dòng)作),而是調(diào)用enter_lazy_tlb進(jìn)入lazy tlb mode。在x86架構(gòu)下,代碼如下:
static inline void enter_lazy_tlb(struct mm_struct *mm, struct task_struct *tsk)
{
#ifdef CONFIG_SMP
if (this_cpu_read(cpu_tlbstate.state) == TLBSTATE_OK)
this_cpu_write(cpu_tlbstate.state, TLBSTATE_LAZY);
#endif
}
在x86架構(gòu)下,進(jìn)入lazy tlb mode也就是在該cpu的cpu_tlbstate變量中設(shè)定TLBSTATE_LAZY的狀態(tài)就OK了。因此,進(jìn)入lazy mode的時(shí)候,也就不需要調(diào)用switch_mm來(lái)切換進(jìn)程地址空間,也就不會(huì)執(zhí)行flush tlb這樣毫無(wú)意義的動(dòng)作了。enter_lazy_tlb并不操作硬件,只要記錄該cpu的軟件狀態(tài)就OK了。
切換之后,內(nèi)核線程進(jìn)入執(zhí)行狀態(tài),CPU_1的TLB殘留進(jìn)程A的entry,這對(duì)于內(nèi)核線程的執(zhí)行沒(méi)有影響,但是當(dāng)其他CPU發(fā)送IPI要求flush TLB的時(shí)候呢?按理說(shuō)應(yīng)該立刻flush tlb,但是在lazy tlb mode下,我們可以不執(zhí)行flush tlb操作。這樣問(wèn)題來(lái)了:什么時(shí)候flush掉殘留的A進(jìn)程的tlb entry呢?答案是在下一次進(jìn)程切換中。因?yàn)橐坏﹥?nèi)核線程被schedule out,并且切入一個(gè)新的進(jìn)程C,那么在switch_mm,切入到C進(jìn)程地址空間的時(shí)候,所有之前的殘留都會(huì)被清除掉(因?yàn)橛衛(wèi)oad cr3的動(dòng)作)。因此,在執(zhí)行內(nèi)核線程的時(shí)候,我們可以推遲tlb invalidate的請(qǐng)求。也就是說(shuō),當(dāng)收到ipi中斷要求進(jìn)行該mm的tlb invalidate的動(dòng)作的時(shí)候,我們暫時(shí)沒(méi)有必要執(zhí)行了,只需要記錄狀態(tài)就OK了。
2、ARM64中如何管理ASID?
和x86不同的是:ARM64支持了ASID(類似x86的PCID),難道ARM64解決了TLB Shootdown的問(wèn)題?其實(shí)我也在思考這個(gè)問(wèn)題,但是還沒(méi)有想明白。很顯然,在ARM64中,我們不需要通過(guò)IPI來(lái)進(jìn)行所有cpu core的TLB flush動(dòng)作,ARM64在指令集層面支持shareable domain中所有PEs上的TLB flush動(dòng)作,也許是這樣的指令讓TLB flush的開(kāi)銷也沒(méi)有那么大,那么就可以選擇支持ASID,在進(jìn)程切換的時(shí)候不需要進(jìn)行任何的TLB操作,同時(shí),由于不需要IPI來(lái)傳遞TLB flush,那么也就沒(méi)有特別的處理lazy tlb mode了。
既然linux中,ARM64選擇支持ASID,那么它就要直面ASID的分配和管理問(wèn)題了。硬件支持的ASID有一定限制,它的編址空間是8個(gè)或者16個(gè)bit,最大256或者65535個(gè)ID。當(dāng)ASID溢出之后如何處理呢?這就需要一些軟件的控制來(lái)協(xié)調(diào)處理。我們用硬件支持上限為256個(gè)ASID的情景來(lái)描述這個(gè)基本的思路:當(dāng)系統(tǒng)中各個(gè)cpu的TLB中的asid合起來(lái)不大于256個(gè)的時(shí)候,系統(tǒng)正常運(yùn)行,一旦超過(guò)256的上限后,我們將全部TLB flush掉,并重新分配ASID,每達(dá)到256上限,都需要flush tlb并重新分配HW ASID。具體分配ASID代碼如下:
static u64 new_context(struct mm_struct *mm, unsigned int cpu)
{
static u32 cur_idx = 1;
u64 asid = atomic64_read(&mm->context.id);
u64 generation = atomic64_read(&asid_generation);
if (asid != 0) {-------------------------(1)
u64 newasid = generation | (asid & ~ASID_MASK);
if (check_update_reserved_asid(asid, newasid))
return newasid;
asid &= ~ASID_MASK;
if (!__test_and_set_bit(asid, asid_map))
return newasid;
}
asid = find_next_zero_bit(asid_map, NUM_USER_ASIDS, cur_idx);---(2)
if (asid != NUM_USER_ASIDS)
goto set_asid;
generation = atomic64_add_return_relaxed(ASID_FIRST_VERSION,----(3)
&asid_generation);
flush_context(cpu);
asid = find_next_zero_bit(asid_map, NUM_USER_ASIDS, 1); ------(4)
set_asid:
__set_bit(asid, asid_map);
cur_idx = asid;
return asid | generation;
}
(1)在創(chuàng)建新的進(jìn)程的時(shí)候會(huì)分配一個(gè)新的mm,其software asid(mm->context.id)初始化為0。如果asid不等于0那么說(shuō)明這個(gè)mm之前就已經(jīng)分配過(guò)software asid(generation+hw asid)了,那么new context不過(guò)就是將software asid中的舊的generation更新為當(dāng)前的generation而已。
(2)如果asid等于0,說(shuō)明我們的確是需要分配一個(gè)新的HW asid,這時(shí)候首先要找一個(gè)空閑的HW asid,如果能夠找到(jump to set_asid),那么直接返回software asid(當(dāng)前generation+新分配的hw asid)。
(3)如果找不到一個(gè)空閑的HW asid,說(shuō)明HW asid已經(jīng)用光了,這是只能提升generation了。這時(shí)候,多有cpu上的所有的old generation需要被flush掉,因?yàn)橄到y(tǒng)已經(jīng)準(zhǔn)備進(jìn)入new generation了。順便一提的是這里generation變量已經(jīng)被賦值為new generation了。
(4)在flush_context函數(shù)中,控制HW asid的asid_map已經(jīng)被全部清零了,因此,這里進(jìn)行的是new generation中HW asid的分配。
3、進(jìn)程切換過(guò)程中ARM64的tlb操作以及ASID的處理
代碼位于arch/arm64/mm/context.c中的check_and_switch_context:
void check_and_switch_context(struct mm_struct *mm, unsigned int cpu)
{
unsigned long flags;
u64 asid;
asid = atomic64_read(&mm->context.id); -------------(1)
if (!((asid ^ atomic64_read(&asid_generation)) >> asid_bits) ------(2)
&& atomic64_xchg_relaxed(&per_cpu(active_asids, cpu), asid))
goto switch_mm_fastpath;
raw_spin_lock_irqsave(&cpu_asid_lock, flags);
asid = atomic64_read(&mm->context.id);
if ((asid ^ atomic64_read(&asid_generation)) >> asid_bits) { ------(3)
asid = new_context(mm, cpu);
atomic64_set(&mm->context.id, asid);
}
if (cpumask_test_and_clear_cpu(cpu, &tlb_flush_pending)) ------(4)
local_flush_tlb_all();
atomic64_set(&per_cpu(active_asids, cpu), asid);
raw_spin_unlock_irqrestore(&cpu_asid_lock, flags);
switch_mm_fastpath:
cpu_switch_mm(mm->pgd, mm);
}
看到這些代碼的時(shí)候,你一定很抓狂:本來(lái)期望支持ASID的情況下,進(jìn)程切換不需要TLB flush的操作了嗎?怎么會(huì)有那么多代碼?呵呵~~實(shí)際上理想很美好,現(xiàn)實(shí)很骨干,代碼中嵌入太多管理asid的內(nèi)容了。
(1)現(xiàn)在準(zhǔn)備切入mm變量指向的地址空間,首先通過(guò)內(nèi)存描述符獲取該地址空間的ID(software asid)。需要說(shuō)明的是這個(gè)ID并不是HW asid,實(shí)際上mm->context.id是64個(gè)bit,其中低16 bit對(duì)應(yīng)HW 的ASID(ARM64支持8bit或者16bit的ASID,但是這里假設(shè)當(dāng)前系統(tǒng)的ASID是16bit)。其余的bit都是軟件擴(kuò)展的,我們稱之generation。
(2)arm64支持ASID的概念,理論上進(jìn)程切換不需要TLB的操作,不過(guò)由于HW asid的編址空間有限,因此我們擴(kuò)展了64 bit的software asid,其中一部分對(duì)應(yīng)HW asid,另外一部分被稱為asid generation。asid generation從ASID_FIRST_VERSION開(kāi)始,每當(dāng)HW asid溢出后,asid generation會(huì)累加。asid_bits就是硬件支持的ASID的bit數(shù)目,8或者16,通過(guò)ID_AA64MMFR0_EL1寄存器可以獲得該具體的bit數(shù)目。
當(dāng)要切入的mm的software asid仍然處于當(dāng)前這一批次(generation)的ASID的時(shí)候,切換中不需要任何的TLB操作,可以直接調(diào)用cpu_switch_mm進(jìn)行地址空間的切換,當(dāng)然,也會(huì)順便設(shè)定active_asids這個(gè)percpu變量。
(3)如果要切入的進(jìn)程和當(dāng)前的asid generation不一致,那么說(shuō)明該地址空間需要一個(gè)新的software asid了,更準(zhǔn)確的說(shuō)是需要推進(jìn)到new generation了。因此這里調(diào)用new_context分配一個(gè)新的context ID,并設(shè)定到mm->context.id中。
(4)各個(gè)cpu在切入新一代的asid空間的時(shí)候會(huì)調(diào)用local_flush_tlb_all將本地tlb flush掉。
原文標(biāo)題:郭?。?進(jìn)程切換分析之——TLB處理
文章出處:【微信公眾號(hào):Linuxer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
cpu
+關(guān)注
關(guān)注
68文章
10854瀏覽量
211578
原文標(biāo)題:郭?。?進(jìn)程切換分析之——TLB處理
文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論