RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CPU場(chǎng)景下的TLB相關(guān)細(xì)節(jié)

Linux閱碼場(chǎng) ? 來(lái)源:Linuxer ? 作者:Linuxer ? 2020-12-26 09:42 ? 次閱讀

一、前言

進(jìn)程切換是一個(gè)復(fù)雜的過(guò)程,本文不準(zhǔn)備詳細(xì)描述整個(gè)進(jìn)程切換的方方面面,而是關(guān)注進(jìn)程切換中一個(gè)小小的知識(shí)點(diǎn):TLB的處理。為了能夠講清楚這個(gè)問(wèn)題,我們?cè)诘诙旅枋鲈趩?a target="_blank">CPU場(chǎng)景下一些和TLB相關(guān)的細(xì)節(jié),第三章推進(jìn)到多核場(chǎng)景,至此,理論部分結(jié)束。在第二章和第三章,我們從基本的邏輯角度出發(fā),并不拘泥于特定的CPU和特定的OS,這里需要大家對(duì)基本的TLB的組織原理有所了解,具體可以參考本站的《TLB操作》一文。再好的邏輯也需要體現(xiàn)在HW block和SW block的設(shè)計(jì)中,在第四章,我們給出了linux4.4.6內(nèi)核在ARM64平臺(tái)上的TLB代碼處理細(xì)節(jié)(在描述tlb lazy mode的時(shí)候引入部分x86架構(gòu)的代碼),希望能通過(guò)具體的代碼和實(shí)際的CPU硬件行為加深大家對(duì)原理的理解。

二、單核場(chǎng)景的工作原理

1、block diagram

我們先看看在單核場(chǎng)景下,和進(jìn)程切換相關(guān)的邏輯block示意圖:

4148eccc-4422-11eb-8b86-12bb97331649.jpg

CPU上運(yùn)行了若干的用戶空間的進(jìn)程和內(nèi)核線程,為了加快性能,CPU中往往設(shè)計(jì)了TLB和Cache這樣的HW block。Cache為了更快的訪問(wèn)main memory中的數(shù)據(jù)和指令,而TLB是為了更快的進(jìn)行地址翻譯而將部分的頁(yè)表內(nèi)容緩存到了Translation lookasid buffer中,避免了從main memory訪問(wèn)頁(yè)表的過(guò)程。

假如不做任何的處理,那么在進(jìn)程A切換到進(jìn)程B的時(shí)候,TLB和Cache中同時(shí)存在了A和B進(jìn)程的數(shù)據(jù)。對(duì)于kernel space其實(shí)無(wú)所謂,因?yàn)樗械倪M(jìn)程都是共享的,但是對(duì)于A和B進(jìn)程,它們各種有自己的獨(dú)立的用戶地址空間,也就是說(shuō),同樣的一個(gè)虛擬地址X,在A的地址空間中可以被翻譯成Pa,而在B地址空間中會(huì)被翻譯成Pb,如果在地址翻譯過(guò)程中,TLB中同時(shí)存在A和B進(jìn)程的數(shù)據(jù),那么舊的A地址空間的緩存項(xiàng)會(huì)影響B(tài)進(jìn)程地址空間的翻譯,因此,在進(jìn)程切換的時(shí)候,需要有tlb的操作,以便清除舊進(jìn)程的影響,具體怎樣做呢?我們下面一一討論。

2、絕對(duì)沒(méi)有問(wèn)題,但是性能不佳的方案

當(dāng)系統(tǒng)發(fā)生進(jìn)程切換,從進(jìn)程A切換到進(jìn)程B,從而導(dǎo)致地址空間也從A切換到B,這時(shí)候,我們可以認(rèn)為在A進(jìn)程執(zhí)行過(guò)程中,所有TLB和Cache的數(shù)據(jù)都是for A進(jìn)程的,一旦切換到B,整個(gè)地址空間都不一樣了,因此需要全部flush掉(注意:我這里使用了linux內(nèi)核的術(shù)語(yǔ),flush就是意味著將TLB或者cache中的條目設(shè)置為無(wú)效,對(duì)于一個(gè)ARM平臺(tái)上的嵌入式工程師,一般我們會(huì)更習(xí)慣使用invalidate這個(gè)術(shù)語(yǔ),不管怎樣,在本文中,flush等于invalidate)。

這種方案當(dāng)然沒(méi)有問(wèn)題,當(dāng)進(jìn)程B被切入執(zhí)行的時(shí)候,其面對(duì)的CPU是一個(gè)干干凈凈,從頭開(kāi)始的硬件環(huán)境,TLB和Cache中不會(huì)有任何的殘留的A進(jìn)程的數(shù)據(jù)來(lái)影響當(dāng)前B進(jìn)程的執(zhí)行。當(dāng)然,稍微有一點(diǎn)遺憾的就是在B進(jìn)程開(kāi)始執(zhí)行的時(shí)候,TLB和Cache都是冰冷的(空空如也),因此,B進(jìn)程剛開(kāi)始執(zhí)行的時(shí)候,TLB miss和Cache miss都非常嚴(yán)重,從而導(dǎo)致了性能的下降。

3、如何提高TLB的性能?

對(duì)一個(gè)模塊的優(yōu)化往往需要對(duì)該模塊的特性進(jìn)行更細(xì)致的分析、歸類,上一節(jié),我們采用進(jìn)程地址空間這樣的術(shù)語(yǔ),其實(shí)它可以被進(jìn)一步細(xì)分為內(nèi)核地址空間和用戶地址空間。對(duì)于所有的進(jìn)程(包括內(nèi)核線程),內(nèi)核地址空間是一樣的,因此對(duì)于這部分地址翻譯,無(wú)論進(jìn)程如何切換,內(nèi)核地址空間轉(zhuǎn)換到物理地址的關(guān)系是永遠(yuǎn)不變的,其實(shí)在進(jìn)程A切換到B的時(shí)候,不需要flush掉,因?yàn)锽進(jìn)程也可以繼續(xù)使用這部分的TLB內(nèi)容(上圖中,橘色的block)。對(duì)于用戶地址空間,各個(gè)進(jìn)程都有自己獨(dú)立的地址空間,在進(jìn)程A切換到B的時(shí)候,TLB中的和A進(jìn)程相關(guān)的entry(上圖中,青色的block)對(duì)于B是完全沒(méi)有任何意義的,需要flush掉。

在這樣的思路指導(dǎo)下,我們其實(shí)需要區(qū)分global和local(其實(shí)就是process-specific的意思)這兩種類型的地址翻譯,因此,在頁(yè)表描述符中往往有一個(gè)bit來(lái)標(biāo)識(shí)該地址翻譯是global還是local的,同樣的,在TLB中,這個(gè)標(biāo)識(shí)global還是local的flag也會(huì)被緩存起來(lái)。有了這樣的設(shè)計(jì)之后,我們可以根據(jù)不同的場(chǎng)景而flush all或者只是flush local tlb entry。

4、特殊情況的考量

我們考慮下面的場(chǎng)景:進(jìn)程A切換到內(nèi)核線程K之后,其實(shí)地址空間根本沒(méi)有必要切換,線程K能訪問(wèn)的就是內(nèi)核空間的那些地址,而這些地址也是和進(jìn)程A共享的。既然沒(méi)有切換地址空間,那么也就不需要flush 那些進(jìn)程特定的tlb entry了,當(dāng)從K切換會(huì)A進(jìn)程后,那么所有TLB的數(shù)據(jù)都是有效的,從大大降低了tlb miss。此外,對(duì)于多線程環(huán)境,切換可能發(fā)生在一個(gè)進(jìn)程中的兩個(gè)線程,這時(shí)候,線程在同樣的地址空間,也根本不需要flush tlb。

4、進(jìn)一步提升TLB的性能

還有可能進(jìn)一步提升TLB的性能嗎?有沒(méi)有可能根本不flush TLB?

當(dāng)然可以,不過(guò)這需要我們?cè)谠O(shè)計(jì)TLB block的時(shí)候需要識(shí)別process specific的tlb entry,也就是說(shuō),TLB block需要感知到各個(gè)進(jìn)程的地址空間。為了完成這樣的設(shè)計(jì),我們需要標(biāo)識(shí)不同的address space,這里有一個(gè)術(shù)語(yǔ)叫做ASID(address space ID)。原來(lái)TLB查找是通過(guò)虛擬地址VA來(lái)判斷是否TLB hit。有了ASID的支持后,TLB hit的判斷標(biāo)準(zhǔn)修改為(虛擬地址+ASID),ASID是每一個(gè)進(jìn)程分配一個(gè),標(biāo)識(shí)自己的進(jìn)程地址空間。TLB block如何知道一個(gè)tlb entry的ASID呢?一般會(huì)來(lái)自CPU的系統(tǒng)寄存器(對(duì)于ARM64平臺(tái),它來(lái)自TTBRx_EL1寄存器),這樣在TLB block在緩存(VA-PA-Global flag)的同時(shí),也就把當(dāng)前的ASID緩存在了對(duì)應(yīng)的TLB entry中,這樣一個(gè)TLB entry中包括了(VA-PA-Global flag-ASID)。

有了ASID的支持后,A進(jìn)程切換到B進(jìn)程再也不需要flush tlb了,因?yàn)锳進(jìn)程執(zhí)行時(shí)候緩存在TLB中的殘留A地址空間相關(guān)的entry不會(huì)影響到B進(jìn)程,雖然A和B可能有相同的VA,但是ASID保證了硬件可以區(qū)分A和B進(jìn)程地址空間。

三、多核的TLB操作

1、block diagram

完成單核場(chǎng)景下的分析之后,我們一起來(lái)看看多核的情況。進(jìn)程切換相關(guān)的TLB邏輯block示意圖如下:

417bb3c8-4422-11eb-8b86-12bb97331649.jpg

在多核系統(tǒng)中,進(jìn)程切換的時(shí)候,TLB的操作要復(fù)雜一些,主要原因有兩點(diǎn):其一是各個(gè)cpu core有各自的TLB,因此TLB的操作可以分成兩類,一類是flush all,即將所有cpu core上的tlb flush掉,還有一類操作是flush local tlb,即僅僅flush本cpu core的tlb。另外一個(gè)原因是進(jìn)程可以調(diào)度到任何一個(gè)cpu core上執(zhí)行(當(dāng)然具體和cpu affinity的設(shè)定相關(guān)),從而導(dǎo)致task處處留情(在各個(gè)cpu上留有殘余的tlb entry)。

2、TLB操作的基本思考

根據(jù)上一節(jié)的描述,我們了解到地址翻譯有g(shù)lobal(各個(gè)進(jìn)程共享)和local(進(jìn)程特定的)的概念,因而tlb entry也有g(shù)lobal和local的區(qū)分。如果不區(qū)分這兩個(gè)概念,那么進(jìn)程切換的時(shí)候,直接flush該cpu上的所有殘余。這樣,當(dāng)進(jìn)程A切出的時(shí)候,留給下一個(gè)進(jìn)程B一個(gè)清爽的tlb,而當(dāng)進(jìn)程A在其他cpu上再次調(diào)度的時(shí)候,它面臨的也是一個(gè)全空的TLB(其他cpu的tlb不會(huì)影響)。當(dāng)然,如果區(qū)分global 和local,那么tlb操作也基本類似,只不過(guò)進(jìn)程切換的時(shí)候,不是flush該cpu上的所有tlb entry,而是flush所有的tlb local entry就OK了。

對(duì)local tlb entry還可以進(jìn)一步細(xì)分,那就是了ASID(address space ID)或者PCID(process context ID)的概念了(global tlb entry不區(qū)分ASID)。如果支持ASID(或者PCID)的話,tlb操作變得簡(jiǎn)單一些,或者說(shuō)我們沒(méi)有必要執(zhí)行tlb操作了,因?yàn)樵赥LB搜索的時(shí)候已經(jīng)可以區(qū)分各個(gè)task上下文了,這樣,各個(gè)cpu中殘留的tlb不會(huì)影響其他任務(wù)的執(zhí)行。在單核系統(tǒng)中,這樣的操作可以獲取很好的性能。比如A---B--->A這樣的場(chǎng)景中,如果TLB足夠大,可以容納2個(gè)task的tlb entry(現(xiàn)代cpu一般也可以做到這一點(diǎn)),那么A再次切回的時(shí)候,TLB是hot的,大大提升了性能。

不過(guò),對(duì)于多核系統(tǒng),這種情況有一點(diǎn)點(diǎn)的麻煩,其實(shí)也就是傳說(shuō)中的TLB shootdown帶來(lái)的性能問(wèn)題。在多核系統(tǒng)中,如果cpu支持PCID并且在進(jìn)程切換的時(shí)候不flush tlb,那么系統(tǒng)中各個(gè)cpu中的tlb entry則保留各種task的tlb entry,當(dāng)在某個(gè)cpu上,一個(gè)進(jìn)程被銷毀,或者修改了自己的頁(yè)表(也就是修改了VA PA映射關(guān)系)的時(shí)候,我們必須將該task的相關(guān)tlb entry從系統(tǒng)中清除出去。這時(shí)候,你不僅僅需要flush本cpu上對(duì)應(yīng)的TLB entry,還需要shootdown其他cpu上的和該task相關(guān)的tlb殘余。而這個(gè)動(dòng)作一般是通過(guò)IPI實(shí)現(xiàn)(例如X86),從而引入了開(kāi)銷。此外PCID的分配和管理也會(huì)帶來(lái)額外的開(kāi)銷,因此,OS是否支持PCID(或者ASID)是由各個(gè)arch代碼自己決定(對(duì)于linux而言,x86不支持,而ARM平臺(tái)是支持的)。

四、進(jìn)程切換中的tlb操作代碼分析

1、tlb lazy mode

在context_switch中有這樣的一段代碼:

if (!mm) {
next->active_mm = oldmm;
atomic_inc(&oldmm->mm_count);
enter_lazy_tlb(oldmm, next);
} else
switch_mm(oldmm, mm, next);

這段代碼的意思就是如果要切入的next task是一個(gè)內(nèi)核線程(next->mm == NULL )的話,那么可以通過(guò)enter_lazy_tlb函數(shù)標(biāo)記本cpu上的next task進(jìn)入lazy TLB mode。由于ARM64平臺(tái)上的enter_lazy_tlb函數(shù)是空函數(shù),因此我們采用X86來(lái)描述lazy TLB mode。

當(dāng)然,我們需要一些準(zhǔn)備工作,畢竟對(duì)于熟悉ARM平臺(tái)的嵌入式工程師而言,x86多少有點(diǎn)陌生。

到目前,我們還都是從邏輯角度來(lái)描述TLB操作,但是在實(shí)際中,進(jìn)程切換中的tlb操作是HW完成還是SW完成呢?不同的處理器思路是不一樣的(具體原因未知),有的處理器是HW完成,例如X86,在加載cr3寄存器進(jìn)行地址空間切換的時(shí)候,hw會(huì)自動(dòng)操作tlb。而有的處理是需要軟件參與完成tlb操作,例如ARM系列的處理器,在切換TTBR寄存器的時(shí)候,HW沒(méi)有tlb動(dòng)作,需要SW完成tlb操作。因此,x86平臺(tái)上,在進(jìn)程切換的時(shí)候,軟件不需要顯示的調(diào)用tlb flush函數(shù),在switch_mm函數(shù)中會(huì)用next task中的mm->pgd加載CR3寄存器,這時(shí)候load cr3的動(dòng)作會(huì)導(dǎo)致本cpu中的local tlb entry被全部flush掉。

在x86支持PCID(X86術(shù)語(yǔ),相當(dāng)與ARM的ASID)的情況下會(huì)怎樣呢?也會(huì)在load cr3的時(shí)候flush掉所有的本地CPU上的 local tlb entry嗎?其實(shí)在linux中,由于TLB shootdown,普通的linux并不支持PCID(KVM中會(huì)使用,但是不在本文考慮范圍內(nèi)),因此,對(duì)于x86的進(jìn)程地址空間切換,它就是會(huì)有flush local tlb entry這樣的side effect。

另外有一點(diǎn)是ARM64和x86不同的地方:ARM64支持在一個(gè)cpu core執(zhí)行tlb flush的指令,例如tlbi vmalle1is,將inner shareablity domain中的所有cpu core的tlb全部flush掉。而x86不能,如果想要flush掉系統(tǒng)中多有cpu core的tlb,只能是通過(guò)IPI通知到其他cpu進(jìn)行處理。

好的,至此,所有預(yù)備知識(shí)都已經(jīng)ready了,我們進(jìn)入tlb lazy mode這個(gè)主題。雖然進(jìn)程切換伴隨tlb flush操作,但是某些場(chǎng)景亦可避免。在下面的場(chǎng)景,我們可以不flush tlb(我們?nèi)匀徊捎肁--->B task的場(chǎng)景來(lái)描述):

(1)如果要切入的next task B是內(nèi)核線程,那么我們也暫時(shí)不需要flush TLB,因?yàn)閮?nèi)核線程不會(huì)訪問(wèn)usersapce,而那些進(jìn)程A殘留的TLB entry也不會(huì)影響內(nèi)核線程的執(zhí)行,畢竟B沒(méi)有自己的用戶地址空間,而且和A共享內(nèi)核地址空間。

(2)如果A和B在一個(gè)地址空間中(一個(gè)進(jìn)程中的兩個(gè)線程),那么我們也暫時(shí)不需要flush TLB。

除了進(jìn)程切換,還有其他的TLB flush場(chǎng)景。我們先看一個(gè)通用的TLB flush場(chǎng)景,如下圖所示:

419d21a2-4422-11eb-8b86-12bb97331649.jpg

一個(gè)4核系統(tǒng)中,A0 A1和A2 task屬于同一個(gè)進(jìn)程地址空間,CPU_0和CPU_2上分別運(yùn)行了A0和A2 task,CPU_1有點(diǎn)特殊,它正在運(yùn)行一個(gè)內(nèi)核線程,但是該內(nèi)核線程正在借用A1 task的地址空間,CPU_3上運(yùn)行不相關(guān)的B task。

當(dāng)A0 task修改了自己的地址翻譯,那么它不能只是flush CPU_0的tlb,還需要通知到CPU_1和CPU_2,因?yàn)檫@兩個(gè)CPU上當(dāng)前active的地址空間和CPU_0是一樣的。由于A1 task的修改,CPU_1和CPU_2上的這些緩存的TLB entry已經(jīng)失效了,需要flush。同理,可以推廣到更多的CPU上,也就是說(shuō),在某個(gè)CPUx上運(yùn)行的task修改了地址映射關(guān)系,那么tlb flush需要傳遞到所有相關(guān)的CPU中(當(dāng)前的mm等于CPUx的current mm)。在多核系統(tǒng)中,這樣的通過(guò)IPI來(lái)傳遞TLB flush的消息會(huì)隨著cpu core的增加而增加,有沒(méi)有辦法減少那些沒(méi)有必要的TLB flush呢?當(dāng)然有,也就是上圖中的A1 task場(chǎng)景,這也就是傳說(shuō)中的lazy tlb mode。

我先回頭看看代碼。在代碼中,如果next task是內(nèi)核線程,我們并不會(huì)執(zhí)行switch_mm(該函數(shù)會(huì)引起tlb flush的動(dòng)作),而是調(diào)用enter_lazy_tlb進(jìn)入lazy tlb mode。在x86架構(gòu)下,代碼如下:

static inline void enter_lazy_tlb(struct mm_struct *mm, struct task_struct *tsk)
{
#ifdef CONFIG_SMP
if (this_cpu_read(cpu_tlbstate.state) == TLBSTATE_OK)
this_cpu_write(cpu_tlbstate.state, TLBSTATE_LAZY);
#endif
}

在x86架構(gòu)下,進(jìn)入lazy tlb mode也就是在該cpu的cpu_tlbstate變量中設(shè)定TLBSTATE_LAZY的狀態(tài)就OK了。因此,進(jìn)入lazy mode的時(shí)候,也就不需要調(diào)用switch_mm來(lái)切換進(jìn)程地址空間,也就不會(huì)執(zhí)行flush tlb這樣毫無(wú)意義的動(dòng)作了。enter_lazy_tlb并不操作硬件,只要記錄該cpu的軟件狀態(tài)就OK了。

切換之后,內(nèi)核線程進(jìn)入執(zhí)行狀態(tài),CPU_1的TLB殘留進(jìn)程A的entry,這對(duì)于內(nèi)核線程的執(zhí)行沒(méi)有影響,但是當(dāng)其他CPU發(fā)送IPI要求flush TLB的時(shí)候呢?按理說(shuō)應(yīng)該立刻flush tlb,但是在lazy tlb mode下,我們可以不執(zhí)行flush tlb操作。這樣問(wèn)題來(lái)了:什么時(shí)候flush掉殘留的A進(jìn)程的tlb entry呢?答案是在下一次進(jìn)程切換中。因?yàn)橐坏﹥?nèi)核線程被schedule out,并且切入一個(gè)新的進(jìn)程C,那么在switch_mm,切入到C進(jìn)程地址空間的時(shí)候,所有之前的殘留都會(huì)被清除掉(因?yàn)橛衛(wèi)oad cr3的動(dòng)作)。因此,在執(zhí)行內(nèi)核線程的時(shí)候,我們可以推遲tlb invalidate的請(qǐng)求。也就是說(shuō),當(dāng)收到ipi中斷要求進(jìn)行該mm的tlb invalidate的動(dòng)作的時(shí)候,我們暫時(shí)沒(méi)有必要執(zhí)行了,只需要記錄狀態(tài)就OK了。

2、ARM64中如何管理ASID?

和x86不同的是:ARM64支持了ASID(類似x86的PCID),難道ARM64解決了TLB Shootdown的問(wèn)題?其實(shí)我也在思考這個(gè)問(wèn)題,但是還沒(méi)有想明白。很顯然,在ARM64中,我們不需要通過(guò)IPI來(lái)進(jìn)行所有cpu core的TLB flush動(dòng)作,ARM64在指令集層面支持shareable domain中所有PEs上的TLB flush動(dòng)作,也許是這樣的指令讓TLB flush的開(kāi)銷也沒(méi)有那么大,那么就可以選擇支持ASID,在進(jìn)程切換的時(shí)候不需要進(jìn)行任何的TLB操作,同時(shí),由于不需要IPI來(lái)傳遞TLB flush,那么也就沒(méi)有特別的處理lazy tlb mode了。

既然linux中,ARM64選擇支持ASID,那么它就要直面ASID的分配和管理問(wèn)題了。硬件支持的ASID有一定限制,它的編址空間是8個(gè)或者16個(gè)bit,最大256或者65535個(gè)ID。當(dāng)ASID溢出之后如何處理呢?這就需要一些軟件的控制來(lái)協(xié)調(diào)處理。我們用硬件支持上限為256個(gè)ASID的情景來(lái)描述這個(gè)基本的思路:當(dāng)系統(tǒng)中各個(gè)cpu的TLB中的asid合起來(lái)不大于256個(gè)的時(shí)候,系統(tǒng)正常運(yùn)行,一旦超過(guò)256的上限后,我們將全部TLB flush掉,并重新分配ASID,每達(dá)到256上限,都需要flush tlb并重新分配HW ASID。具體分配ASID代碼如下:

static u64 new_context(struct mm_struct *mm, unsigned int cpu)
{
static u32 cur_idx = 1;
u64 asid = atomic64_read(&mm->context.id);
u64 generation = atomic64_read(&asid_generation);

if (asid != 0) {-------------------------(1)
u64 newasid = generation | (asid & ~ASID_MASK);
if (check_update_reserved_asid(asid, newasid))
return newasid;
asid &= ~ASID_MASK;
if (!__test_and_set_bit(asid, asid_map))
return newasid;
}


asid = find_next_zero_bit(asid_map, NUM_USER_ASIDS, cur_idx);---(2)
if (asid != NUM_USER_ASIDS)
goto set_asid;

generation = atomic64_add_return_relaxed(ASID_FIRST_VERSION,----(3)
&asid_generation);
flush_context(cpu);

asid = find_next_zero_bit(asid_map, NUM_USER_ASIDS, 1); ------(4)

set_asid:
__set_bit(asid, asid_map);
cur_idx = asid;
return asid | generation;
}

(1)在創(chuàng)建新的進(jìn)程的時(shí)候會(huì)分配一個(gè)新的mm,其software asid(mm->context.id)初始化為0。如果asid不等于0那么說(shuō)明這個(gè)mm之前就已經(jīng)分配過(guò)software asid(generation+hw asid)了,那么new context不過(guò)就是將software asid中的舊的generation更新為當(dāng)前的generation而已。

(2)如果asid等于0,說(shuō)明我們的確是需要分配一個(gè)新的HW asid,這時(shí)候首先要找一個(gè)空閑的HW asid,如果能夠找到(jump to set_asid),那么直接返回software asid(當(dāng)前generation+新分配的hw asid)。

(3)如果找不到一個(gè)空閑的HW asid,說(shuō)明HW asid已經(jīng)用光了,這是只能提升generation了。這時(shí)候,多有cpu上的所有的old generation需要被flush掉,因?yàn)橄到y(tǒng)已經(jīng)準(zhǔn)備進(jìn)入new generation了。順便一提的是這里generation變量已經(jīng)被賦值為new generation了。

(4)在flush_context函數(shù)中,控制HW asid的asid_map已經(jīng)被全部清零了,因此,這里進(jìn)行的是new generation中HW asid的分配。

3、進(jìn)程切換過(guò)程中ARM64的tlb操作以及ASID的處理

代碼位于arch/arm64/mm/context.c中的check_and_switch_context:

void check_and_switch_context(struct mm_struct *mm, unsigned int cpu)
{
unsigned long flags;
u64 asid;

asid = atomic64_read(&mm->context.id); -------------(1)

if (!((asid ^ atomic64_read(&asid_generation)) >> asid_bits) ------(2)
&& atomic64_xchg_relaxed(&per_cpu(active_asids, cpu), asid))
goto switch_mm_fastpath;

raw_spin_lock_irqsave(&cpu_asid_lock, flags);
asid = atomic64_read(&mm->context.id);
if ((asid ^ atomic64_read(&asid_generation)) >> asid_bits) { ------(3)
asid = new_context(mm, cpu);
atomic64_set(&mm->context.id, asid);
}

if (cpumask_test_and_clear_cpu(cpu, &tlb_flush_pending)) ------(4)
local_flush_tlb_all();

atomic64_set(&per_cpu(active_asids, cpu), asid);
raw_spin_unlock_irqrestore(&cpu_asid_lock, flags);

switch_mm_fastpath:
cpu_switch_mm(mm->pgd, mm);
}

看到這些代碼的時(shí)候,你一定很抓狂:本來(lái)期望支持ASID的情況下,進(jìn)程切換不需要TLB flush的操作了嗎?怎么會(huì)有那么多代碼?呵呵~~實(shí)際上理想很美好,現(xiàn)實(shí)很骨干,代碼中嵌入太多管理asid的內(nèi)容了。

(1)現(xiàn)在準(zhǔn)備切入mm變量指向的地址空間,首先通過(guò)內(nèi)存描述符獲取該地址空間的ID(software asid)。需要說(shuō)明的是這個(gè)ID并不是HW asid,實(shí)際上mm->context.id是64個(gè)bit,其中低16 bit對(duì)應(yīng)HW 的ASID(ARM64支持8bit或者16bit的ASID,但是這里假設(shè)當(dāng)前系統(tǒng)的ASID是16bit)。其余的bit都是軟件擴(kuò)展的,我們稱之generation。

(2)arm64支持ASID的概念,理論上進(jìn)程切換不需要TLB的操作,不過(guò)由于HW asid的編址空間有限,因此我們擴(kuò)展了64 bit的software asid,其中一部分對(duì)應(yīng)HW asid,另外一部分被稱為asid generation。asid generation從ASID_FIRST_VERSION開(kāi)始,每當(dāng)HW asid溢出后,asid generation會(huì)累加。asid_bits就是硬件支持的ASID的bit數(shù)目,8或者16,通過(guò)ID_AA64MMFR0_EL1寄存器可以獲得該具體的bit數(shù)目。

當(dāng)要切入的mm的software asid仍然處于當(dāng)前這一批次(generation)的ASID的時(shí)候,切換中不需要任何的TLB操作,可以直接調(diào)用cpu_switch_mm進(jìn)行地址空間的切換,當(dāng)然,也會(huì)順便設(shè)定active_asids這個(gè)percpu變量。

(3)如果要切入的進(jìn)程和當(dāng)前的asid generation不一致,那么說(shuō)明該地址空間需要一個(gè)新的software asid了,更準(zhǔn)確的說(shuō)是需要推進(jìn)到new generation了。因此這里調(diào)用new_context分配一個(gè)新的context ID,并設(shè)定到mm->context.id中。

(4)各個(gè)cpu在切入新一代的asid空間的時(shí)候會(huì)調(diào)用local_flush_tlb_all將本地tlb flush掉。

原文標(biāo)題:郭?。?進(jìn)程切換分析之——TLB處理

文章出處:【微信公眾號(hào):Linuxer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10854

    瀏覽量

    211578

原文標(biāo)題:郭?。?進(jìn)程切換分析之——TLB處理

文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    TAS6424E-Q1什么場(chǎng)景bit4會(huì)置為1?

    測(cè)量clk頻率都是正確的;請(qǐng)問(wèn)什么場(chǎng)景bit4會(huì)置為1;其他三個(gè)clk正常,但數(shù)據(jù)線一直為0,是否會(huì)觸發(fā)該bit置為1;
    發(fā)表于 09-27 07:06

    雙核cpu和單核cpu的區(qū)別

    雙核CPU與單核CPU在多個(gè)方面存在顯著差異,這些差異主要體現(xiàn)在處理能力、性能、運(yùn)行效率、功耗以及適用場(chǎng)景等方面。 一、概念與結(jié)構(gòu) 雙核CPU :指在一個(gè)處理器上集成兩個(gè)運(yùn)算核心,通過(guò)
    的頭像 發(fā)表于 09-24 16:17 ?2765次閱讀

    TI電量計(jì)在智能手機(jī)低功耗場(chǎng)景的考慮

    電子發(fā)燒友網(wǎng)站提供《TI電量計(jì)在智能手機(jī)低功耗場(chǎng)景的考慮.pdf》資料免費(fèi)下載
    發(fā)表于 09-05 11:15 ?0次下載
    TI電量計(jì)在智能手機(jī)低功耗<b class='flag-5'>場(chǎng)景</b><b class='flag-5'>下</b>的考慮

    BQ27546-G1在過(guò)放和過(guò)充場(chǎng)景的考慮

    電子發(fā)燒友網(wǎng)站提供《BQ27546-G1在過(guò)放和過(guò)充場(chǎng)景的考慮.pdf》資料免費(fèi)下載
    發(fā)表于 09-02 10:58 ?1次下載
    BQ27546-G1在過(guò)放和過(guò)充<b class='flag-5'>場(chǎng)景</b><b class='flag-5'>下</b>的考慮

    不同使用場(chǎng)景的TLV320ADCx120和PCMx120-Q1功耗矩陣

    電子發(fā)燒友網(wǎng)站提供《不同使用場(chǎng)景的TLV320ADCx120和PCMx120-Q1功耗矩陣.pdf》資料免費(fèi)下載
    發(fā)表于 08-29 11:00 ?0次下載
    不同使用<b class='flag-5'>場(chǎng)景</b><b class='flag-5'>下</b>的TLV320ADCx120和PCMx120-Q1功耗矩陣

    單北斗定位終端的優(yōu)勢(shì)在哪些場(chǎng)景更加凸顯

    單北斗定位終端以其高精度、實(shí)時(shí)性、廣泛覆蓋及自主可控等優(yōu)勢(shì),在應(yīng)急救援、特種行業(yè)作業(yè)、危險(xiǎn)環(huán)境監(jiān)控、物流追蹤及精準(zhǔn)農(nóng)業(yè)等場(chǎng)景更加凸顯其價(jià)值。在這些復(fù)雜多變的應(yīng)用環(huán)境中,單北斗定位終端不僅確保了定位
    的頭像 發(fā)表于 08-21 10:29 ?436次閱讀
    單北斗定位終端的優(yōu)勢(shì)在哪些<b class='flag-5'>場(chǎng)景</b><b class='flag-5'>下</b>更加凸顯

    FPGA與MCU的應(yīng)用場(chǎng)景

    FPGA和MCU各有其獨(dú)特的優(yōu)勢(shì)和適用場(chǎng)景。以上都是官方的話術(shù),然后我來(lái)說(shuō)一我的理解: 高并行處理能力 它可以做到某個(gè)引腳和其他引腳相關(guān)聯(lián),某個(gè)引腳又和另外的引腳相關(guān)聯(lián),并且同一時(shí)
    發(fā)表于 07-29 15:45

    如何在不同應(yīng)用場(chǎng)景構(gòu)建音頻測(cè)試環(huán)境

    在之前的文章中,我們已經(jīng)詳細(xì)介紹了基礎(chǔ)音頻參數(shù)和AP525的軟硬件配置。本文將延續(xù)這一主題,以泰凌TLSR9518A EVB作為測(cè)試設(shè)備(DUT),向大家展示如何在不同應(yīng)用場(chǎng)景構(gòu)建音頻測(cè)試環(huán)境。
    的頭像 發(fā)表于 07-03 15:00 ?538次閱讀
    如何在不同應(yīng)用<b class='flag-5'>場(chǎng)景</b><b class='flag-5'>下</b>構(gòu)建音頻測(cè)試環(huán)境

    TLB成功開(kāi)發(fā)出CXL內(nèi)存模塊PCB,并向三星和SK海力士提供首批樣品

    近日,韓國(guó)上市PCB制造商TLB (KOSDAQ:356860)成功開(kāi)發(fā)出CXL內(nèi)存模塊PCB,并已獨(dú)家向三星電子和SK海力士提供了6款以上的首批樣品。
    的頭像 發(fā)表于 05-30 11:30 ?806次閱讀

    CPU渲染和GPU渲染優(yōu)劣分析

    使用計(jì)算機(jī)進(jìn)行渲染時(shí),有兩種流行的系統(tǒng):基于中央處理單元(CPU)或基于圖形處理單元(GPU)。CPU渲染利用計(jì)算機(jī)的CPU來(lái)執(zhí)行場(chǎng)景并將其渲染到接近完美。這也是執(zhí)行渲染的更傳統(tǒng)方式。
    的頭像 發(fā)表于 05-23 08:27 ?588次閱讀
    <b class='flag-5'>CPU</b>渲染和GPU渲染優(yōu)劣分析

    CS32F03X鋰電池供電場(chǎng)景估算VDDA電壓

    本技術(shù)文檔旨在幫助客戶快速實(shí)現(xiàn)估算MCU F03XVDDA 電壓. 在使用鋰電池的應(yīng)用場(chǎng)景,整個(gè)產(chǎn)品生命周期中電池的電壓是逐步降低的,如果應(yīng)用當(dāng)中沒(méi)有一個(gè)穩(wěn)定的參考電壓源, ADC 采樣的值也會(huì)有
    發(fā)表于 05-16 10:39

    AI邊緣盒子助力安全生產(chǎn)相關(guān)場(chǎng)景

    隨著科技的迅猛發(fā)展和企業(yè)對(duì)安全生產(chǎn)管理的日益重視,以AI邊緣計(jì)算為核心的邊緣計(jì)算設(shè)備(內(nèi)置靈活可配的AI算法庫(kù))已經(jīng)在安全生產(chǎn)等相關(guān)場(chǎng)景得到廣泛應(yīng)用并取得了顯著的成果。下面將為您介紹AI邊緣盒子
    的頭像 發(fā)表于 03-28 15:30 ?733次閱讀
    AI邊緣盒子助力安全生產(chǎn)<b class='flag-5'>相關(guān)</b>等<b class='flag-5'>場(chǎng)景</b>

    緩存大小對(duì)CPU性能的影響解析

    為了保證L1訪問(wèn)延時(shí)可以做的足夠低,通常需要設(shè)計(jì)L1的associativity盡量小。因此在Sunny Cove之前通常為8 way。這里Sunny Cove增加了一個(gè)cycle的L1訪問(wèn)延時(shí),不確定是由TLB的改動(dòng)引起的還是L1 associativity由8 way增加到12 way。
    發(fā)表于 01-24 12:41 ?8797次閱讀
    緩存大小對(duì)<b class='flag-5'>CPU</b>性能的影響解析

    Linux常見(jiàn)的十幾款CPU監(jiān)控工具

    今天浩道跟大家分享運(yùn)維工作中,Linux常見(jiàn)的十幾款CPU監(jiān)控工具,你可能只會(huì)用到其中某些,但是個(gè)人覺(jué)得作為一個(gè)資深運(yùn)維,你要知道有這些工具可以監(jiān)控CPU
    的頭像 發(fā)表于 01-22 09:19 ?2468次閱讀
    Linux<b class='flag-5'>下</b>常見(jiàn)的十幾款<b class='flag-5'>CPU</b>監(jiān)控工具

    請(qǐng)問(wèn)一docker是怎么實(shí)現(xiàn)cpu隔離的?

    Docker 使用 cgroups(控制組)來(lái)實(shí)現(xiàn) CPU 隔離。
    的頭像 發(fā)表于 01-15 10:06 ?516次閱讀
    RM新时代网站-首页