在Linux中經(jīng)常發(fā)現(xiàn)空閑內(nèi)存很少,似乎所有的內(nèi)存都被系統(tǒng)占用了,表面感覺是內(nèi)存不夠用了,其實不然。這是Linux內(nèi)存管理的一個優(yōu)秀特性,在這方面,區(qū)別于 Windows的內(nèi)存管理。主要特點是,無論物理內(nèi)存有多大,Linux 都將其充份利用,將一些程序調(diào)用過的硬盤數(shù)據(jù)讀入內(nèi)存,利用內(nèi)存讀寫的高速特性來提高Linux系統(tǒng)的數(shù)據(jù)訪問性能。而Windows 是只在需要內(nèi)存時,才為應(yīng)用程序分配內(nèi)存,并不能充分利用大容量的內(nèi)存空間。換句話說,每增加一些物理內(nèi)存,Linux 都將能充分利用起來,發(fā)揮了硬件投資帶來的好處,而Windows只將其做為擺設(shè),即使增加8GB甚至更大。
Linux 的這一特性,主要是利用空閑的物理內(nèi)存,劃分出一部份空間,做為 cache 和 buffers ,以此提高數(shù)據(jù)訪問性能。
1、什么是 cache ?
頁高速緩存(cache)是 Linux內(nèi)核實現(xiàn)的一種主要磁盤緩存。它主要用來減少對磁盤的I/O操作。具體地講,是通過把磁盤中的數(shù)據(jù)緩存到物理內(nèi)存中,把對磁盤的訪問變?yōu)閷ξ锢韮?nèi)存的訪問。
磁盤高速緩存的價值在于兩個方面:第一,訪問磁盤的速度要遠遠低于訪問內(nèi)存的速度,因此,從內(nèi)存訪問數(shù)據(jù)比從磁盤訪問速度更快。第二,數(shù)據(jù)一旦被訪問,就很有可能在短期內(nèi)再次被訪問到。
頁高速緩存是由內(nèi)存中的物理頁組成的,緩存中每一頁都對應(yīng)著磁盤中的多個塊。每當(dāng)內(nèi)核開始執(zhí)行一個頁I/O操作時(通常是對普通文件中頁大小的塊進行磁盤操作),首先會檢查需要的數(shù)據(jù)是否在高速緩存中,如果在,那么內(nèi)核就直接使用高速緩存中的數(shù)據(jù),從而避免訪問磁盤。
舉個例子,當(dāng)使用文本編輯器打開一個源程序文件時,該文件的數(shù)據(jù)就被調(diào)入內(nèi)存。編輯該文件的過程中,越來越多的數(shù)據(jù)會相繼被調(diào)入內(nèi)存頁。最后,當(dāng)你編譯它的時候,內(nèi)核可以直接使用頁高速緩存中的頁,而不需要重新從磁盤讀取該文件了。因為用戶往往會反復(fù)讀取或操作同一個文件,所以頁高速緩存能減少大量的磁盤操作。
2、cache 如何更新?
由于頁高速緩存的緩存作用,寫操作實際上會被延遲。當(dāng)頁高速緩存中的數(shù)據(jù)比后臺存儲的數(shù)據(jù)更新時,那么該數(shù)據(jù)就被稱做臟數(shù)據(jù)。在內(nèi)存中累積起來的臟頁最終必須被寫回磁盤。在以下兩種情況發(fā)生時,臟頁被寫回磁盤:
◆當(dāng)空閑內(nèi)存低于一個特定的閾值時,內(nèi)核必須將臟頁寫回磁盤,以便釋放內(nèi)存。
◆當(dāng)臟頁在內(nèi)存中駐留時間超過一個特定的閾值時,內(nèi)核必須將超時的臟頁寫回磁盤,以確保臟頁不會無限期地駐留在內(nèi)存中。
在2.6內(nèi)核中,由一群內(nèi)核線程—pdflush后臺回寫例程統(tǒng)一執(zhí)行兩種工作。
首先,pdflush線程在系統(tǒng)中的空閑內(nèi)存低于一個特定的閾值時,將臟頁刷新回磁盤。該后臺回寫例程的目的在于在可用物理內(nèi)存過低時,釋放臟頁以重新獲得內(nèi)存。特定的內(nèi)存閾值可以通過dirty_background_ratio sysctl系統(tǒng)調(diào)用設(shè)置。當(dāng)空閑內(nèi)存比閾值:dirty_background_ratio還低時,內(nèi)核便會調(diào)用函數(shù)wakeup_bdflush()喚醒一個pdflush線程,隨后pdflush線程進一步調(diào)用函數(shù)background_writeout()開始將臟頁寫回磁盤。函數(shù)background_ writeout()需要一個長整型參數(shù),該參數(shù)指定試圖寫回的頁面數(shù)目。函數(shù)background_writeout()會連續(xù)地寫出數(shù)據(jù),直到滿足以下兩個條件:
◆已經(jīng)有指定的最小數(shù)目的頁被寫出到磁盤。
◆空閑內(nèi)存數(shù)已經(jīng)回升,超過了閾值dirty_background_ratio。
上述條件確保了pdflush操作可以減輕系統(tǒng)中內(nèi)存不足的壓力?;貙懖僮鞑粫谶_到這兩個條件前停止,除非pdflush寫回了所有的臟頁,沒有剩下的臟頁可再被寫回了。
為了滿足第二個目標,pdflush后臺例程會被周期性喚醒(和空閑內(nèi)存是否過低無關(guān)),將那些在內(nèi)存中駐留時間過長的臟頁寫出,確保內(nèi)存中不會有長期存在的臟頁。如果系統(tǒng)發(fā)生崩潰,由于內(nèi)存處于混亂之中,所以那些在內(nèi)存中還沒來得及寫回磁盤的臟頁就會丟失,所以周期性同步頁高速緩存和磁盤非常重要。在系統(tǒng)啟動時,內(nèi)核初始化一個定時器,讓它周期地喚醒pdflush線程,隨后使其運行函數(shù)wb_kupdate()。
當(dāng)需要立即手動釋放臟頁
#sync
#cache echo 3 》 /proc/sys/vm/drop_caches
設(shè)置空閑內(nèi)存的最小閾值
echo 1024 》 /proc/sys/vm/min_free_kbytes
當(dāng)?shù)陀?024K的時候?qū)尫排K頁
一 物理內(nèi)存和虛擬內(nèi)存
我們知道,直接從物理內(nèi)存讀寫數(shù)據(jù)要比從硬盤讀寫數(shù)據(jù)要快的多,因此,我們希望所有數(shù)據(jù)的讀取和寫入都在內(nèi)存完成,而內(nèi)存是有限的,這樣就引出了物理內(nèi)存與虛擬內(nèi)存的概念。
物理內(nèi)存就是系統(tǒng)硬件提供的內(nèi)存大小,是真正的內(nèi)存,相對于物理內(nèi)存,在linux下還有一個虛擬內(nèi)存的概念,虛擬內(nèi)存就是為了滿足物理內(nèi)存的不足而提出的策略,它是利用磁盤空間虛擬出的一塊邏輯內(nèi)存,用作虛擬內(nèi)存的磁盤空間被稱為交換空間(Swap Space)。
作為物理內(nèi)存的擴展,linux會在物理內(nèi)存不足時,使用交換分區(qū)的虛擬內(nèi)存,更詳細的說,就是內(nèi)核會將暫時不用的內(nèi)存塊信息寫到交換空間,這樣以來,物理內(nèi)存得到了釋放,這塊內(nèi)存就可以用于其它目的,當(dāng)需要用到原始的內(nèi)容時,這些信息會被重新從交換空間讀入物理內(nèi)存。
linux的內(nèi)存管理采取的是分頁存取機制,為了保證物理內(nèi)存能得到充分的利用,內(nèi)核會在適當(dāng)?shù)臅r候?qū)⑽锢韮?nèi)存中不經(jīng)常使用的數(shù)據(jù)塊自動交換到虛擬內(nèi)存中,而將經(jīng)常使用的信息保留到物理內(nèi)存。
要深入了解linux內(nèi)存運行機制,需要知道下面提到的幾個方面:
首先,Linux系統(tǒng)會不時的進行頁面交換操作,以保持盡可能多的空閑物理內(nèi)存,即使并沒有什么事情需要內(nèi)存,Linux也會交換出暫時不用的內(nèi)存頁面。這可以避免等待交換所需的時間。
其次,linux進行頁面交換是有條件的,不是所有頁面在不用時都交換到虛擬內(nèi)存,linux內(nèi)核根據(jù)”最近最經(jīng)常使用“算法,僅僅將一些不經(jīng)常使用的頁面文件交換到虛擬內(nèi)存,有時我們會看到這么一個現(xiàn)象:linux物理內(nèi)存還有很多,但是交換空間也使用了很多。其實,這并不奇怪,例如,一個占用很大內(nèi)存的進程運行時,需要耗費很多內(nèi)存資源,此時就會有一些不常用頁面文件被交換到虛擬內(nèi)存中,但后來這個占用很多內(nèi)存資源的進程結(jié)束并釋放了很多內(nèi)存時,剛才被交換出去的頁面文件并不會自動的交換進物理內(nèi)存,除非有這個必要,那么此刻系統(tǒng)物理內(nèi)存就會空閑很多,同時交換空間也在被使用,就出現(xiàn)了剛才所說的現(xiàn)象了。關(guān)于這點,不用擔(dān)心什么,只要知道是怎么一回事就可以了。
最后,交換空間的頁面在使用時會首先被交換到物理內(nèi)存,如果此時沒有足夠的物理內(nèi)存來容納這些頁面,它們又會被馬上交換出去,如此以來,虛擬內(nèi)存中可能沒有足夠空間來存儲這些交換頁面,最終會導(dǎo)致linux出現(xiàn)假死機、服務(wù)異常等問題,linux雖然可以在一段時間內(nèi)自行恢復(fù),但是恢復(fù)后的系統(tǒng)已經(jīng)基本不可用了。
因此,合理規(guī)劃和設(shè)計linux內(nèi)存的使用,是非常重要的。
二 內(nèi)存的監(jiān)控
作為一名linux系統(tǒng)管理員,監(jiān)控內(nèi)存的使用狀態(tài)是非常重要的,通過監(jiān)控有助于了解內(nèi)存的使用狀態(tài),比如內(nèi)存占用是否正常,內(nèi)存是否緊缺等等,監(jiān)控內(nèi)存最常使用的命令有free、top等,下面是某個系統(tǒng)free的輸出:
[haixigov@WEBServer ~]$ free
total used free shared buffers cached
Mem: 16402432 16360492 41940 0 465404 12714880
-/+ buffers/cache: 3180208 13222224
Swap: 8193108 264 8192844
我們解釋下輸出結(jié)果中每個選項的含義:
首先是第一行:
- ?total:物理內(nèi)存的總大小。
- ?used:已經(jīng)使用的物理內(nèi)存多小。
- ?free:空閑的物理內(nèi)存值。
- shared:多個進程共享的內(nèi)存值。
- ?buffers/cached:磁盤緩存的大小。
第二行Mem:代表物理內(nèi)存使用情況。
第三行(-/+ buffers/cached):代表磁盤緩存使用狀態(tài)。
第四行:Swap表示交換空間內(nèi)存使用狀態(tài)。
free命令輸出的內(nèi)存狀態(tài),可以通過兩個角度來查看:一個是從內(nèi)核的角度來看,一個是從應(yīng)用層的角度來看的。
1.從內(nèi)核的角度來查看內(nèi)存的狀態(tài)
就是內(nèi)核目前可以直接分配到,不需要額外的操作,即為上面free命令輸出中第二行Mem項的值,可以看出,此系統(tǒng)物理內(nèi)存有16G,空閑的內(nèi)存只有41940K,也就是40M多一點,我們來做一個這樣的計算:
16402432-16360492=41940
其實就是總的物理內(nèi)存減去已經(jīng)使用的物理內(nèi)存得到的就是空閑的物理內(nèi)存大小,注意這里的可用內(nèi)存值41940并不包含處于buffers和cached狀態(tài)的內(nèi)存大小。
如果你認為這個系統(tǒng)空閑內(nèi)存太小,那你就錯了,實際上,內(nèi)核完全控制著內(nèi)存的使用情況,linux會在需要內(nèi)存的時候,或在系統(tǒng)運行逐步推進時,將buffers和cached狀態(tài)的內(nèi)存變?yōu)閒ree狀態(tài)的內(nèi)存,以供系統(tǒng)使用。
2.從應(yīng)用層的角度來看系統(tǒng)內(nèi)存的使用狀態(tài)
也就是linux上運行的應(yīng)用程序可以使用的內(nèi)存大小,即free命令第三行“(-/+ buffers/cached)”的輸出,可以看到,此系統(tǒng)已經(jīng)使用的內(nèi)存才3180208K,而空閑的內(nèi)存達到13222224K,繼續(xù)做這樣一個計算:
41940+(465404+12714880)=13222224
通過這個等式可知,應(yīng)用程序可用的物理內(nèi)存值是Mem項的free值加上buffers和cached值之和,也就是說,這個free值是包括buffers和cached項大小的,
對于應(yīng)用程序來說,buffers/cached占有的內(nèi)存是可用的,因為buffers/cached是為了提高文件讀取的性能,當(dāng)應(yīng)用程序需要用到內(nèi)存的時候,buffers/cached會很快地被回收,以供應(yīng)用程序使用。
3.buffers與cached的異同
在 Linux 操作系統(tǒng)中,當(dāng)應(yīng)用程序需要讀取文件中的數(shù)據(jù)時,操作系統(tǒng)先分配一些內(nèi)存,將數(shù)據(jù)從磁盤讀入到這些內(nèi)存中,然后再將數(shù)據(jù)分發(fā)給應(yīng)用程序;當(dāng)需要往文件中寫數(shù)據(jù)時,操作系統(tǒng)先分配內(nèi)存接收用戶數(shù)據(jù),然后再將數(shù)據(jù)從內(nèi)存寫到磁盤上。然而,如果有大量數(shù)據(jù)需要從磁盤讀取到內(nèi)存或者由內(nèi)存寫入磁盤時,系統(tǒng)的讀寫性能就變得非常低下,因為無論是從磁盤讀數(shù)據(jù),還是寫數(shù)據(jù)到磁盤,都是一個很消耗時間和資源的過程,在這種情況下,linux引入了buffers和cached機制。
buffers與cached都是內(nèi)存操作,用來保存系統(tǒng)曾經(jīng)打開過的文件以及文件屬性信息,這樣當(dāng)操作系統(tǒng)需要讀取某些文件時,會首先在buffers與cached內(nèi)存區(qū)查找,如果找到,直接讀出傳送給應(yīng)用程序,如果沒有找到需要數(shù)據(jù),才從磁盤讀取,這就是操作系統(tǒng)的緩存機制,通過緩存,大大提高了操作系統(tǒng)的性能。但buffers與cached緩沖的內(nèi)容卻是不同的。
buffers是用來緩沖塊設(shè)備做的,它只記錄文件系統(tǒng)的元數(shù)據(jù)(metadata)以及 tracking in-flight pages,而cached是用來給文件做緩沖。更通俗一點說:buffers主要用來存放目錄里面有什么內(nèi)容,文件的屬性以及權(quán)限等等。而cached直接用來記憶我們打開過的文件和程序。
為了驗證我們的結(jié)論是否正確,可以通過vi打開一個非常大的文件,看看cached的變化,然后再次vi這個文件,感覺一下兩次打開的速度有何異同,是不是第二次打開的速度明顯快于第一次呢?
接著執(zhí)行下面的命令:
find /* -name *.conf
看看buffers的值是否變化,然后重復(fù)執(zhí)行find命令,看看兩次顯示速度有何不同。
Linux操作系統(tǒng)的內(nèi)存運行原理,很大程度上是根據(jù)服務(wù)器的需求來設(shè)計的,例如系統(tǒng)的緩沖機制會把經(jīng)常使用到的文件和數(shù)據(jù)緩存在cached中,linux總是在力求緩存更多的數(shù)據(jù)和信息,這樣再次需要這些數(shù)據(jù)時可以直接從內(nèi)存中取,而不需要有一個漫長的磁盤操作,這種設(shè)計思路提高了系統(tǒng)的整體性能。
三 交換空間swap的使用
雖然現(xiàn)在的內(nèi)存已經(jīng)變得非常廉價,但是swap仍然有很大的使用價值,合理的規(guī)劃和使用swap分區(qū),對系統(tǒng)穩(wěn)定運行至關(guān)重要。Linux下可以使用文件系統(tǒng)中的一個常規(guī)文件或者一個獨立分區(qū)作為交換空間使用。同時linux允許使用多個交換分區(qū)或者交換文件。
1.創(chuàng)建swap交換空間
創(chuàng)建交換空間所需的交換文件是一個普通的文件,但是,創(chuàng)建交換文件與創(chuàng)建普通文件不同,必須通過dd命令來完成,同時這個文件必須位于本地硬盤上,不能在網(wǎng)絡(luò)文件系統(tǒng)(NFS)上創(chuàng)建swap交換文件。例如:
[root@localhost ~]# dd if=/dev/zero of=/data/swapfile bs=1024 count=65536
65536+0 records in
65536+0 records out
這樣就創(chuàng)建一個有連續(xù)空間的交換文件,大小為60M左右,關(guān)于dd命令做簡單的講述:
if=輸入文件,或者設(shè)備名稱。
of=輸出文件或者設(shè)備名稱。
ibs=bytes 表示一次讀入bytes 個字節(jié)(即一個塊大小為 bytes 個字節(jié))。
obs=bytes 表示一次寫bytes 個字節(jié)(即一個塊大小為 bytes 個字節(jié))。
bs=bytes,同時設(shè)置讀寫塊的大小,以bytes為單位,此參數(shù)可代替 ibs 和 obs。
count=blocks 僅拷貝blocks個塊。
skip=blocks 表示從輸入文件開頭跳過 blocks 個塊后再開始復(fù)制。
seek=blocks表示從輸出文件開頭跳過 blocks 個塊后再開始復(fù)制。(通常只有當(dāng)輸出文件是磁盤或磁帶時才有效)
這里的輸入設(shè)備/dev/zero代表一個輸出永遠為0的設(shè)備文件,使用它作輸入可以得到全為空的文件。
2.激活和使用swap
首先通過mkswap命令指定作為交換空間的設(shè)備或者文件:
[root@localhost ~]#mkswap /data/swapfile
Setting up swapspace version 1, size = 67104 kB
[root@localhost backup]# free
total used free shared buffers cached
Mem: 2066632 1998188 68444 0 26160 1588044
-/+ buffers/cache: 383984 1682648
Swap: 4088500 101036 3987464
從上面輸出可知,我們指定了一個67104 kB的交換空間,而此時新建的交換空間還未被使用,下面簡單介紹下mkswap命令,mkswap的一般使用格式為:
mkswap [參數(shù)] [設(shè)備名稱或文件][交換區(qū)大小]
參數(shù):
-c:建立交換區(qū)前,先檢查是否有損壞的區(qū)塊。
-v0:建立舊式交換區(qū),此為預(yù)設(shè)值。
-v1:建立新式交換區(qū)。
交換區(qū)大?。褐付ń粨Q區(qū)的大小,單位為1024字節(jié)。
設(shè)置交換分區(qū)后,接著通過swapon命令激活swap:
[root@localhost ~]#/usr/sbin/swapon /data/swapfile
[root@localhost backup]# free
total used free shared buffers cached
Mem: 2066632 1997668 68964 0 27404 1588880
-/+ buffers/cache: 381384 1685248
Swap: 4154028 100976 4053052
通過free命令可以看出,swap大小已經(jīng)由4088500k變?yōu)?154028k,相差的值是60M左右,剛好等于我們增加的一個交換文件大小,這說明新增的交換分區(qū)已經(jīng)可以使用了,但是如果linux重啟,那么新增的swap空間將變得不可用,因此需要在/etc/fstab中添加自動加載設(shè)置:
/data/swapfile none swap sw 0 0
如此以來,linux在重啟后就可以實現(xiàn)自動加載swap分區(qū)了。其實linux在啟動過程中會執(zhí)行“swapon -a”命令,此命令會加載列在/etc/fstab中的所有交換空間。
3.移除swap
通過swapoff即可移除一個交換空間
[root@localhost ~]#/usr/sbin/swapoff /data/swapfile
其實也可以通過“swapoff -a”移除在/etc/fstab中定義的所有交換空間,這里的“swapoff -a”與上面提到的“swapon -a”對應(yīng)。執(zhí)行“swapoff -a”后,free命令輸出如下:
[root@localhost backup]# free
total used free shared buffers cached
Mem: 2066632 2048724 17908 0 30352 1642748
-/+ buffers/cache: 375624 1691008
Swap: 0 0 0
評論
查看更多