Linux? 的用戶(hù)空間進(jìn)程的創(chuàng)建和管理所涉及的原理與 UNIX? 有很多共同點(diǎn),但也有一些特定于 Linux 的獨(dú)特之處。在本文中,了解 Linux 進(jìn)程的生命周期,探索用戶(hù)進(jìn)程創(chuàng)建、內(nèi)存管理、調(diào)度和銷(xiāo)毀的內(nèi)核內(nèi)幕。
Linux 是一種動(dòng)態(tài)系統(tǒng),能夠適應(yīng)不斷變化的計(jì)算需求。Linux 計(jì)算需求的表現(xiàn)是以進(jìn)程 的通用抽象為中心的。進(jìn)程可以是短期的(從命令行執(zhí)行的一個(gè)命令),也可以是長(zhǎng)期的(一種網(wǎng)絡(luò)服務(wù))。因此,對(duì)進(jìn)程及其調(diào)度進(jìn)行一般管理就顯得極為重要。
在用戶(hù)空間,進(jìn)程是由進(jìn)程標(biāo)識(shí)符(PID)表示的。從用戶(hù)的角度來(lái)看,一個(gè) PID 是一個(gè)數(shù)字值,可惟一標(biāo)識(shí)一個(gè)進(jìn)程。一個(gè) PID 在進(jìn)程的整個(gè)生命期間不會(huì)更改,但 PID 可以在進(jìn)程銷(xiāo)毀后被重新使用,所以對(duì)它們進(jìn)行緩存并不見(jiàn)得總是理想的。
在用戶(hù)空間,創(chuàng)建進(jìn)程可以采用幾種方式??梢詧?zhí)行一個(gè)程序(這會(huì)導(dǎo)致新進(jìn)程的創(chuàng)建),也可以在程序內(nèi),調(diào)用一個(gè) fork 或 exec 系統(tǒng)調(diào)用。fork 調(diào)用會(huì)導(dǎo)致創(chuàng)建一個(gè)子進(jìn)程,而 exec 調(diào)用則會(huì)用新程序代替當(dāng)前進(jìn)程上下文。接下來(lái),我將對(duì)這幾種方法進(jìn)行討論以便您能很好地理解它們的工作原理。
在本文中,我將按照下面的順序展開(kāi)對(duì)進(jìn)程的介紹,首先展示進(jìn)程的內(nèi)核表示以及它們是如何在內(nèi)核內(nèi)被管理的,然后來(lái)看看進(jìn)程創(chuàng)建和調(diào)度的各種方式(在一個(gè)或多個(gè)處理器上),最后介紹進(jìn)程的銷(xiāo)毀。
進(jìn)程表示
在 Linux 內(nèi)核內(nèi),進(jìn)程是由相當(dāng)大的一個(gè)稱(chēng)為 task_struct 的結(jié)構(gòu)表示的。此結(jié)構(gòu)包含所有表示此進(jìn)程所必需的數(shù)據(jù),此外,還包含了大量的其他數(shù)據(jù)用來(lái)統(tǒng)計(jì)(accounting)和維護(hù)與其他進(jìn)程的關(guān)系(父和子)。對(duì) task_struct 的完整介紹超出了本文的范圍,清單 1 給出了 task_struct 的一小部分。這些代碼包含了本文所要探索的這些特定元素。task_struct 位于 ./linux/include/linux/sched.h。
清單 1. task_struct 的一小部分
struct task_struct {volatile long state;void *stack;unsigned int flags;int prio, static_prio;struct list_head tasks;struct mm_struct *mm, *active_mm;pid_t pid;pid_t tgid;struct task_struct *real_parent;char comm[TASK_COMM_LEN];struct thread_struct thread;struct files_struct *files;...};
在清單 1 中,可以看到幾個(gè)預(yù)料之中的項(xiàng),比如執(zhí)行的狀態(tài)、堆棧、一組標(biāo)志、父進(jìn)程、執(zhí)行的線程(可以有很多)以及開(kāi)放文件。我稍后會(huì)對(duì)其進(jìn)行詳細(xì)說(shuō)明,這里只簡(jiǎn)單加以介紹。state 變量是一些表明任務(wù)狀態(tài)的比特位。最常見(jiàn)的狀態(tài)有:TASK_RUNNING 表示進(jìn)程正在運(yùn)行,或是排在運(yùn)行隊(duì)列中正要運(yùn)行;TASK_INTERRUPTIBLE 表示進(jìn)程正在休眠、TASK_UNINTERRUPTIBLE 表示進(jìn)程正在休眠但不能叫醒;TASK_STOPPED 表示進(jìn)程停止等等。這些標(biāo)志的完整列表可以在 ./linux/include/linux/sched.h 內(nèi)找到。
flags 定義了很多指示符,表明進(jìn)程是否正在被創(chuàng)建(PF_STARTING)或退出(PF_EXITING),或是進(jìn)程當(dāng)前是否在分配內(nèi)存(PF_MEMALLOC)??蓤?zhí)行程序的名稱(chēng)(不包含路徑)占用 comm(命令)字段。
每個(gè)進(jìn)程都會(huì)被賦予優(yōu)先級(jí)(稱(chēng)為 static_prio),但進(jìn)程的實(shí)際優(yōu)先級(jí)是基于加載以及其他幾個(gè)因素動(dòng)態(tài)決定的。優(yōu)先級(jí)值越低,實(shí)際的優(yōu)先級(jí)越高。
tasks 字段提供了鏈接列表的能力。它包含一個(gè) prev 指針(指向前一個(gè)任務(wù))和一個(gè) next 指針(指向下一個(gè)任務(wù))。
進(jìn)程的地址空間由 mm 和 active_mm 字段表示。mm 代表的是進(jìn)程的內(nèi)存描述符,而 active_mm 則是前一個(gè)進(jìn)程的內(nèi)存描述符(為改進(jìn)上下文切換時(shí)間的一種優(yōu)化)。
thread_struct 則用來(lái)標(biāo)識(shí)進(jìn)程的存儲(chǔ)狀態(tài)。此元素依賴(lài)于 Linux 在其上運(yùn)行的特定架構(gòu),在 ./linux/include/asm-i386/processor.h 內(nèi)有這樣的一個(gè)例子。在此結(jié)構(gòu)內(nèi),可以找到該進(jìn)程自執(zhí)行上下文切換后的存儲(chǔ)(硬件注冊(cè)表、程序計(jì)數(shù)器等)。
進(jìn)程管理
最大進(jìn)程數(shù)
在 Linux 內(nèi)雖然進(jìn)程都是動(dòng)態(tài)分配的,但還是需要考慮最大進(jìn)程數(shù)。在內(nèi)核內(nèi)最大進(jìn)程數(shù)是由一個(gè)稱(chēng)為 max_threads 的符號(hào)表示的,它可以在 ./linux/kernel/fork.c 內(nèi)找到??梢酝ㄟ^(guò) /proc/sys/kernel/threads-max 的 proc 文件系統(tǒng)從用戶(hù)空間更改此值。
現(xiàn)在,讓我們來(lái)看看如何在 Linux 內(nèi)管理進(jìn)程。在很多情況下,進(jìn)程都是動(dòng)態(tài)創(chuàng)建并由一個(gè)動(dòng)態(tài)分配的 task_struct 表示。一個(gè)例外是 init 進(jìn)程本身,它總是存在并由一個(gè)靜態(tài)分配的 task_struct 表示。在 ./linux/arch/i386/kernel/init_task.c 內(nèi)可以找到這樣的一個(gè)例子。
Linux 內(nèi)所有進(jìn)程的分配有兩種方式。第一種方式是通過(guò)一個(gè)哈希表,由 PID 值進(jìn)行哈希計(jì)算得到;第二種方式是通過(guò)雙鏈循環(huán)表。循環(huán)表非常適合于對(duì)任務(wù)列表進(jìn)行迭代。由于列表是循環(huán)的,沒(méi)有頭或尾;但是由于 init_task 總是存在,所以可以將其用作繼續(xù)向前迭代的一個(gè)錨點(diǎn)。讓我們來(lái)看一個(gè)遍歷當(dāng)前任務(wù)集的例子。
任務(wù)列表無(wú)法從用戶(hù)空間訪問(wèn),但該問(wèn)題很容易解決,方法是以模塊形式向內(nèi)核內(nèi)插入代碼。清單 2 中所示的是一個(gè)很簡(jiǎn)單的程序,它會(huì)迭代任務(wù)列表并會(huì)提供有關(guān)每個(gè)任務(wù)的少量信息(name、pid 和 parent 名)。注意,在這里,此模塊使用 printk 來(lái)發(fā)出結(jié)果。要查看具體的結(jié)果,可以通過(guò) cat 實(shí)用工具(或?qū)崟r(shí)的 tail -f /var/log/messages)查看 /var/log/messages 文件。next_task 函數(shù)是 sched.h 內(nèi)的一個(gè)宏,它簡(jiǎn)化了任務(wù)列表的迭代(返回下一個(gè)任務(wù)的 task_struct 引用)。
清單 2. 發(fā)出任務(wù)信息的簡(jiǎn)單內(nèi)核模塊(procsview.c)
#include #include #include int init_module( void ){ /* Set up the anchor point */ struct task_struct *task = &init_task; /* Walk through the task list, until we hit the init_task again */ do { printk( KERN_INFO "*** %s [%d] parent %s\n",task->comm, task->pid, task->parent->comm ); } while ( (task = next_task(task)) != &init_task ); return 0;}void cleanup_module( void ){ return;}
可以用清單 3 所示的 Makefile 編譯此模塊。在編譯時(shí),可以用 insmod procsview.ko 插入模塊對(duì)象,也可以用 rmmod procsview 刪除它。
清單 3. 用來(lái)構(gòu)建內(nèi)核模塊的 Makefile
obj-m += procsview.oKDIR := /lib/modules/$(shell uname -r)/buildPWD := $(shell pwd)default:$(MAKE) -C $(KDIR) SUBDIRS=$(PWD) modules
插入后,/var/log/messages 可顯示輸出,如下所示。從中可以看到,這里有一個(gè)空閑任務(wù)(稱(chēng)為 swapper)和 init 任務(wù)(pid 1)。
Nov 12 22:19:51 mtj-desktop kernel: [8503.873310] *** swapper [0] parent swapperNov 12 22:19:51 mtj-desktop kernel: [8503.904182] *** init [1] parent swapperNov 12 22:19:51 mtj-desktop kernel: [8503.904215] *** kthreadd [2] parent swapperNov 12 22:19:51 mtj-desktop kernel: [8503.904233] *** migration/0 [3] parent kthreadd...
注意,還可以標(biāo)識(shí)當(dāng)前正在運(yùn)行的任務(wù)。Linux 維護(hù)一個(gè)稱(chēng)為 current 的符號(hào),代表的是當(dāng)前運(yùn)行的進(jìn)程(類(lèi)型是 task_struct)。如果在 init_module 的尾部插入如下這行代碼:
printk( KERN_INFO, "Current task is %s [%d], current->comm, current->pid );
會(huì)看到:
Nov 12 22:48:45 mtj-desktop kernel: [10233.323662] Current task is insmod [6538]
注意到,當(dāng)前的任務(wù)是 insmod,這是因?yàn)?init_module 函數(shù)是在 insmod 命令執(zhí)行的上下文運(yùn)行的。current 符號(hào)實(shí)際指的是一個(gè)函數(shù)(get_current)并可在一個(gè)與 arch 有關(guān)的頭部中找到(比如 ./linux/include/asm-i386/current.h 內(nèi)找到)。
進(jìn)程創(chuàng)建
系統(tǒng)調(diào)用函數(shù)
您可能已經(jīng)看到過(guò)系統(tǒng)調(diào)用的模式了。在很多情況下,系統(tǒng)調(diào)用都被命名為 sys_* 并提供某些初始功能以實(shí)現(xiàn)調(diào)用(例如錯(cuò)誤檢查或用戶(hù)空間的行為)。實(shí)際的工作常常會(huì)委派給另外一個(gè)名為 do_* 的函數(shù)。
讓我們不妨親自看看如何從用戶(hù)空間創(chuàng)建一個(gè)進(jìn)程。用戶(hù)空間任務(wù)和內(nèi)核任務(wù)的底層機(jī)制是一致的,因?yàn)槎咦罱K都會(huì)依賴(lài)于一個(gè)名為 do_fork 的函數(shù)來(lái)創(chuàng)建新進(jìn)程。在創(chuàng)建內(nèi)核線程時(shí),內(nèi)核會(huì)調(diào)用一個(gè)名為 kernel_thread 的函數(shù)(參見(jiàn) ./linux/arch/i386/kernel/process.c),此函數(shù)執(zhí)行某些初始化后會(huì)調(diào)用 do_fork。
創(chuàng)建用戶(hù)空間進(jìn)程的情況與此類(lèi)似。在用戶(hù)空間,一個(gè)程序會(huì)調(diào)用 fork,這會(huì)導(dǎo)致對(duì)名為 sys_fork 的內(nèi)核函數(shù)的系統(tǒng)調(diào)用(參見(jiàn) ./linux/arch/i386/kernel/process.c)。函數(shù)關(guān)系如圖 1 所示。
圖 1. 負(fù)責(zé)創(chuàng)建進(jìn)程的函數(shù)的層次結(jié)構(gòu)
?
從圖 1 中,可以看到 do_fork 是進(jìn)程創(chuàng)建的基礎(chǔ)。可以在 ./linux/kernel/fork.c 內(nèi)找到 do_fork 函數(shù)(以及合作函數(shù) copy_process)。
do_fork 函數(shù)首先調(diào)用 alloc_pidmap,該調(diào)用會(huì)分配一個(gè)新的 PID。接下來(lái),do_fork 檢查調(diào)試器是否在跟蹤父進(jìn)程。如果是,在 clone_flags 內(nèi)設(shè)置 CLONE_PTRACE 標(biāo)志以做好執(zhí)行 fork 操作的準(zhǔn)備。之后 do_fork 函數(shù)還會(huì)調(diào)用 copy_process,向其傳遞這些標(biāo)志、堆棧、注冊(cè)表、父進(jìn)程以及最新分配的 PID。
新的進(jìn)程在 copy_process 函數(shù)內(nèi)作為父進(jìn)程的一個(gè)副本創(chuàng)建。此函數(shù)能執(zhí)行除啟動(dòng)進(jìn)程之外的所有操作,啟動(dòng)進(jìn)程在之后進(jìn)行處理。copy_process 內(nèi)的第一步是驗(yàn)證 CLONE 標(biāo)志以確保這些標(biāo)志是一致的。如果不一致,就會(huì)返回 EINVAL 錯(cuò)誤。接下來(lái),詢(xún)問(wèn) Linux Security Module (LSM) 看當(dāng)前任務(wù)是否可以創(chuàng)建一個(gè)新任務(wù)。
接下來(lái),調(diào)用 dup_task_struct 函數(shù)(在 ./linux/kernel/fork.c 內(nèi)),這會(huì)分配一個(gè)新 task_struct 并將當(dāng)前進(jìn)程的描述符復(fù)制到其內(nèi)。在新的線程堆棧設(shè)置好后,一些狀態(tài)信息也會(huì)被初始化,并且會(huì)將控制返回給 copy_process??刂苹氐?copy_process 后,除了其他幾個(gè)限制和安全檢查之外,還會(huì)執(zhí)行一些常規(guī)管理,包括在新 task_struct 上的各種初始化。之后,會(huì)調(diào)用一系列復(fù)制函數(shù)來(lái)復(fù)制此進(jìn)程的各個(gè)方面,比如復(fù)制開(kāi)放文件描述符(copy_files)、復(fù)制符號(hào)信息(copy_sighand 和 copy_signal)、復(fù)制進(jìn)程內(nèi)存(copy_mm)以及最終復(fù)制線程(copy_thread)。
之后,這個(gè)新任務(wù)會(huì)被指定給一個(gè)處理程序,同時(shí)對(duì)允許執(zhí)行進(jìn)程的處理程序進(jìn)行額外的檢查(cpus_allowed)。新進(jìn)程的優(yōu)先級(jí)從父進(jìn)程的優(yōu)先級(jí)繼承后,執(zhí)行一小部分額外的常規(guī)管理,而且控制也會(huì)被返回給 do_fork。在此時(shí),新進(jìn)程存在但尚未運(yùn)行。do_fork 函數(shù)通過(guò)調(diào)用 wake_up_new_task 來(lái)修復(fù)此問(wèn)題。此函數(shù)(可在 ./linux/kernel/sched.c 內(nèi)找到)初始化某些調(diào)度程序的常規(guī)管理信息,將新進(jìn)程放置在運(yùn)行隊(duì)列之內(nèi),然后將其喚醒以便執(zhí)行。最后,一旦返回至 do_fork,此 PID 值即被返回給調(diào)用程序,進(jìn)程完成。
進(jìn)程調(diào)度
存在于 Linux 的進(jìn)程也可通過(guò) Linux 調(diào)度程序被調(diào)度。雖然調(diào)度程序超出了本文的討論范圍,但 Linux 調(diào)度程序維護(hù)了針對(duì)每個(gè)優(yōu)先級(jí)別的一組列表,其中保存了 task_struct 引用。任務(wù)通過(guò) schedule 函數(shù)(在 ./linux/kernel/sched.c 內(nèi))調(diào)用,它根據(jù)加載及進(jìn)程執(zhí)行歷史決定最佳進(jìn)程。
進(jìn)程銷(xiāo)毀
進(jìn)程銷(xiāo)毀可以通過(guò)幾個(gè)事件驅(qū)動(dòng) — 通過(guò)正常的進(jìn)程結(jié)束、通過(guò)信號(hào)或是通過(guò)對(duì) exit 函數(shù)的調(diào)用。不管進(jìn)程如何退出,進(jìn)程的結(jié)束都要借助對(duì)內(nèi)核函數(shù) do_exit(在 ./linux/kernel/exit.c 內(nèi))的調(diào)用。此過(guò)程如圖 2 所示。
圖 2. 實(shí)現(xiàn)進(jìn)程銷(xiāo)毀的函數(shù)的層次結(jié)構(gòu)
?
do_exit 的目的是將所有對(duì)當(dāng)前進(jìn)程的引用從操作系統(tǒng)刪除(針對(duì)所有沒(méi)有共享的資源)。銷(xiāo)毀的過(guò)程先要通過(guò)設(shè)置 PF_EXITING 標(biāo)志來(lái)表明進(jìn)程正在退出。內(nèi)核的其他方面會(huì)利用它來(lái)避免在進(jìn)程被刪除時(shí)還試圖處理此進(jìn)程。將進(jìn)程從它在其生命期間獲得的各種資源分離開(kāi)來(lái)是通過(guò)一系列調(diào)用實(shí)現(xiàn)的,比如 exit_mm(刪除內(nèi)存頁(yè))和 exit_keys(釋放線程會(huì)話和進(jìn)程安全鍵)。do_exit 函數(shù)執(zhí)行釋放進(jìn)程所需的各種統(tǒng)計(jì),這之后,通過(guò)調(diào)用 exit_notify 執(zhí)行一系列通知(比如,告知父進(jìn)程其子進(jìn)程正在退出)。最后,進(jìn)程狀態(tài)被更改為 PF_DEAD,并且還會(huì)調(diào)用 schedule 函數(shù)來(lái)選擇一個(gè)將要執(zhí)行的新進(jìn)程。請(qǐng)注意,如果對(duì)父進(jìn)程的通知是必需的(或進(jìn)程正在被跟蹤),那么任務(wù)將不會(huì)徹底消失。如果無(wú)需任何通知,就可以調(diào)用 release_task 來(lái)實(shí)際收回由進(jìn)程使用的那部分內(nèi)存。
結(jié)束語(yǔ)
Linux 還在不斷演進(jìn),其中一個(gè)有待進(jìn)一步創(chuàng)新和優(yōu)化的領(lǐng)域就是進(jìn)程管理。在堅(jiān)持 UNIX 原理的同時(shí),Linux 也在不斷突破。新的處理器架構(gòu)、對(duì)稱(chēng)多處理(SMP)以及虛擬化都將促使在內(nèi)核領(lǐng)域內(nèi)取得新進(jìn)展。其中的一個(gè)例子就是 Linux 版本 2.6 中引入的新的 O(1) 調(diào)度程序,它為具有大量任務(wù)的系統(tǒng)提供了可伸縮性。另外一個(gè)例子就是使用 Native POSIX Thread Library (NPTL) 更新了的線程模型,與之前的 LinuxThreads 模型相比,它帶來(lái)了更為有效的線程處理。
?
評(píng)論
查看更多