淺談Linux內(nèi)核創(chuàng)建新進(jìn)程的全過(guò)程
進(jìn)程描述
- 進(jìn)程描述符(task_struct)
用來(lái)描述進(jìn)程的數(shù)據(jù)結(jié)構(gòu),可以理解為進(jìn)程的屬性。比如進(jìn)程的狀態(tài)、進(jìn)程的標(biāo)識(shí)(PID)等,都被封裝在了進(jìn)程描述符這個(gè)數(shù)據(jù)結(jié)構(gòu)中,該數(shù)據(jù)結(jié)構(gòu)被定義為task_struct
- 進(jìn)程控制塊(PCB)
是操作系統(tǒng)核心中一種數(shù)據(jù)結(jié)構(gòu),主要表示進(jìn)程狀態(tài)。
- 進(jìn)程狀態(tài)
- fork()
fork()在父、子進(jìn)程各返回一次。在父進(jìn)程中返回子進(jìn)程的 pid,在子進(jìn)程中返回0。
fork一個(gè)子進(jìn)程的代碼
#include <stdio.h> #include <stdlib.h> #include <unistd.h> int main(int argc, char * argv[]) { int pid; /* fork another process */ pid = fork(); if (pid < 0) { /* error occurred */ fprintf(stderr,"Fork Failed!"); exit(-1); } else if (pid == 0) { /* child process */ printf("This is Child Process!\n"); } else { /* parent process */ printf("This is Parent Process!\n"); /* parent will wait for the child to complete*/ wait(NULL); printf("Child Complete!\n"); } }
進(jìn)程創(chuàng)建
1、大致流程
fork 通過(guò)0x80中斷(系統(tǒng)調(diào)用)來(lái)陷入內(nèi)核,由系統(tǒng)提供的相應(yīng)系統(tǒng)調(diào)用來(lái)完成進(jìn)程的創(chuàng)建。
fork.c //fork #ifdef __ARCH_WANT_SYS_FORK SYSCALL_DEFINE0(fork) { #ifdef CONFIG_MMU return do_fork(SIGCHLD, 0, 0, NULL, NULL); #else /* can not support in nommu mode */ return -EINVAL; #endif } #endif //vfork #ifdef __ARCH_WANT_SYS_VFORK SYSCALL_DEFINE0(vfork) { return do_fork(CLONE_VFORK | CLONE_VM | SIGCHLD, 0, 0, NULL, NULL); } #endif //clone #ifdef __ARCH_WANT_SYS_CLONE #ifdef CONFIG_CLONE_BACKWARDS SYSCALL_DEFINE5(clone, unsigned long, clone_flags, unsigned long, newsp, int __user *, parent_tidptr, int, tls_val, int __user *, child_tidptr) #elif defined(CONFIG_CLONE_BACKWARDS2) SYSCALL_DEFINE5(clone, unsigned long, newsp, unsigned long, clone_flags, int __user *, parent_tidptr, int __user *, child_tidptr, int, tls_val) #elif defined(CONFIG_CLONE_BACKWARDS3) SYSCALL_DEFINE6(clone, unsigned long, clone_flags, unsigned long, newsp, int, stack_size, int __user *, parent_tidptr, int __user *, child_tidptr, int, tls_val) #else SYSCALL_DEFINE5(clone, unsigned long, clone_flags, unsigned long, newsp, int __user *, parent_tidptr, int __user *, child_tidptr, int, tls_val) #endif { return do_fork(clone_flags, newsp, 0, parent_tidptr, child_tidptr); } #endif
通過(guò)看上邊的代碼,我們可以清楚的看到,不論是使用 fork 還是 vfork 來(lái)創(chuàng)建進(jìn)程,最終都是通過(guò) do_fork() 方法來(lái)實(shí)現(xiàn)的。接下來(lái)我們可以追蹤到 do_fork()的代碼:
long do_fork(unsigned long clone_flags, unsigned long stack_start, unsigned long stack_size, int __user *parent_tidptr, int __user *child_tidptr) { //創(chuàng)建進(jìn)程描述符指針 struct task_struct *p; //…… //復(fù)制進(jìn)程描述符,copy_process()的返回值是一個(gè) task_struct 指針。 p = copy_process(clone_flags, stack_start, stack_size, child_tidptr, NULL, trace); if (!IS_ERR(p)) { struct completion vfork; struct pid *pid; trace_sched_process_fork(current, p); //得到新創(chuàng)建的進(jìn)程描述符中的pid pid = get_task_pid(p, PIDTYPE_PID); nr = pid_vnr(pid); if (clone_flags & CLONE_PARENT_SETTID) put_user(nr, parent_tidptr); //如果調(diào)用的 vfork()方法,初始化 vfork 完成處理信息。 if (clone_flags & CLONE_VFORK) { p->vfork_done = &vfork; init_completion(&vfork); get_task_struct(p); } //將子進(jìn)程加入到調(diào)度器中,為其分配 CPU,準(zhǔn)備執(zhí)行 wake_up_new_task(p); //fork 完成,子進(jìn)程即將開(kāi)始運(yùn)行 if (unlikely(trace)) ptrace_event_pid(trace, pid); //如果是 vfork,將父進(jìn)程加入至等待隊(duì)列,等待子進(jìn)程完成 if (clone_flags & CLONE_VFORK) { if (!wait_for_vfork_done(p, &vfork)) ptrace_event_pid(PTRACE_EVENT_VFORK_DONE, pid); } put_pid(pid); } else { nr = PTR_ERR(p); } return nr; }
2、do_fork 流程
- 調(diào)用 copy_process 為子進(jìn)程復(fù)制出一份進(jìn)程信息
- 如果是 vfork 初始化完成處理信息
- 調(diào)用 wake_up_new_task 將子進(jìn)程加入調(diào)度器,為之分配 CPU
- 如果是 vfork,父進(jìn)程等待子進(jìn)程完成 exec 替換自己的地址空間
3、copy_process 流程
追蹤copy_process 代碼(部分)
static struct task_struct *copy_process(unsigned long clone_flags, unsigned long stack_start, unsigned long stack_size, int __user *child_tidptr, struct pid *pid, int trace) { int retval; //創(chuàng)建進(jìn)程描述符指針 struct task_struct *p; //…… //復(fù)制當(dāng)前的 task_struct p = dup_task_struct(current); //…… //初始化互斥變量 rt_mutex_init_task(p); //檢查進(jìn)程數(shù)是否超過(guò)限制,由操作系統(tǒng)定義 if (atomic_read(&p->real_cred->user->processes) >= task_rlimit(p, RLIMIT_NPROC)) { if (p->real_cred->user != INIT_USER && !capable(CAP_SYS_RESOURCE) && !capable(CAP_SYS_ADMIN)) goto bad_fork_free; } //…… //檢查進(jìn)程數(shù)是否超過(guò) max_threads 由內(nèi)存大小決定 if (nr_threads >= max_threads) goto bad_fork_cleanup_count; //…… //初始化自旋鎖 spin_lock_init(&p->alloc_lock); //初始化掛起信號(hào) init_sigpending(&p->pending); //初始化 CPU 定時(shí)器 posix_cpu_timers_init(p); //…… //初始化進(jìn)程數(shù)據(jù)結(jié)構(gòu),并把進(jìn)程狀態(tài)設(shè)置為 TASK_RUNNING retval = sched_fork(clone_flags, p); //復(fù)制所有進(jìn)程信息,包括文件系統(tǒng)、信號(hào)處理函數(shù)、信號(hào)、內(nèi)存管理等 if (retval) goto bad_fork_cleanup_policy; retval = perf_event_init_task(p); if (retval) goto bad_fork_cleanup_policy; retval = audit_alloc(p); if (retval) goto bad_fork_cleanup_perf; /* copy all the process information */ shm_init_task(p); retval = copy_semundo(clone_flags, p); if (retval) goto bad_fork_cleanup_audit; retval = copy_files(clone_flags, p); if (retval) goto bad_fork_cleanup_semundo; retval = copy_fs(clone_flags, p); if (retval) goto bad_fork_cleanup_files; retval = copy_sighand(clone_flags, p); if (retval) goto bad_fork_cleanup_fs; retval = copy_signal(clone_flags, p); if (retval) goto bad_fork_cleanup_sighand; retval = copy_mm(clone_flags, p); if (retval) goto bad_fork_cleanup_signal; retval = copy_namespaces(clone_flags, p); if (retval) goto bad_fork_cleanup_mm; retval = copy_io(clone_flags, p); //初始化子進(jìn)程內(nèi)核棧 retval = copy_thread(clone_flags, stack_start, stack_size, p); //為新進(jìn)程分配新的 pid if (pid != &init_struct_pid) { retval = -ENOMEM; pid = alloc_pid(p->nsproxy->pid_ns_for_children); if (!pid) goto bad_fork_cleanup_io; } //設(shè)置子進(jìn)程 pid p->pid = pid_nr(pid); //…… //返回結(jié)構(gòu)體 p return p;
- 調(diào)用 dup_task_struct 復(fù)制當(dāng)前的 task_struct
- 檢查進(jìn)程數(shù)是否超過(guò)限制
- 初始化自旋鎖、掛起信號(hào)、CPU 定時(shí)器等
- 調(diào)用 sched_fork 初始化進(jìn)程數(shù)據(jù)結(jié)構(gòu),并把進(jìn)程狀態(tài)設(shè)置為 TASK_RUNNING
- 復(fù)制所有進(jìn)程信息,包括文件系統(tǒng)、信號(hào)處理函數(shù)、信號(hào)、內(nèi)存管理等
- 調(diào)用 copy_thread 初始化子進(jìn)程內(nèi)核棧
- 為新進(jìn)程分配并設(shè)置新的 pid
4、dup_task_struct 流程
static struct task_struct *dup_task_struct(struct task_struct *orig) { struct task_struct *tsk; struct thread_info *ti; int node = tsk_fork_get_node(orig); int err; //分配一個(gè) task_struct 節(jié)點(diǎn) tsk = alloc_task_struct_node(node); if (!tsk) return NULL; //分配一個(gè) thread_info 節(jié)點(diǎn),包含進(jìn)程的內(nèi)核棧,ti 為棧底 ti = alloc_thread_info_node(tsk, node); if (!ti) goto free_tsk; //將棧底的值賦給新節(jié)點(diǎn)的棧 tsk->stack = ti; //…… return tsk; }
調(diào)用alloc_task_struct_node分配一個(gè) task_struct 節(jié)點(diǎn)
調(diào)用alloc_thread_info_node分配一個(gè) thread_info 節(jié)點(diǎn),其實(shí)是分配了一個(gè)thread_union聯(lián)合體,將棧底返回給 ti
union thread_union { struct thread_info thread_info; unsigned long stack[THREAD_SIZE/sizeof(long)]; };
最后將棧底的值 ti 賦值給新節(jié)點(diǎn)的棧
最終執(zhí)行完dup_task_struct之后,子進(jìn)程除了tsk->stack指針不同之外,全部都一樣!
5、sched_fork 流程
core.c
int sched_fork(unsigned long clone_flags, struct task_struct *p) { unsigned long flags; int cpu = get_cpu(); __sched_fork(clone_flags, p); //將子進(jìn)程狀態(tài)設(shè)置為 TASK_RUNNING p->state = TASK_RUNNING; //…… //為子進(jìn)程分配 CPU set_task_cpu(p, cpu); put_cpu(); return 0; }
我們可以看到sched_fork大致完成了兩項(xiàng)重要工作,一是將子進(jìn)程狀態(tài)設(shè)置為 TASK_RUNNING,二是為其分配 CPU
6、copy_thread 流程
int copy_thread(unsigned long clone_flags, unsigned long sp, unsigned long arg, struct task_struct *p) { //獲取寄存器信息 struct pt_regs *childregs = task_pt_regs(p); struct task_struct *tsk; int err; p->thread.sp = (unsigned long) childregs; p->thread.sp0 = (unsigned long) (childregs+1); memset(p->thread.ptrace_bps, 0, sizeof(p->thread.ptrace_bps)); if (unlikely(p->flags & PF_KTHREAD)) { //內(nèi)核線(xiàn)程 memset(childregs, 0, sizeof(struct pt_regs)); p->thread.ip = (unsigned long) ret_from_kernel_thread; task_user_gs(p) = __KERNEL_STACK_CANARY; childregs->ds = __USER_DS; childregs->es = __USER_DS; childregs->fs = __KERNEL_PERCPU; childregs->bx = sp; /* function */ childregs->bp = arg; childregs->orig_ax = -1; childregs->cs = __KERNEL_CS | get_kernel_rpl(); childregs->flags = X86_EFLAGS_IF | X86_EFLAGS_FIXED; p->thread.io_bitmap_ptr = NULL; return 0; } //將當(dāng)前寄存器信息復(fù)制給子進(jìn)程 *childregs = *current_pt_regs(); //子進(jìn)程 eax 置 0,因此fork 在子進(jìn)程返回0 childregs->ax = 0; if (sp) childregs->sp = sp; //子進(jìn)程ip 設(shè)置為ret_from_fork,因此子進(jìn)程從ret_from_fork開(kāi)始執(zhí)行 p->thread.ip = (unsigned long) ret_from_fork; //…… return err; }
copy_thread 這段代碼為我們解釋了兩個(gè)相當(dāng)重要的問(wèn)題!
一是,為什么 fork 在子進(jìn)程中返回0,原因是childregs->ax = 0;這段代碼將子進(jìn)程的 eax 賦值為0
二是,p->thread.ip = (unsigned long) ret_from_fork;將子進(jìn)程的 ip 設(shè)置為 ret_form_fork 的首地址,因此子進(jìn)程是從 ret_from_fork 開(kāi)始執(zhí)行的
總結(jié)
新進(jìn)程的執(zhí)行源于以下前提:
- dup_task_struct中為其分配了新的堆棧
- 調(diào)用了sched_fork,將其置為T(mén)ASK_RUNNING
- copy_thread中將父進(jìn)程的寄存器上下文復(fù)制給子進(jìn)程,保證了父子進(jìn)程的堆棧信息是一致的
- 將ret_from_fork的地址設(shè)置為eip寄存器的值
最終子進(jìn)程從ret_from_fork開(kāi)始執(zhí)行。
以上就是針對(duì)Linux內(nèi)核創(chuàng)建一個(gè)新進(jìn)程的過(guò)程的詳細(xì)分析,希望對(duì)大家的學(xué)習(xí)有所幫助。
相關(guān)文章
詳解linux下查看系統(tǒng)版本號(hào)信息的方法(總結(jié))
本篇文章主要介紹了詳解CentOS下查看系統(tǒng)版本號(hào)信息的方法(總結(jié)),具有一定的參考價(jià)值,有興趣的可以來(lái)了解一下2017-07-07阿里云CentOS 7系統(tǒng)掛載SSD云盤(pán)的教程
最近在阿里云購(gòu)買(mǎi)了塊云盤(pán),但悲催的發(fā)現(xiàn)阿里云購(gòu)買(mǎi)的第2塊云盤(pán)默認(rèn)是不自動(dòng)掛載的,需要手動(dòng)配置掛載上。所以只能求助萬(wàn)能的百度了,通過(guò)查找網(wǎng)上的資料,和自己的實(shí)踐終于將云盤(pán)掛載成功了,現(xiàn)在將步驟分享給大家,有同樣需要的朋友們可以參考借鑒。2016-11-11linux基礎(chǔ)教程之特殊權(quán)限SUID、SGID和SBIT
這篇文章主要給大家介紹了關(guān)于linux基礎(chǔ)教程之特殊權(quán)限SUID、SGID和SBIT的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2018-09-09Linux中如何查看文件的創(chuàng)建時(shí)間詳解
這篇文章主要給大家介紹了關(guān)于Linux中如何查看文件的創(chuàng)建時(shí)間的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用Linux具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-12-12在CentOS VPS上通過(guò)SSH安裝 MySQL的方法圖解
這篇文章主要介紹了在CentOS VPS上通過(guò)SSH安裝 MySQL,需要的朋友可以參考下2018-12-12