文章介紹幾種常用的內(nèi)核動態(tài)追蹤技術(shù),對 ftrace、perf 及 eBPF 的使用方法進行案例說明。
1.什么是動態(tài)追蹤
動態(tài)追蹤技術(shù),是通過探針機制來采集內(nèi)核或者應(yīng)用程序的運行信息,從而可以不用修改內(nèi)核或應(yīng)用程序的代碼,就獲得調(diào)試信息,對問題進行分析、定位。
通常在排查和調(diào)試異常問題時,我們首先想到的是使用 GDB 在程序運行路徑上設(shè)置斷點,然后結(jié)合命令進行分析定位; 或者,在程序源碼中增加一系列的日志,從日志輸出中尋找線索。 不過,斷點往往會中斷程序的正常運行; 而增加新的日志,往往需要重新編譯和部署。 在面對偶現(xiàn)問題以及對時延要求嚴(yán)格的場景下,GDB 和增加日志的方式就不能滿足需求了。
動態(tài)追蹤為這些問題提供了完美的方案:它既不需要停止服務(wù),也不需要修改程序的代碼; 程序還按照原來的方式正常運行時,就可以分析出問題的根源。 同時,相比以往的進程級跟蹤方法(比如 ptrace),動態(tài)追蹤往往只會帶來很小的性能損耗。
2.動態(tài)追蹤技術(shù)分類
動態(tài)追蹤的工具很多,systemtap、perf、ftrace、sysdig、eBPF 等。 動態(tài)追蹤的事件源根據(jù)事件類型不同,主要分為三類:靜態(tài)探針, 動態(tài)探針以及硬件事件。
- 硬件事件:通常由性能監(jiān)控計數(shù)器 PMC(Performance Monitoring Counter)產(chǎn)生,包括了各類硬件的性能情況,比如 CPU 的緩存、指令周期、分支預(yù)測等。
- 靜態(tài)探針:事先在代碼中定義好,并編譯到應(yīng)用程序或者內(nèi)核中的探針。 這些探針只有在開啟探測功能時,才會被執(zhí)行到; 未開啟時并不會執(zhí)行。 常見的靜態(tài)探針包括內(nèi)核中的跟蹤點(tracepoints)和 USDT(Userland Statically Defined Tracing)探針。
- 動態(tài)探針:沒有事先在代碼中定義,但卻可以在運行時動態(tài)添加的探針,比如函數(shù)的調(diào)用和返回等。 動態(tài)探針支持按需在內(nèi)核或者應(yīng)用程序中添加探測點,具有更高的靈活性。 常見的動態(tài)探針有兩種,即用于內(nèi)核態(tài)的 kprobes 和用于用戶態(tài)的 uprobes。 需要注意的是 kprobes 需要內(nèi)核編譯時開啟 CONFIG_KPROBE_EVENTS,uprobes 則需要內(nèi)核編譯時開啟 CONFIG_UPROBE_EVENTS。
3動態(tài)追蹤之ftrace
ftrace 最早用于函數(shù)跟蹤,后來擴展支持了各種事件跟蹤功能。 ftrace 通過 debugfs 以普通文件的形式,向用戶空間提供訪問接口,這樣不需要額外的工具,就可以通過掛載點(通常為 /sys/kernel/debug/tracing 目錄)的文件讀寫,來跟 ftrace 交互,跟蹤內(nèi)核或者應(yīng)用程序的運行事件。
在使用 ftrace 之前,首先要確定當(dāng)前系統(tǒng)是否已經(jīng)掛載了 debugfs,可以使用如下方式進行確認(rèn)。
#方式一:查看掛載信息
mount | grep debugfs
#方式二:查看掛載點
ls /sys/kernel/debug/tracing
如果在上面的查找結(jié)果中有輸出,說明當(dāng)前系統(tǒng)已經(jīng)掛載了 debugfs,如果系統(tǒng)未掛載 debugfs,則使用如下的命令進行掛載。
mount -t debugfs nodev /sys/kernel/debug
在 /sys/kernel/debug/tracing 目錄下提供了各種跟蹤器(tracer)和事件(event),一些常用的選項如下。
- available_tracers:當(dāng)前系統(tǒng)支持的跟蹤器;
- available_events:當(dāng)前系統(tǒng)支持的事件;
- current_tracer:當(dāng)前正在使用的跟蹤器; 默認(rèn)為 nop,表示不做任何跟蹤操作,使用 echo 命令把跟蹤器的名字寫入該文件,即可切換到不同的跟蹤器;
- trace:當(dāng)前的跟蹤信息;
- tracing_on:用于開始或暫停跟蹤;
- trace_options:設(shè)置 ftrace 的一些相關(guān)選項;
ftrace 提供了多個跟蹤器,用于跟蹤不同類型的信息,比如函數(shù)調(diào)用、中斷關(guān)閉、進程調(diào)度等。 具體支持的跟蹤器取決于系統(tǒng)配置,使用如下的命令來查詢當(dāng)前系統(tǒng)支持的跟蹤器。
root@ubuntu:/sys/kernel/debug/tracing# cat available_tracers
hwlat blk mmiotrace function_graph wakeup_dl wakeup_rt wakeup function nop
以上是系統(tǒng)支持的所有跟蹤器,function 表示跟蹤函數(shù)的執(zhí)行,function_graph 則是跟蹤函數(shù)的調(diào)用關(guān)系,也就是生成直觀的調(diào)用關(guān)系圖,這是最常用的兩種跟蹤器。 也可以通過配置內(nèi)核,使系統(tǒng)支持更多類型的跟蹤器。
在使用跟蹤器前,需要確定好跟蹤目標(biāo),包括內(nèi)核函數(shù)和事件,函數(shù)是指內(nèi)核中的函數(shù)名,事件是指內(nèi)核中預(yù)先定義的跟蹤點。 可以使用如下方式查看內(nèi)核支持跟蹤的函數(shù)和事件。
#查看內(nèi)核支持追蹤的函數(shù)
cat available_filter_functions
#查看內(nèi)核支持追蹤的事件
cat available_events
接下來以一個簡單的示例說明 ftrace 的基本用法,比如我們需要跟蹤 open 的系統(tǒng)調(diào)用,open 在內(nèi)核中的實現(xiàn)接口為 do_sys_open,所以需要將跟蹤的函數(shù)設(shè)置為 do_sys_open,以下是跟蹤過程的步驟。
#設(shè)置函數(shù)跟蹤點為 do_sys_open
echo do_sys_open > set_graph_function
#設(shè)置當(dāng)前跟蹤器為 function_graph
echo function_graph > current_tracer
#配置 trace 屬性:顯示當(dāng)前的進程
echo funcgraph-proc > trace_options
#清除 trace 緩存
echo > trace
#開啟跟蹤
echo 1 > tracing_on
#產(chǎn)生 do_sys_open 調(diào)用
ls
#關(guān)閉跟蹤
echo 0 > tracing_on
在關(guān)閉跟蹤后,使用 cat 命令查看跟蹤結(jié)果,如下所示,在 trace 文件中保存了跟蹤到的信息,第一列表示接口執(zhí)行的 CPU,第二列表示任務(wù)名稱和進程 PID,第三列是函數(shù)執(zhí)行延遲,最后一列是函數(shù)調(diào)用關(guān)系圖。
root@ubuntu:/sys/kernel/debug/tracing# cat trace
# tracer: function_graph
#
# CPU TASK/PID DURATION FUNCTION CALLS
# | | | | | | | | |
2) ls-46073 | | do_sys_open() {
2) ls-46073 | | getname() {
2) ls-46073 | | getname_flags() {
2) ls-46073 | | kmem_cache_alloc() {
2) ls-46073 | | _cond_resched() {
2) ls-46073 | 0.119 us | rcu_all_qs();
2) ls-46073 | 0.416 us | }
2) ls-46073 | 0.095 us | should_failslab();
2) ls-46073 | 0.112 us | memcg_kmem_put_cache();
2) ls-46073 | 1.041 us | }
2) ls-46073 | | __check_object_size() {
2) ls-46073 | 0.097 us | check_stack_object();
2) ls-46073 | 0.100 us | __virt_addr_valid();
2) ls-46073 | 0.097 us | __check_heap_object();
2) ls-46073 | 0.662 us | }
2) ls-46073 | 2.109 us | }
2) ls-46073 | 2.414 us | }
ftrace 的輸出通過不同級別的縮進,直觀展示了各函數(shù)間的調(diào)用關(guān)系。 但是 ftrace 的使用需要好幾個步驟,用起來并不方便,不過,trace-cmd 已經(jīng)把這些步驟給包裝了起來,這樣,就可以通過一行命令,完成上述所有過程。 trace-cmd 的安裝方式如下。
# Ubuntu
apt install trace-cmd
# CentOS
yum install trace-cmd
trace-cmd安裝好之后,可以通過執(zhí)行如下的命令輸出類似的結(jié)果,值得注意的是 trace-cmd 的執(zhí)行不能在 /sys/kernel/debug/tracing 路徑,否則執(zhí)行出出錯,提示信息為“trace-cmd: Permission denied”。
trace-cmd record -p function_graph -g do_sys_open -O funcgraph-proc ls
trace-cmd report
ftrace 的追蹤功能不止于此,它不僅能追蹤到接口的調(diào)用關(guān)系,還能抓取接口調(diào)用的時間戳,用于性能分析; 還可根據(jù)需要追蹤的接口進行模糊過濾,眾多的功能不在這里詳細介紹,如果項目中需要用到再進行具體了解和總結(jié)。
4.動態(tài)追蹤之perf
perf 的功能強大,可以統(tǒng)計分析出應(yīng)用程序或者內(nèi)核中的熱點函數(shù),從而用于程序性能分析; 也可以用來分析 CPU cache、CPU 遷移、分支預(yù)測、指令周期等各種硬件事件; 還可以對感興趣的事件進行動態(tài)追蹤。 下面以 do_sys_open 為例,設(shè)置目標(biāo)函數(shù)追蹤。 執(zhí)行如下命令,可以查詢所有支持的事件。
perf list
在 perf 的各個子命令中添加 --event 選項,設(shè)置追蹤感興趣的事件。 如果這些預(yù)定義的事件不滿足實際需要,可以使用 perf probe 來動態(tài)添加。 而且,除了追蹤內(nèi)核事件外,perf 還可以用來跟蹤用戶空間的函數(shù)。 執(zhí)行如下代碼添加 do_sys_open 探針。
#執(zhí)行指令
perf probe --add do_sys_open
#輸出
Added new event:
probe:do_sys_open (on do_sys_open)
You can now use it in all perf tools, such as:
perf record -e probe:do_sys_open -aR sleep 1
探針添加成功后,就可以在所有的 perf 子命令中使用。 比如,上述輸出就是一個 perf record 的示例,執(zhí)行它就可以對 1s 內(nèi)的 do_sys_open 進行采樣,如下所示。
#執(zhí)行命令
perf record -e probe:do_sys_open -aR sleep 1
#輸出
[ perf record: Woken up 1 times to write data ][ perf record: Captured and wrote 0.810 MB perf.data (18 samples) ]
執(zhí)行如下命令顯示采樣結(jié)果,輸出結(jié)果中列出了調(diào)用 do_sys_open 的任務(wù)名稱、進程 PID 以及運行的 CPU 等信息。
#執(zhí)行命令
perf script
#輸出
perf 3676 [003] 7619.618568: probe:do_sys_open: (ffffffffa92e78e0)
sleep 3677 [000] 7619.621118: probe:do_sys_open: (ffffffffa92e78e0)
sleep 3677 [000] 7619.621130: probe:do_sys_open: (ffffffffa92e78e0)
vminfo 1403 [001] 7619.864117: probe:do_sys_open: (ffffffffa92e78e0)
dbus-daemon 749 [001] 7619.864222: probe:do_sys_open: (ffffffffa92e78e0)
dbus-daemon 749 [001] 7619.864310: probe:do_sys_open: (ffffffffa92e78e0)
irqbalance 743 [000] 7620.013548: probe:do_sys_open: (ffffffffa92e78e0)
irqbalance 743 [000] 7620.013687: probe:do_sys_open: (ffffffffa92e78e0)
在使用結(jié)束后,使用如下命令刪除探針。
#刪除 do_sys_open 探針
perf probe --del probe:do_sys_open
5.動態(tài)追蹤之eBPF
eBPF 相對于 ftrace 和 perf 更加靈活,它可以通過 C 語言自由擴展,這些擴展通過 LLVM (Low Level Virtual Machine) 轉(zhuǎn)換為 BPF 字節(jié)碼后,加載到內(nèi)核中執(zhí)行。
5.1 搭建 eBPF 開發(fā)環(huán)境
雖然 Linux 內(nèi)核很早就已經(jīng)支持了 eBPF,但很多新特性都是在 4.x 版本中逐步增加的。 所以,想要穩(wěn)定運行 eBPF 程序,內(nèi)核至少需要 4.9 或者更新的版本。 而在開發(fā)和學(xué)習(xí) eBPF 時,為了體驗和掌握最新的 eBPF 特性,推薦使用更新的 5.x 內(nèi)核,接下來的案例是基于 Ubuntu20.04 系統(tǒng),內(nèi)核版本為 5.15.0-56-generic,eBPF 開發(fā)和運行需要相關(guān)的開發(fā)工具如下。
- 將 eBPF 程序編譯成字節(jié)碼的 LLVM;
- C 語言程序編譯工具 make;
- 流行的 eBPF 工具集 BCC 和它依賴的內(nèi)核頭文件;
- 內(nèi)核代碼倉庫實時同步的 libbpf;
- 內(nèi)核提供的 eBPF 程序管理工具 bpftool。
可運行如下命令進行相關(guān)工具的安裝。
apt install -y make clang llvm libelf-dev libbpf-dev bpfcc-tools libbpfcc-dev linux-tools-$(uname -r) linux-headers-$(uname -r)
5.2 開發(fā) eBPF 程序的步驟
一般來說, eBPF 程序的開發(fā)分為如下 5 個步驟。
- 第一步,使用 C 語言開發(fā)一個 eBPF 程序;
- 第二步,借助 LLVM 把 eBPF 程序編譯成 BPF 字節(jié)碼;
- 第三步,通過 bpf 系統(tǒng)調(diào)用,把 BPF 字節(jié)碼提交給內(nèi)核;
- 第四步,內(nèi)核驗證并運行 BPF 字節(jié)碼,并把相應(yīng)的狀態(tài)保存到 BPF 映射中;
- 第五步,用戶程序通過 BPF 映射查詢 BPF 字節(jié)碼的運行狀態(tài)。
eBPF 程序執(zhí)行過程
以上的每一步,都可以自己動手去完成。 但為了方便,推薦從 BCC(BPF Compiler Collection)開始學(xué)起。 BCC 是一個 BPF 編譯器集合,包含了用于構(gòu)建 BPF 程序的編程框架和庫,并提供了大量可以直接使用的工具。 使用 BCC 的好處是,它把上述的 eBPF 執(zhí)行過程通過內(nèi)置框架抽象了起來,并提供了 Python、C++ 等編程語言接口。 這樣,就可以直接通過 Python 語言去跟 eBPF 的各種事件和數(shù)據(jù)進行交互。
5.3 借助 BCC 開發(fā) eBPF 程序案例
接下來,就以跟蹤 openat()(即打開文件)這個系統(tǒng)調(diào)用為例,說明如何開發(fā)并運行第一個 eBPF 程序。 使用 BCC 開發(fā) eBPF 程序,可以把上面的五步簡化為下面的三步。
5.3.1 使用 C 開發(fā)一個 eBPF 程序
新建一個 trace_open.c 文件,輸入如下內(nèi)容。
/* 包含頭文件 */
#include
#include
/* 定義數(shù)據(jù)結(jié)構(gòu) */
struct data_t {
u32 pid;
u64 ts;
char comm[TASK_COMM_LEN];
char fname[NAME_MAX];
};
/* 定義性能事件映射 */
BPF_PERF_OUTPUT(events);
/* 定義 kprobe 處理函數(shù) */
int trace_open(struct pt_regs *ctx, int dfd, const char __user *filename, struct open_how *how)
{
struct data_t data = {};
/* 獲取 PID 和時間 */
data.pid = bpf_get_current_pid_tgid();
data.ts = bpf_ktime_get_ns();
/* 獲取進程名 */
if (bpf_get_current_comm(&data.comm, sizeof(data.comm)) == 0)
{
bpf_probe_read(&data.fname, sizeof(data.fname), (void *)filename);
}
/* 提交性能事件 */
events.perf_submit(ctx, &data, sizeof(data));
return 0;
}
BPF 程序可以利用 BPF 映射(map)進行數(shù)據(jù)存儲,而用戶程序也需要通過 BPF 映射,同運行在內(nèi)核中的 BPF 程序進行交互。 用戶層為了獲取內(nèi)核打開文件名稱時,就要引入 BPF 映射。 為了簡化 BPF 映射的交互,BCC 定義了一系列的庫函數(shù)和輔助宏定義。
如下是對上述代碼的說明。
- data_t 是用戶自定義的數(shù)據(jù)結(jié)構(gòu),用于保存進程 PID、時間、執(zhí)行命令及文件名稱;
- 使用 BPF_PERF_OUTPUT 來定義一個 Perf 事件類型的 BPF 映射;
- bpf_get_current_pid_tgid 用于獲取進程的 TGID 和 PID。 定義的 data.pid 數(shù)據(jù)類型為 u32,所以高 32 位舍棄掉后就是進程的 PID;
- bpf_ktime_get_ns 用于獲取系統(tǒng)自啟動以來的時間,單位是納秒;
- bpf_get_current_comm 用于獲取進程名,并把進程名復(fù)制到預(yù)定義的緩沖區(qū)中;
- bpf_probe_read 用于從指定指針處讀取固定大小的數(shù)據(jù),這里則用于讀取進程打開的文件名。
- perf_submit() 接口將填充好的 data 數(shù)據(jù)提交到定義的 BPF 映射中;
5.3.2 使用 Python 開發(fā)用戶態(tài)程序
創(chuàng)建一個 trace_open.py 文件,并輸入下面的內(nèi)容。
#!/usr/bin/env python3
# 1) import bcc library
from bcc import BPF
# 2) load BPF program
b = BPF(src_file="trace_open.c")
# 3) attach kprobe
b.attach_kprobe(event="do_sys_openat2", fn_name="trace_open")
# 4) print header
print("%-18s %-16s %-6s %-16s" % ("TIME(s)", "COMM", "PID", "FILE"))
# 5) define the callback for perf event
start = 0
def print_event(cpu, data, size):
global start
event = b["events"].event(data)
if start == 0:
start = event.ts
time_s = (float(event.ts - start)) / 1000000000
print("%-18.9f %-16s %-6d %-16s" % (time_s, event.comm, event.pid, event.fname))
# 6) loop with callback to print_event
b["events"].open_perf_buffer(print_event)
while 1:
try:
b.perf_buffer_poll()
except KeyboardInterrupt:
exit()
如下是對上述代碼的說明。
- 第 1) 處導(dǎo)入了 BCC 庫的 BPF 模塊,以便接下來調(diào)用;
- 第 2) 處調(diào)用 BPF() 加載第一步開發(fā)的 BPF 源代碼;
- 第 3) 處將 BPF 程序掛載到內(nèi)核探針(簡稱 kprobe),其中 do_sys_openat2() 是系統(tǒng)調(diào)用 openat() 在內(nèi)核中的實現(xiàn);
- 第 4) 處輸出顯示標(biāo)題;
- 第 5) 處的 print_event 定義一個數(shù)據(jù)處理的回調(diào)函數(shù),打印進程的名字、PID 以及它調(diào)用 openat 時打開的文件;
- 第 6) 處的 open_perf_buffer 定義了名為 "events" 的 Perf 事件映射,而后通過一個循環(huán)調(diào)用 perf_buffer_poll 讀取映射的內(nèi)容,并執(zhí)行回調(diào)函數(shù)輸出進程信息。
5.3.3 執(zhí)行 eBPF 程序
用戶態(tài)程序開發(fā)完成之后,最后一步就是執(zhí)行它了。 需要注意的是,eBPF 程序需要以 root 用戶來運行,非 root 用戶需要加上 sudo 來執(zhí)行,輸入如下命令執(zhí)行程序。
python3 trace_open.py
命令執(zhí)行后,可以在另一個終端中輸入 cat 或 ls 命令(執(zhí)行文件打開命令),然后回到運行 trace_open.py 腳本的終端,結(jié)果如下。
TIME(s) COMM PID FILE
0.000000000 b'ls' 5171 b'/etc/ld.so.cache'
0.000021937 b'ls' 5171 b'/lib/x86_64-linux-gnu/libselinux.so.1'
......
2.088971702 b'gsd-housekeepin' 1803 b'/etc/fstab'
2.089056747 b'gsd-housekeepin' 1803 b'/proc/self/mountinfo'
......
2.741662512 b'cat' 5172 b'/etc/ld.so.cache'
2.741681539 b'cat' 5172 b'/lib/x86_64-linux-gnu/libc.so.6'
......
5.4 eBPF 開發(fā)方式簡介
除了 BCC 之外,eBPF 還有可以使用其他的方式進行輔助開發(fā),比如 bpftrace 和 libbpf,每種方法都有自己的優(yōu)點和適用范圍,以下是這三種方式的對比。
- bpftrace 通常用在快速排查和定位系統(tǒng)上,它支持用單行腳本的方式來快速開發(fā)并執(zhí)行一個 eBPF 程序。 不過,bpftrace 的功能有限,不支持特別復(fù)雜的 eBPF 程序,也依賴于 BCC 和 LLVM 動態(tài)編譯執(zhí)行。
- BCC 通常用在開發(fā)復(fù)雜的 eBPF 程序中,其內(nèi)置的各種小工具也是目前應(yīng)用最為廣泛的 eBPF 小程序。 不過,BCC 也不是完美的,它依賴于 LLVM 和內(nèi)核頭文件才可以動態(tài)編譯和加載 eBPF 程序。
- libbpf 是從內(nèi)核中抽離出來的標(biāo)準(zhǔn)庫,用它開發(fā)的 eBPF 程序可以直接分發(fā)執(zhí)行,這樣就不需要每臺機器都安裝 LLVM 和內(nèi)核頭文件了。 不過,它要求內(nèi)核開啟 BTF 特性,需要非常新的發(fā)行版才會默認(rèn)開啟(如 RHEL 8.2+ 和 Ubuntu 20.10+ 等)。
在實際應(yīng)用中,可以根據(jù)內(nèi)核版本、內(nèi)核配置、eBPF 程序復(fù)雜度,以及是否允許安裝內(nèi)核頭文件和 LLVM 編譯工具等,來選擇最合適的方案。
-
內(nèi)核
+關(guān)注
關(guān)注
3文章
1372瀏覽量
40276 -
Linux
+關(guān)注
關(guān)注
87文章
11292瀏覽量
209327 -
命令
+關(guān)注
關(guān)注
5文章
683瀏覽量
22011 -
追蹤技術(shù)
+關(guān)注
關(guān)注
0文章
19瀏覽量
4299
發(fā)布評論請先 登錄
相關(guān)推薦
評論