Using truss strace trace Diagnostic Commands

Using truss、strace、trace Diagnostic Commands

使用truss、strace或ltrace诊断进程,程序经常会有”Segment Fault”的提示,这是个让Unix系统用户头痛的问题,本文通过三个实际案例演示如何使用truss、strace和ltrace这三个常用的调试工具来快速诊断软件的”疑难杂症”。

truss 和strace用来跟踪一个进程的系统调用或信号产生的情况,而ltrace用来跟踪进程调用库函数的情况。truss是早期为System V R4研发的调试程式,包括Aix、FreeBSD在内的大部分Unix系统都自带了这个工具;而strace最初是为SunOS系统编写的,ltrace 最早出现在GNU/Debian Linux中。这两个工具现在也已被移植到了大部分Unix系统中,大多数Linux发行版都自带了strace和ltrace,而FreeBSD也可通过Ports安装他们。

您不但能够从命令行调试一个新开始的程式,也能够把truss、strace或ltrace绑定到一个已有的PID上来调试一个正在运行的程式。三个调试工具的基本使用方法大体相同,下面仅介绍三者共有,而且是最常用的三个命令行参数:

-f :除了跟踪当前进程外,还跟踪其子进程。
-o file :将输出信息写到文档file中,而不是显示到标准错误输出(stderr)。
-p pid :绑定到一个由pid对应的正在运行的进程。此参数常用来调试后台进程。

使用上述三个参数基本上就能够完成大多数调试任务了,下面举几个命令行例子:

truss -o /tmp/outputfile ls -alF: 跟踪ls -alF的运行,将输出信息写到文档/tmp/outputfile中。
strace -f -o /tmp/outputfile vi: 跟踪vi及其子进程的运行,将输出信息写到文档/tmp/outputfile。
ltrace -p 5357: 跟踪一个pid为5357的已在运行的进程。

三个调试工具的输出结果格式也很相似,以strace为例:

brk(0) = 0x8062aa8
brk(0x8063000) = 0x8063000
mmap2(NULL, 4096, PROT_READ, MAP_PRIVATE, 3, 0x92f) = 0x40016000 !

每一行都是一条系统调用,等号左边是系统调用的函数名及其参数,右边是该调用的返回值。 truss、strace和ltrace的工作原理大同小异,都是使用ptrace系统调用跟踪调试运行中的进程,周详原理不在本文讨论范围内,有兴趣能够参考他们的源代码。

举两个实例演示如何利用这三个调试工具诊断软件的”疑难杂症”:

案例一:运行clint出现Segment Fault错误

操作系统:FreeBSD-5.2.1-release

clint是个C 静态源代码分析工具,通过Ports安装好之后,运行:

# clint foo.cpp
Segmentation fault (core dumped) .

在Unix系统中遇见”Segmentation Fault”就像在MS Windows中弹出”非法操作”对话框相同令人讨厌。OK,我们用truss给clint”把把脉”:

# truss -f -o clint.truss clint
Segmentation fault (core dumped)
# tail clint.truss
739: read(0x6,0x806f000,0x1000) = 4096 (0x1000)
739: fstat(6,0xbfbfe4d0) = 0 (0x0)
739: fcntl(0x6,0x3,0x0) = 4 (0x4)
739: fcntl(0x6,0x4,0x0) = 0 (0x0)
739: close(6) = 0 (0x0)
739: stat(“/root/.clint/plugins”,0xbfbfe680) ERR#2 ‘No such file or directory’
SIGNAL 11
SIGNAL 11 。
Process stopped because of: 16
process exit, rval = 139

参考自:http://blogold.chinaunix.net/u/26257/showart_2514910.html