华夏润达建设有限公司网站,虾皮跨境电商注册多少钱,如何建设一个小型网站,优秀网页制作模板了解如何处理转储文件将帮你找到应用中难以重现的 bug。• 来源#xff1a;linux.cn • 作者#xff1a;Stephan Avenwedde • 译者#xff1a;Xingyu.Wang •(本文字数#xff1a;5501#xff0c;阅读时长大约#xff1a;6 分钟)崩溃转储、内存转储、核心转储、系统转储…了解如何处理转储文件将帮你找到应用中难以重现的 bug。• 来源linux.cn • 作者Stephan Avenwedde • 译者Xingyu.Wang •(本文字数5501阅读时长大约6 分钟)崩溃转储、内存转储、核心转储、系统转储……这些全都会产生同样的产物一个包含了当应用崩溃时在那个特定时刻应用的内存状态的文件。这是一篇指导文章你可以通过克隆示例的应用仓库来跟随学习git clone https://github.com/hANSIc99/core_dump_example.git信号如何关联到转储信号是操作系统和用户应用之间的进程间通讯。Linux 使用 POSIX 标准 中定义的信号。在你的系统上你可以在 /usr/include/bits/signum-generic.h 找到标准信号的定义。如果你想知道更多关于在你的应用程序中使用信号的信息这有一个信息丰富的 signal 手册页 。简单地说Linux 基于预期的或意外的信号来触发进一步的活动。当你退出一个正在运行的应用程序时应用程序通常会收到 SIGTERM 信号。因为这种类型的退出信号是预期的所以这个操作不会创建一个内存转储。以下信号将导致创建一个转储文件(来源 GNU C库 ):SIGFPE错误的算术操作SIGILL非法指令SIGSEGV对存储的无效访问SIGBUS总线错误SIGABRT程序检测到的错误并通过调用 abort() 来报告SIGIOT这个信号在 Fedora 上已经过时过去在 PDP-11 上用 abort() 时触发现在映射到 SIGABRT创建转储文件导航到 core_dump_example 目录运行 make并使用 -c1 开关执行该示例二进制./coredump -c1该应用将以状态 4 退出带有如下错误Dump written“Abgebrochen (Speicherabzug geschrieben) ”(LCTT 译注这是德语应该是因为本文作者系统是德语环境)大致翻译为“分段故障(核心转储)”。是否创建核心转储是由运行该进程的用户的资源限制决定的。你可以用 ulimit 命令修改资源限制。检查当前创建核心转储的设置ulimit -c如果它输出 unlimited那么它使用的是(建议的)默认值。否则用以下方法纠正限制ulimit -c unlimited要禁用创建核心转储可以设置其大小为 0ulimit -c 0这个数字指定了核心转储文件的大小单位是块。什么是核心转储内核处理核心转储的方式定义在/proc/sys/kernel/core_pattern我运行的是 Fedora 31在我的系统上该文件包含的内容是/usr/lib/systemd/systemd-coredump %P %u %g %s %t %c %h这表明核心转储被转发到 systemd-coredump 工具。在不同的 Linux 发行版中core_pattern 的内容会有很大的不同。当使用 systemd-coredump 时转储文件被压缩保存在 /var/lib/systemd/coredump 下。你不需要直接接触这些文件你可以使用 coredumpctl。比如说coredumpctl list会显示系统中保存的所有可用的转储文件。使用 coredumpctl dump你可以从最后保存的转储文件中检索信息[stephanlocalhost core_dump_example]$ ./coredump Application started…(…….)Message: Process 4598 (coredump) of user 1000 dumped core.Stack trace of thread 4598:#0 0x00007f4bbaf22625 __GI_raise (libc.so.6)#1 0x00007f4bbaf0b8d9 __GI_abort (libc.so.6)#2 0x00007f4bbaf664af __libc_message (libc.so.6)#3 0x00007f4bbaf6da9c malloc_printerr (libc.so.6)#4 0x00007f4bbaf6f49c _int_free (libc.so.6)#5 0x000000000040120e n/a (/home/stephan/Dokumente/core_dump_example/coredump)#6 0x00000000004013b1 n/a (/home/stephan/Dokumente/core_dump_example/coredump)#7 0x00007f4bbaf0d1a3 __libc_start_main (libc.so.6)#8 0x000000000040113e n/a (/home/stephan/Dokumente/core_dump_example/coredump)Refusing to dump core to tty (use shell redirection or specify — output).这表明该进程被 SIGABRT 停止。这个视图中的堆栈跟踪不是很详细因为它不包括函数名。然而使用 coredumpctl debug你可以简单地用调试器(默认为 GDB )打开转储文件。输入 bt( 回溯(backtrace)的缩写)可以得到更详细的视图Core was generated by ./coredump -c1.Program terminated with signal SIGABRT, Aborted.#0 __GI_raise (sigsigentry6) at ../sysdeps/unix/sysv/linux/raise.c:5050 return ret;(gdb) bt#0 __GI_raise (sigsigentry6) at ../sysdeps/unix/sysv/linux/raise.c:50#1 0x00007fc37a9aa8d9 in __GI_abort () at abort.c:79#2 0x00007fc37aa054af in __libc_message (actionactionentrydo_abort, fmtfmtentry0x7fc37ab14f4b %s) at ../sysdeps/posix/libc_fatal.c:181#3 0x00007fc37aa0ca9c in malloc_printerr (strstrentry0x7fc37ab130e0 free(): invalid pointer) at malloc.c:5339#4 0x00007fc37aa0e49c in _int_free (av, p, have_lock0) at malloc.c:4173#5 0x000000000040120e in freeSomething(void*) ()#6 0x0000000000401401 in main ()与后续帧相比main() 和 freeSomething() 的内存地址相当低。由于共享对象被映射到虚拟地址空间末尾的区域可以认为 SIGABRT 是由共享库中的调用引起的。共享对象的内存地址在多次调用之间并不是恒定不变的所以当你看到多次调用之间的地址不同时完全可以认为是共享对象。堆栈跟踪显示后续的调用源于 malloc.c这说明内存的(取消)分配可能出了问题。在源代码中(即使没有任何 C 知识)你也可以看到它试图释放一个指针而这个指针并没有被内存管理函数返回。这导致了未定义的行为并导致了 SIGABRT。void freeSomething(void *ptr){ free(ptr);}int nTmp 5;int *ptrNull nTmp;freeSomething(ptrNull);systemd 的这个 coredump 工具可以在 /etc/systemd/coredump.conf 中配置。可以在 /etc/systemd/systemd-tmpfiles-clean.timer 中配置轮换清理转储文件。你可以在其 手册页 中找到更多关于 coredumpctl 的信息。用调试符号编译打开 Makefile 并注释掉第 9 行的最后一部分。现在应该是这样的CFLAGS -Wall -Werror -stdc11 -g-g 开关使编译器能够创建调试信息。启动应用程序这次使用 -c2 开关。./coredump -c2你会得到一个浮点异常。在 GDB 中打开该转储文件coredumpctl debug这一次你会直接被指向源代码中导致错误的那一行Reading symbols from /home/stephan/Dokumente/core_dump_example/coredump…[New LWP 6218]Core was generated by ./coredump -c2.Program terminated with signal SIGFPE, Arithmetic exception.#0 0x0000000000401233 in zeroDivide () at main.cpp:2929 nRes 5 / nDivider;(gdb)键入 list 以获得更好的源代码概览(gdb) list24 int zeroDivide(){25 int nDivider 5;26 int nRes 0;27 while(nDivider 0){28 nDivider--;29 nRes 5 / nDivider;30 }31 return nRes;32 }使用命令 info locals 从应用程序失败的时间点检索局部变量的值(gdb) info localsnDivider 0nRes 5结合源码可以看出你遇到的是零除错误nRes 5 / 0结论了解如何处理转储文件将帮助你找到并修复应用程序中难以重现的随机错误。而如果不是你的应用程序将核心转储转发给开发人员将帮助她或他找到并修复问题。