一:背景1. 讲故事这几天看的 dump 有点多,有点伤神伤脑,早晨做梦都是dump,明天早上头晕晕的到公司就听到背地共事埋怨他负责的WPF程序挂死了,而后测试的小姑娘也跟着埋怨。。。嗨,也不晓得是哪一个迭代改进去的问题,反正客户不起义问题都不大。
不过我听到程序无响应,内心深处真的是一拘灵。。。本能反馈吧,给他发了一个 procdump 过来生成两个 dump 发过来。
话说回来,WPF这种带UI界面的挂死问题其实很好剖析的,无非就是 UI线程 失去响应了,至于为啥失去响应了,必定是做了什么见不得光的事件,比方耍小聪明用 Task.Result,还有一点要特地留神的是 UI 独有的 SynchronizationContext,如 Winform 的 : WindowsFormsSynchronizationContext ,WPF 的 DispatcherSynchronizationContext,前面我筹备开一篇文章用 Windbg 深刻分析一下这个死锁造成的起因,好,说了这么多,dump 也到了,上 Windbg 剖析吧。
二: windbg 剖析1. 审查UI线程做法很简略,先通过 ~0s 切到0号,也就是UI线程,再通过 !dumpstack 调出UI线程的托管和非托管栈,为了爱护隐衷,我就略微精简下。
0:000> ~0seax=00000000 ebx=01855bf8 ecx=00000000 edx=00000000 esi=00000000 edi=00000000eip=776a171c esp=014fe3b8 ebp=014fe410 iopl=0 nv up ei pl nz na pe nccs=0023 ss=002b ds=002b es=002b fs=0053 gs=002b efl=00000206ntdll!NtWaitForSingleObject+0xc:776a171c c20c00 ret 0Ch0:000> !dumpstackOS Thread Id: 0x4ee0 (0)Current frame: ntdll!NtWaitForSingleObject+0xcChildEBP RetAddr Caller, Callee014fe3b4 7468a9c5 mswsock!SockWaitForSingleObject+0x125, calling ntdll!NtWaitForSingleObject014fe410 7469932c mswsock!SockDoConnectReal+0x36b, calling mswsock!SockWaitForSingleObject014fe4b4 74698df7 mswsock!SockDoConnect+0x482, calling mswsock!SockDoConnectReal014fe544 74699861 mswsock!WSPConnect+0x61, calling mswsock!SockDoConnect014fe564 77316cf7 ws2_32!WSAConnect+0x77014fe5a0 6422aeea (MethodDesc 64088970 +0x5a DomainBoundILStubClass.IL_STUB_PInvoke(IntPtr, Byte[], Int32, IntPtr, IntPtr, IntPtr, IntPtr))014fe5d4 6422aeea (MethodDesc 64088970 +0x5a DomainBoundILStubClass.IL_STUB_PInvoke(IntPtr, Byte[], Int32, IntPtr, IntPtr, IntPtr, IntPtr))014fe5f4 641c72eb (MethodDesc 63ff4310 +0x4b System.Net.Sockets.Socket.DoConnect(System.Net.EndPoint, System.Net.SocketAddress)), calling 1d4d538c014fe628 642160c5 (MethodDesc 640847c4 +0x7d System.Net.Sockets.Socket.Connect(System.Net.EndPoint)), calling (MethodDesc 63ff4310 +0 System.Net.Sockets.Socket.DoConnect(System.Net.EndPoint, System.Net.SocketAddress))014fe644 1d4d5bd3 (MethodDesc 1c93d404 +0x33 xxx.SocketHelper.xxxSocket.Connect(System.Net.IPEndPoint)), calling (MethodDesc 640847c4 +0 System.Net.Sockets.Socket.Connect(System.Net.EndPoint))014fe660 1d4d5834 (MethodDesc 1c01df50 +0x114 xxx.MainWindow.Connect()), calling (MethodDesc 1c93d404 +0 xxx.Utilities.SocketHelper.xxxSocket.Connect(System.Net.IPEndPoint))014fe714 1d4d8d84 (MethodDesc 1c01e094 +0x9c xxx.MainWindow.<IniTimer>b__18_0(System.Object, System.EventArgs)), calling (MethodDesc 1c01df50 +0 xxx.MainWindow.Connect())从下面的调用堆栈能够看出,MainWindow 中做了一个 Socket.Connect 连贯,最初卡死在非托管的 mswsock!SockDoConnectReal办法上,应该是 Socket 连不上造成的,既然是 Socket ,把它的 ip 和 port 拿进去 telnet 一下不就好啦,对吧,能够用 !dso 把以后线程栈中所有的托管对象找进去。
...