it-swarm-ru.tech

Что делать, если «kill -9» не работает?

У меня есть процесс, который я не могу убить с помощью kill -9 <pid>. В чем проблема в таком случае, тем более что я являюсь владельцем этого процесса. Я думал, что ничто не сможет уклониться от этой опции kill.

491
tshepang

kill -9 ( SIGKILL ) всегда работает, если у вас есть разрешение на завершение процесса. По сути, либо процесс должен быть запущен вами, а не быть setuid или setgid, либо вы должны быть пользователем root. Есть одно исключение: даже root не может отправить фатальный сигнал в PID 1 (процесс init).

Однако kill -9 не гарантируется работа немедленно. Все сигналы, включая SIGKILL, доставляются асинхронно: ядру может потребоваться время для их доставки. Обычно доставка сигнала занимает не более нескольких микросекунд, то есть времени, которое требуется для цели, чтобы получить интервал времени. Однако, если цель имеет заблокировала сигнал , сигнал будет поставлен в очередь, пока цель не разблокирует его.

Обычно процессы не могут блокировать SIGKILL. Но код ядра может, и процессы выполняют код ядра, когда они вызывают системные вызовы . Код ядра блокирует все сигналы, когда прерывание системного вызова может привести к неверно сформированной структуре данных где-то в ядре или, в более общем случае, к нарушению некоторого инварианта ядра. Таким образом, если (из-за ошибки или неправильной конструкции) системный вызов блокируется на неопределенный срок, фактически не может быть способа уничтожить процесс. (Но процесс будет будет убит, если он когда-либо завершит системный вызов.)

Процесс, заблокированный в системном вызове, находится в непрерывный сон . Команда ps или top (в большинстве случаев) покажет ее в состоянии D (изначально для " d isk") , Я думаю).

Классический случай длительного непрерывного сна - это процессы, обращающиеся к файлам через NFS , когда сервер не отвечает; современные реализации, как правило, не навязывают непрерывный сон (например, в Linux опция монтирования intr позволяет сигналу прерывать доступ к файлу NFS).

Иногда вы можете увидеть записи, помеченные Z (или H в Linux, я не знаю, в чем отличие) в выходных данных ps или top. Технически это не процессы, это процессы-зомби, которые представляют собой не что иное, как запись в таблице процессов, которая хранится так, чтобы родительский процесс мог быть уведомлен о смерти своего потомка. Они исчезнут, когда родительский процесс обращает внимание (или умрет).

577
Gilles 'SO- stop being evil'

Иногда процесс существует и не может быть остановлен из-за:

  • быть зомби. То есть процесс, родитель которого не прочитал статус выхода. Такой процесс не потребляет никаких ресурсов, кроме ввода PID. В top указано Z
  • ошибочный непрерывный сон. Это не должно происходить, но с комбинацией с ошибочным кодом ядра и/или с ошибочным оборудованием, которое иногда случается. Единственный способ - перезагрузиться или подождать. В top это сигнализируется D.
101
Maciej Piechotka

Похоже, у вас может быть процесс зомби . Это безвредно: единственный ресурс, который потребляет зомби-процесс, - это запись в таблице процессов. Он исчезнет, ​​когда родительский процесс умрет или отреагирует на смерть своего ребенка.

Вы можете увидеть, является ли процесс зомби, используя top или следующую команду:

ps aux | awk '$8=="Z" {print $2}'
32
Josh

Проверьте свои /var/log/kern.log а также /var/log/dmesg (или эквиваленты) для любых подсказок. По моему опыту, это случилось со мной, только когда внезапно оборвалось сетевое соединение монтирования NFS или произошел сбой драйвера устройства. Я думаю, это может произойти и в случае сбоя жесткого диска.

Вы можете использовать lsof, чтобы увидеть, какие файлы устройств открыт у процесса.

26
LawrenceC

Если ответы @ Maciej и @ Gilles не решают вашу проблему, и вы не распознаете процесс (и спрашиваете, что это с вашим дистрибутивом, не не включай ответы). Проверьте наличие руткитов и любых других признаков того, что вы принадлежали . Руткит более чем способен помешать вам убить процесс. На самом деле многие способны помешать вам увидеть их. Но если они забудут изменить одну маленькую программу, они могут быть замечены (например, они изменили top, но не htop). Скорее всего, это не так, но лучше, чем потом сожалеть.

17
xenoterracide

Убить на самом деле означает отправить сигнал. Есть несколько сигналов, которые вы можете отправить. убить -9 это особый сигнал.

При отправке сигнала приложение имеет дело с ним. если не ядро ​​имеет дело с этим. так что вы можете перехватить сигнал в вашем приложении.

Но я сказал, что kill -9 был особенным. Особенность в том, что приложение не получает его. это идет прямо к ядру, которое тогда действительно убивает приложение при первой возможности. другими словами убивает его мертвым

kill -15 отправляет сигнал SIGTERM, который означает SIGNAL TERMINATE, другими словами, указывает приложению выйти. Это удобный способ сообщить приложению, что пора завершать работу. но если приложение не отвечает, kill -9 убьет его.

если kill -9 не работает, это, вероятно, означает, что ваше ядро ​​вышло из строя. перезагрузка в порядке. Я не могу вспомнить, что когда-либо происходило.

11
DeveloperChris

Во-первых, проверьте, если это процесс Zombie (что очень возможно):

ps -Al

Вы увидите что-то вроде:

0 Z  1000 24589     1  0  80   0 -     0 exit   ?        00:00:00 soffice.bin <defunct>

(Обратите внимание на "Z" слева)

Если 5-й столбец не 1, это означает, что у него есть родительский процесс. Попробуйте убить этот идентификатор родительского процесса.

Если его PPID = 1, НЕ УБИВАЙТЕ ЭТО !!, подумайте, какие другие устройства или процессы могут быть связаны с ним.

Например, если вы использовали подключенное устройство или samba, попробуйте отключить его. Это может освободить процесс зомби.

ПРИМЕЧАНИЕ : Если ps -Al (или top) показывает "D" вместо "Z", это может быть связано с удаленным монтированием (например, NFS). По моему опыту, перезагрузка - единственный путь туда, но вы можете проверить другие ответы, которые покрывают этот случай более подробно.

11
lepe

Процесс init невосприимчив к SIGKILL.

Это также верно для потоков ядра, то есть "процессов" с PPID, равным 0.

10
jlliagre

Как уже упоминали другие, процесс в непрерывном сне не может быть немедленно прекращен (или, в некоторых случаях, вообще). Стоит отметить, что было добавлено другое состояние процесса, TASK_KILLABLE, для решения этой проблемы в определенных сценариях, особенно в частом случае, когда процесс ожидает в NFS. Смотрите http://lwn.net/Articles/288056/

К сожалению, я не верю, что это используется где-либо в ядре, кроме NFS.

10
user36054

Сделал небольшой сценарий, который мне очень помог взглянуть!

Вы можете использовать его для уничтожения любого процесса с заданным именем в своем пути (обратите внимание на это !!) Или вы можете уничтожить любой процесс данного пользователя с помощью параметра -u username.

#!/bin/bash

if [ "$1" == "-u" ] ; then\n
        PID=`grep "$2" /etc/passwd | cut -d ":" -f3`
        processes=`ps aux | grep "$PID" | egrep -v "PID|ps \-au|killbyname|grep" | awk '{ print $2}'`
        echo "############# Killing all processes of user: $2 ############################"
else
        echo "############# Killing processes by name: $1 ############################"
        processes=`ps aux | grep "$1" | egrep -v "killbyname|grep" | awk '{ print $2}' `
fi


for process in $processes ; do
        # "command" stores the entire commandline of the process that will be killed
        #it may be useful to show it but in some cases it is counter-productive
        #command=`ps aux | grep $process | egrep -v "grep" | awk '{ print $2 }'`
        echo "Killing process: $process"
        echo ""
        kill -9 $process
done
6
user36035

Существуют случаи, когда даже если вы отправляете kill -9 процессу, этот pid остановится, но процесс перезапустится автоматически (например, если вы попробуете его с gnome-panel, он будет перезагружен): могло ли это быть здесь?

5
dag729

от здесь изначально :

проверьте, показывает ли что-нибудь strace

strace -p <PID>

попробуйте присоединиться к процессу с помощью GDB

gdb <path to binary> <PID>

если процесс взаимодействовал с устройством, которое вы можете размонтировать, удалить модуль ядра или физически отключить/отключить ... попробуйте это.

2
nmz787

У меня была такая проблема. Это была программа, которую я запустил с помощью strace и ​​прервал с помощью Ctrl + C. Он оказался в состоянии T (отслежено или остановлено). Я не знаю, как именно это произошло, но с SIGKILL это невозможно было убить.

Короче говоря, мне удалось убить его с помощью gdb:

gdb -p <PID>
> kill
Kill the program being debugged? (y or n) y
> quit
1
Christophe Drevet-Droguet

Основываясь на подсказке из ответа Жиля, у меня был процесс, помеченный "Z" ("" в ps), который использовал системные ресурсы, у него даже был открыт порт, который СЛУШАЛ, и вы могли подключиться к нему. Это было после выполнения kill -9 в теме. Его родитель был "1" (то есть init), поэтому теоретически он должен просто исчезнуть. Но это было не так, он торчал, хотя и не бежал.

Так что в моем случае это был зомби, но все же потребляющий ресурсы ... FWIW.

И это не было убито kill -9.

И его родителем был init, но он не был собран (очищен). То есть init был ребенок-зомби.

И перезагрузка не была необходима, чтобы исправить проблему. Хотя перезагрузка "сработала бы" вокруг проблемы/сделала бы ее более быстрым отключением. Просто не изящно, что все еще было возможно.

И это был порт LISTEN, принадлежащий процессу зомби (и несколько других портов, например, статус CLOSE_WAIT, подключали localhost к localhost). И это все еще даже приняли связи. Даже как зомби. Я предполагаю, что еще не удавалось очистить порты, поэтому входящие соединения все еще добавлялись в журнал ожидания порта прослушивания tcp, хотя у них не было никаких шансов быть принятым.

Оказывается, у меня был внутренний поток внутри него, который выполнял "системный вызов" (в данном случае ioctl), который возвращался через несколько часов (это ожидалось). Очевидно, что система не может убить его "полностью", пока он не вернется из этого. Через несколько часов все прояснилось, и все розетки были автоматически закрыты и т.д., Как и ожидалось. Это какое-то томительное время смерти!

Также проверьте dmesg, чтобы увидеть, была ли паника ядра (то есть ошибка ядра).

0
rogerdpack