it-roy-ru.com

Как мне написать bash-скрипт для перезапуска процесса, если он умирает?

У меня есть сценарий python, который будет проверять очередь и выполнять действия с каждым элементом:

# checkqueue.py
while True:
  check_queue()
  do_something()

Как мне написать bash-скрипт, который будет проверять, работает ли он, а если нет, запустить его. Примерно следующий псевдокод (или, возможно, он должен делать что-то вроде ps | grep?):

# keepalivescript.sh
if processidfile exists:
  if processid is running:
     exit, all ok

run checkqueue.py
write processid to processidfile

Я позвоню из crontab:

# crontab
*/5 * * * * /path/to/keepalivescript.sh
204
Tom

Избегайте PID-файлов, cron или чего-либо еще, что пытается оценить процессы, которые не являются их дочерними.

Есть очень веская причина, почему в UNIX вы можете ТОЛЬКО ждать своих детей. Любой метод (ps parsing, pgrep, хранение PID, ...), который пытается обойти проблему, имеет недостатки и имеет зияющие дыры в нем. Просто скажите нет .

Вместо этого вам нужен процесс, который контролирует ваш процесс, чтобы быть его родителем. Что это значит? Это означает, что только процесс, который начинает , ваш процесс может надежно ожидать его завершения. В bash это абсолютно тривиально.

until myserver; do
    echo "Server 'myserver' crashed with exit code $?.  Respawning.." >&2
    sleep 1
done

Приведенный выше фрагмент кода bash выполняется myserver в цикле until. Первая строка начинается с myserver и ожидает ее окончания. Когда он заканчивается, until проверяет свой статус выхода. Если статус выхода - 0, это означает, что он закончился изящно (что означает, что вы попросили его как-то завершить работу, и он сделал это успешно). В этом случае мы не хотим перезапускать его (мы просто попросили его закрыть!). Если состояние выхода не 0, until запустит тело цикла, которое выдает сообщение об ошибке в STDERR и перезапускает цикл (обратно к строке 1) через 1 секунду .

Почему мы ждем секунду? Потому что, если что-то не так с последовательностью запуска myserver и она сразу падает, у вас будет очень интенсивный цикл постоянного перезапуска и сбоя в ваших руках. sleep 1 снимает напряжение с этого.

Теперь все, что вам нужно сделать, это запустить скрипт bash (вероятно, асинхронно), и он будет отслеживать myserver и перезапускать его при необходимости. Если вы хотите запустить монитор при загрузке (заставляя сервер "выживать", перезагружается), вы можете запланировать его в cron (1) вашего пользователя с помощью правила @reboot. Откройте свои правила cron с помощью crontab:

crontab -e

Затем добавьте правило для запуска скрипта монитора:

@reboot /usr/local/bin/myservermonitor

В качестве альтернативы; посмотрите на inittab (5) и/etc/inittab. Вы можете добавить туда строку, чтобы myserver начиналась с определенного уровня инициализации и автоматически появлялась.


Правка.

Позвольте мне добавить информацию о том, почему нет использования файлов PID. Пока они очень популярны; они также очень несовершенны, и нет никаких причин, по которым вы бы просто не сделали это правильно.

Учти это:

  1. Утилизация ПИД (убивает неправильный процесс):

    • /etc/init.d/foo start: запуск foo, запись PID foo в /var/run/foo.pid
    • Некоторое время спустя: foo как-то умирает.
    • Некоторое время спустя: любой случайный процесс, который запускается (назовите его bar), принимает случайный PID, представьте, что он использует старый PID foo.
    • Вы замечаете, что foo пропало: /etc/init.d/foo/restart читает /var/run/foo.pid, проверяет, живо ли оно, находит bar, думает, что это foo, убивает его, запускает новое foo.
  2. PID файлы устарели. Вам нужна слишком сложная (или я должен сказать, нетривиальная) логика, чтобы проверить, не устарел ли файл PID, и любая такая логика снова уязвима для 1..

  3. Что если у вас даже нет прав на запись или вы находитесь в среде только для чтения?

  4. Это бессмысленное чрезмерное усложнение; Посмотрите, насколько простой мой пример выше. Нет необходимости усложнять это вообще.

Смотрите также: PID-файлы все еще имеют недостатки, когда делаете это правильно?

Кстати; даже хуже, чем PID-файлы, анализирует ps! Никогда не делайте этого.

  1. ps очень непереносим. В то время как вы найдете его почти в каждой системе UNIX; его аргументы сильно различаются, если вы хотите нестандартный вывод. И стандартный вывод предназначен ТОЛЬКО для потребления человеком, а не для синтаксического анализа!
  2. Синтаксический анализ ps приводит к множеству ложных срабатываний. Возьмите пример ps aux | grep PID и теперь представьте, что кто-то начинает процесс с номером где-то в качестве аргумента, который совпадает с PID, с которым вы смотрели своего демона! Представьте двух человек, начинающих сеанс Х, и вы хотите, чтобы Х убил ваш. Это просто плохо.

Если вы не хотите сами управлять процессом; Есть несколько совершенно хороших систем, которые будут выполнять функции мониторинга ваших процессов. Посмотрите в runit , например.

578
lhunath

Посмотрите на monit ( http://mmonit.com/monit/ ). Он обрабатывает запуск, остановку и перезапуск вашего скрипта и может выполнять проверки работоспособности и перезапускать при необходимости.

Или сделайте простой скрипт:

while true
do
/your/script
sleep 1
done
23
Bernd

Самый простой способ сделать это - использовать flock on file. В сценарии Python вы бы

lf = open('/tmp/script.lock','w')
if(fcntl.flock(lf, fcntl.LOCK_EX|fcntl.LOCK_NB) != 0): 
   sys.exit('other instance already running')
lf.write('%d\n'%os.getpid())
lf.flush()

В Shell вы можете проверить, работает ли он:

if [ `flock -xn /tmp/script.lock -c 'echo 1'` ]; then 
   echo 'it's not running'
   restart.
else
   echo -n 'it's already running with PID '
   cat /tmp/script.lock
fi

Но, конечно, вам не нужно тестировать, потому что, если он уже запущен и вы перезапустите его, он завершится с 'other instance already running'

Когда процесс умирает, все его файловые дескрипторы закрываются и все блокировки автоматически снимаются.

8
vartec

Вы должны использовать monit, стандартный инструмент Unix, который может отслеживать различные вещи в системе и реагировать соответствующим образом.

Из документов: http://mmonit.com/monit/documentation/monit.html#pid_testing

 проверить процесс checkqueue.py с помощью pidfile /var/run/checkqueue.pid
 если изменен pid, то выполнить exec "checkqueue_restart.sh" 

Вы также можете настроить monit, чтобы он отправлял вам электронное письмо при перезагрузке.

6
clofresh
if ! test -f $PIDFILE || ! psgrep `cat $PIDFILE`; then
    restart_process
    # Write PIDFILE
    echo $! >$PIDFILE
fi
5
soulmerge

Я не уверен, насколько он переносим между операционными системами, но вы можете проверить, содержит ли ваша система команду "run-one", то есть "man run-one". В частности, этот набор команд включает "run-one-постоянно", что, кажется, именно то, что нужно.

С man-страницы:

run-One-постоянно КОМАНДА [ARGS]

Примечание: очевидно, что это может быть вызвано из вашего скрипта, но это также устраняет необходимость иметь скрипт вообще.

2
Daniel Bradley

Я использовал следующий скрипт с большим успехом на многочисленных серверах:

pid=`jps -v | grep $INSTALLATION | awk '{print $1}'`
echo $INSTALLATION found at PID $pid 
while [ -e /proc/$pid ]; do sleep 0.1; done

заметки:

  • Он ищет процесс Java, поэтому я могу использовать jps, это гораздо более согласованно для всех дистрибутивов, чем для ps
  • $INSTALLATION содержит достаточно пути к процессу, это совершенно однозначно
  • Используйте режим сна, ожидая, пока процесс умрет, избегайте использования ресурсов :)

Этот сценарий фактически используется для закрытия работающего экземпляра Tomcat, который я хочу завершить (и ждать) в командной строке, поэтому запуск его как дочернего процесса просто не подходит для меня.

1
Kevin Wright