Watchdog

A HupWiki-ből...

A watchdog timer egy olyan hardware vagy software megoldás, ami képes újraindítani a gépet bizonyos események hatására (pld.: fagyás). Kíváltó ok lehet a huzamosabb idó óta tartó maximális terheltség, bizonyos állomány elérhetelensége a merevlemezen, hálókártya lehalása, stb.

Beállítás

Előszőr egy kernel modulra lesz szükség. A lista a /lib/modules/kernel-verzió/kernel/drivers/char/ban van, de így nehezen követhető, inkább a disztribúciód modulkezelőjét (Debian estében ez a modconf) használd.

Kétféle modul van:

  • watchdog kártya támogatása, ennek típusáról az lspci kimeneteléből lehet következtetni
  • egy univerzális softdog, amihez nem kell hardware támogatás, de kevésbé hatékony, mivel a rendszerrel együtt fagyhat

A program és a figyelést végző daemon általában egy watchdog nevű csomagban található.

Megj.: Debian alatt a csomag telepítése után még engedélyezni kell: az /etc/init.d/watchdogban írd át a "run_watchdog=" értékét 1-re és indítsd újra a daemont.

Hibakódok

Mielőtt a watchdog újraindítaná a rendszert megpróbálja egy e-mailben értesíteni a rootot a probléma típusáról. Pld.:

Message from watchdog:
The system will be rebooted because of error 3!

A hibakódok magyarázatát megtalálod a manpage "CHECK BINARY" részében:

  • -1 A rendszer újraindul. Valójában nem hibát jelöl, hanem a watchdogot utasítja, hogy ne a shutdown scriptet futtasa le.
  • -2 A rendszer újraindul. Valójában nem hibát jelöl, hanem a watchdogot utasítja, hogy ne lehesen írni a deviceokra.
  • -3 A load average elérte a meghatározott maximális értéket.
  • -4 Túl magas a hőmérséklet.
  • -5 Hibás a /proc/loadavg tartalma.
  • -6 Elérhetetlen a figyelt állomány.
  • -7 Hibás a /proc/meminfo tartalma.
  • -8 Szabadon választható.