Watchdog
A HupWiki-ből...
A watchdog timer egy olyan hardware vagy software megoldás, ami képes újraindítani a gépet bizonyos események hatására (pld.: fagyás). Kíváltó ok lehet a huzamosabb idó óta tartó maximális terheltség, bizonyos állomány elérhetelensége a merevlemezen, hálókártya lehalása, stb.
Beállítás
Előszőr egy kernel modulra lesz szükség. A lista a /lib/modules/kernel-verzió/kernel/drivers/char/ban van, de így nehezen követhető, inkább a disztribúciód modulkezelőjét (Debian estében ez a modconf) használd.
Kétféle modul van:
- watchdog kártya támogatása, ennek típusáról az lspci kimeneteléből lehet következtetni
- egy univerzális softdog, amihez nem kell hardware támogatás, de kevésbé hatékony, mivel a rendszerrel együtt fagyhat
A program és a figyelést végző daemon általában egy watchdog nevű csomagban található.
Megj.: Debian alatt a csomag telepítése után még engedélyezni kell: az /etc/init.d/watchdogban írd át a "run_watchdog=" értékét 1-re és indítsd újra a daemont.
Hibakódok
Mielőtt a watchdog újraindítaná a rendszert megpróbálja egy e-mailben értesíteni a rootot a probléma típusáról. Pld.:
Message from watchdog: The system will be rebooted because of error 3!
A hibakódok magyarázatát megtalálod a manpage "CHECK BINARY" részében:
- -1 A rendszer újraindul. Valójában nem hibát jelöl, hanem a watchdogot utasítja, hogy ne a shutdown scriptet futtasa le.
- -2 A rendszer újraindul. Valójában nem hibát jelöl, hanem a watchdogot utasítja, hogy ne lehesen írni a deviceokra.
- -3 A load average elérte a meghatározott maximális értéket.
- -4 Túl magas a hőmérséklet.
- -5 Hibás a /proc/loadavg tartalma.
- -6 Elérhetetlen a figyelt állomány.
- -7 Hibás a /proc/meminfo tartalma.
- -8 Szabadon választható.