Proxmox SMART-Überwachung hinzugefügt.
All checks were successful
ci/woodpecker/push/default Pipeline was successful

This commit is contained in:
Daniel Spittank 2024-06-03 00:55:38 +02:00
parent 92ab77d9a3
commit 683e39577b

View file

@ -134,6 +134,53 @@ apt install libsasl2-modules
```
## Festplattenüberwachung
Standardmäßig überwacht Proxmox mit dem ```zfs-zed``` die ZFS-Speicher. Diese senden dann bei Unregelmäßigkeiten per Mail eine Nachricht.
In der Konfigurationsdatei ```/etc/zfs/zed.d/zed.rc```können weitere Einstellungen hierzu, z.B. Push-Dienste wie ntfy eingerichtet werden.
Dies kann jedoch im Zweifelsfall recht spät sein, da die Nachrichten erst bei Ausfällen in ZFS-Pools kommen. Daher ist es wünschenswert, zusätzlich S.M.A.R.T.-Monitoring einzurichten.
Die Smartmontools sind bereits installiert und so eingerichtet, dass sie für alle Festplatten auffällige Werte melden. Um zusätzlich regelmäßige Selbsttests auszuführen, muss die Konfiguration angepasst werden.
Hierzu in ```x``` Folgendes [^3] eintragen:
``` bash
# -H: Monitor SMART Health Status, report if failed
# -f: Monitor for failure of any 'Usage' Attributes
# -u: Report changes in 'Usage' Normalized Attributes
# -p: Report changes in 'Prefailure' Normalized Attributes
# -l: Monitor SMART log. Type is one of: error, selftest
# -n POWERMODE: check the device unless it is in SLEEP or STANDBY mode
# -n N: After N checks are skipped in a row, powermode is ignored and the check is performed anyway
# -n q: When a periodic test is skipped, smartd normally writes an informal log message. The message can be suppressed by appending the option ',q'
# -o: Enable/disable automatic offline tests (on/off)
# -S: Enable/disable attribute autosave (on/off)
# -s: start a short self-test every day between 2-3am, and a long self test Wednesdays between 3-4am
# -I 194: ignore normalized temperature
# -W: track Temperature changes >= 5 Celsius, report Temperatures >= 45 Celsius
# -i 9: Ignore device Attribute number ID when checking for failure of Usage Attributes (9: hours-pn-lifetime attribute)
# -R 5: Report changes in Raw value of Reallocated_Sector_Ct (5)
# -C 197: Report if Current Pending Sector count non-zero
# -U 198: Report if Offline Uncorrectable count non-zero
# -m ADD Send warning email to ADD for -H, -l error, -l selftest, and -f
# -M exec PATH: Executes the specified script or program when an error is detected.
DEVICESCAN -H -f -u -p -l error -l selftest -n standby,24,q \
-I 194 \
-I 190 \
-W 5,45,50 \
-i 9 \
-R 5 \
-C 197 \
-U 198 \
-o on -S on -s (L/../../3/04|S/../.././03) \
-m root \
-M exec /usr/share/smartmontools/smartd-runner
```
## Verschlüsselung einrichten
### Proxmox-Root verschlüsseln
@ -307,4 +354,5 @@ systemctl enable zfs-load-key.service
## Fußnoten
[^1]: Native ZFS-Verschlüsselung mit Proxmox: [Quelle](https://gist.github.com/yvesh/ae77a68414484c8c79da03c4a4f6fd55)
[^2]: Nagscreen mit DPKG-Post-Invoke-Hook dauerhaft entfernen: [Quelle](https://github.com/tteck/Proxmox/blob/main/misc/post-pve-install.sh)
[^2]: Nagscreen mit DPKG-Post-Invoke-Hook dauerhaft entfernen: [Quelle](https://github.com/tteck/Proxmox/blob/main/misc/post-pve-install.sh)
[^3]: SMART tests on in use hard drives?: [Quelle](https://www.reddit.com/r/Proxmox/comments/ycaphj/comment/iuo27gl/)