# 9.4 Monitoring ## Monitoring - Grundlagen ### Was wird überwacht? ``` Monitoring-Bereiche ├── Verfügbarkeit (Ist das System erreichbar?) ├── Performance (CPU, RAM, Disk) ├── Netzwerk (Traffic, Latenz) ├── Anwendungen (Logs, Fehler) └── Sicherheit (Eindringlinge) ``` ### Wichtige Metriken | Metrik | Beschreibung | Beispiel | |--------|-------------|----------| | CPU | Auslastung | < 80% | | RAM | Speicherauslastung | < 85% | | Disk | Festplattennutzung | < 90% | | Network | Durchsatz | 100 Mbps | | Latency | Antwortzeit | < 200ms | --- ## Monitoring-Tools ### Nagios ``` Nagios - Features ├── Host-Überwachung ├── Service-Überwachung ├── Alerting ├── Plugins └── Web-Interface ``` ### Prometheus + Grafana ``` Stack ├── Prometheus: Metriken sammeln ├── Alertmanager: Alarme ├── Grafana: Visualisierung └── Exporters: Datenquellen ``` ### Prometheus - Beispiel ```yaml # prometheus.yml global: scrape_interval: 15s scrape_configs: - job_name: 'node' static_configs: - targets: ['localhost:9100'] ``` ### Grafana Dashboard ``` Grafana - Verwendung 1. Datenquelle hinzufügen (Prometheus) 2. Dashboard erstellen 3. Panels konfigurieren (Graph, Stat, Table) 4. Alerts einrichten ``` --- ## Logging ### Log-Management ``` Log-Stufen ├── DEBUG: Detaillierte Informationen ├── INFO: Allgemeine Informationen ├── WARNING: Warnungen ├── ERROR: Fehler └── CRITICAL: Kritische Fehler ``` ### Zentrales Logging ``` ELK-Stack ├── Elasticsearch: Suchmaschine ├── Logstash: Verarbeitung ├── Kibana: Visualisierung └── Beats: Sammlung ``` ### Logging in Python ```python import logging logging.basicConfig( level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s' ) logger = logging.getLogger(__name__) logger.info("Anwendung gestartet") logger.error("Fehler aufgetreten") ``` --- ## Alerting ### Alert-Regeln ```yaml groups: - name: example rules: - alert: HighCPU expr: cpu_usage > 80 for: 5m labels: severity: warning annotations: summary: "Hohe CPU-Auslastung auf {{ $labels.instance }}" ``` ### Benachrichtigungswege | Kanal | Einsatz | |-------|----------| | E-Mail | Standard | | Slack | Team-Kommunikation | | PagerDuty | Incident Management | | SMS | Kritische Alarme | --- ## Verfügbarkeit ### Uptime ``` Uptime-Berechnung 99% → 7,3 Stunden/Jahr offline 99,9% → 8,7 Stunden/Jahr offline 99,99% → 52 Minuten/Jahr offline 99,999% → 5 Minuten/Jahr offline ``` ### Checks ``` Verfügbarkeitsprüfung ├── Ping ├── Port-Check ├── HTTP-Response ├── Zertifikat └── Transaktion ``` --- ## Querverweise - [[LF9-03-Virtualisierung|Zurück: Virtualisierung]] - [[Wissen/Wirtschafts-Sozialkunde/WISO-Zusammenfassung|WISO: Betriebswirtschaft]] --- *Stand: 2024*