Observability - damit businesskritische Anwendungen gesund bleiben

Monitoring, Logging & Tracing

Ihre Applikationen generieren eine Vielzahl an Messungen & Analysen. Dieser Datenflut gilt es Herr zu werden, wenn Sie sicherstellen wollen, dass Ihre businesskritischen Anwendungen gesund bleiben. ConSol setzt auf Observability – Beobachtbarkeit. Wir überwachen Ihre IT-Anwendungen ganzheitlich und schützen Sie vor unliebsamen Ausfällen, die Sie Zeit & Geld kosten und schlimmstenfalls Ihre Reputation schädigen. Mit Open Source Observability unterstützen wir Sie bei Konzeption, Tool-Auswahl, Implementierung und Anbindung von Tracing, Log Aggregration, Error Management und weiteren Observability-Disziplinen.

Sämtliche Applikationen und die darunter liegende Infrastruktur produzieren Metriken, Logs und, wo sinnvoll, auch Traces. Diese werden von bewährten Open Source Tools wie Prometheus (Metriken), Loki (Logs) oder Jaeger (Traces) gesammelt und aufbereitet. Anschließend werden diese Daten zentral in Grafana-Dashboards visualisiert. An dieser Stelle erhält der Nutzer einen Überblick über für ihn freigegebene Applikationen und Infrastruktur-Komponenten. Zur Langzeitspeicherung der Daten können zusätzlich Datenbanken wie InfluxDB zum Einsatz kommen.

Observability – Auf der Jagd nach „Mister X“

Observability setzt sich im Wesentlichen aus drei Bausteinen zusammen: Monitoring, Logging und Tracing. Das Monitoring gibt uns Auskunft, wenn ein definiertes Service Level oder Qualitätskriterium unterschritten wird. Die Anwendungsentwickler definieren hierfür entsprechende Metriken, welche wiederum direkt aus der Applikation heraus bereitgestellt werden. In den Logs finden wir die Fehlermeldungen der einzelnen Softwarekomponenten. Sie zeigen, an welcher Stelle in den jeweiligen Services der Fehler auftritt. Den Weg, den ein Aufruf zwischen den Services zurückgelegt hat, bevor er zu einem Problem geführt hat, können wir im Tracing nachvollziehen. All diese Informationen können wir mittels Korrelations-IDs gemeinsam in einem zentralen Dashboard betrachten. So bewahren wir auch in komplexen Anwendungen den Überblick und spüren die Fehlerquelle schnell auf.

Mehr als
200 Kund*innen
vertrauen ConSol
in Sachen
IT & Software

Zu unseren Kunden-Stories

Observability Tools

Die von uns favorisierten Applikationen für Observability sind überwiegend Open-Source-Lösungen. Gegenüber kommerziellen Lösungen gibt es hier keinerlei Nachteil. Wir haben sie seit etlichen Jahren sowohl bei unseren Kunden als auch bei uns selbst im produktiven Einsatz. Ihr Funktionsumfang ist beachtlich.

Prometheus ist der De-facto-Standard für Cloud-native Monitoring und Alerting. Es bietet eine einfache Konfiguration, wo und wie Metriken gesammelt werden können. Die meisten Anwendungen unterstützen den Export von Metriken nach Prometheus. Und auch für selbst geschriebene Applikationen gibt es für alle gängigen Programmiersprachen und Frameworks sehr gute Unterstützung des Exports von Metriken nach Prometheus.

Mit Loki können Logs einfach importiert und indiziert werden. Die Konfiguration ist an die von Prometheus angelehnt. Das Ziel ist es, schnell Logs für bestimmte Kriterien zu finden. Daher darf nur ein sehr kleiner Index geschrieben werden. Durch starkes Parallelisieren von Auswertungen können Abfragen selbst bei großen Datenmengen schnell ausgeführt werden.

Grafana wird für das Visualisieren von Metriken verwendet. Es bietet eine sehr gute Integration von Prometheus, Loki und Jaeger. Hiermit lassen sich in Graphen neben Metriken auch Traces anzeigen. Es ist außerdem möglich zu einzelnen Traces zu springen und für bestimmte Metriken auch Logs zu diesen Metriken zu zeigen. Neben einer großen Auswahl an vordefinierten Dashboards mit verschiedenen Metriken kann der Benutzer auch selbst Dashboards erstellen.

Jaeger unterstützt den OpenTracing-Standard. Hierdurch ist eine einfache Integration von Applikationen in Jaeger möglich. Für selbst geschriebene Applikationen gibt es, ähnlich wie bei Prometheus, eine breite Unterstützung von Programmiersprachen und Frameworks. Weitere Vorteile von Jaeger, neben der großen Verbreitung, sind die einfache Installation und Skalierung selbst bei großen Datenmengen.

ElasticSearch (und sein OpenSource-Fork OpenSearch) kommen in einer Vielzahl unserer Log Aggregations und Tracing-Systeme zum Einsatz. Die vielfältigen Möglichkeiten des Betriebs, der Steuerung des Datenflusses, der Hochverfügbarkeit und der Datensicherung machen es in vielen Umgebungen zur richtigen Lösung. Wir unterstützen bei Systemplanung, Setup, Konfiguration und Anbindung.

Das VictoriaMetrics-Framework ist eine effiziente Alternative zu Prometheus für komplexere Infrastrukturen, die sowohl kostenlos als auch als Enterprise-Lösung mit fortgeschrittenen Features (z.B. Anomaly Detection via AI-Technologie) verfügbar ist.

Wenn Sie "Video anzeigen" wählen, stimmen Sie der Datenschutzerklärung von Google zu.

Webcast-Aufzeichnung: Effektive Observability

Die enorme Zunahme von Microservices erzeugt eine regelrechte Datenflut. Aus diesen Datenmengen gewinnbringende Informationen zu ziehen ist, besonders mit veralteten Tools, eine Herausforderung und Mammutaufgabe.
Der Webcast gibt einen Überblick über effektive Observability für moderne Cloud Workloads.

Speaker: Christoph Ehlers, Leiter Software Engineering bei ConSol und Iliya Iliev, Senior DevOps Engineer, ebenfalls bei ConSol

Aufbau einer komplexenMulti-Site-Observability-Plattform mit VictoriaMetrics, Jaeger und ElasticSearch für Vodafone

Zur Kunden-Story

Komplexe Anforderungen - ConSol als starker Partner

Noch Fragen zu Observability für businesskritische Anwendungen?

Lassen Sie uns sprechen!

Marc Mühlhoff

+49-211-339903-74

IT-Insights

BMW Group: „State-of-the-art“ Edge Plattform

Innovative Infrastruktur für interne Projekte: BMW deployed eine K8s-Lösung, die auf SUSE Rancher Prime & SUSE Virtualization als HCI basiert.

BMW Group: Effizienter Container-Plattform-Betrieb

CNAP ermöglicht den Betrieb von Connected Mobility Services wie "Connected Car" auf einer Cloud Native Application Platform.

Monitoring unterwegs: ConSol-Teccie-Know-How auf Konferenzen

Unsere Monitoring-Experten sind regelmäßig Speaker auf der OSMC, der FOSDEM usw. Hier ein Überblick & Downloads.

Observability: Wichtige Begriffe & Erläuterungen

Logging

Logging wird genutzt, um spezielle Events oder problematische und fehlerhafte Situationen zu protokollieren, so dass bei Schwierigkeiten die Fehlerkonstellation nachvollzogen werden kann. Es liegt in der Verantwortung der Entwickler, wie aussagekräftig diese sind. Es gibt für die meisten Programmiersprachen Logging-Frameworks, die für standardisierte Log-Formate sorgen. Dies ist dann wichtig, wenn Logs zentral gesammelt werden und nach bestimmten Kriterien wieder gefunden werden sollen. Insbesondere in den flüchtigen Containern ist es zwingend notwendig die Logs zentral zu sammeln. Denn lokale Log-Files gehen mit Restart des Containers verloren.

Tracing

In heutigen verteilten Systemen und insbesondere in Microservice-Architekturen reicht das einfache Logging nicht mehr aus. Hier muss der Ablauf über verschiedene Services oder Methoden hinweg nachverfolgbar sein, da häufig gerade das Zusammenspiel zwischen Microservices zu Problemen oder Performance-Bottlenecks führt. Dazu ist es erforderlich, dass neben den End-User-Aufrufen noch zusätzliche Information über die Service-Aufrufe weitergegeben und in speziellen Tracing-Log-Events hinterlegt wird. Darüber hinaus müssen diese Tracing-Logs auch für alle beteiligten Services zentral gespeichert werden, damit die Aufrufhierarchien dargestellt werden können. Bei Verwendung von externen Bibliotheken oder Services stellt dies zusätzliche Anforderungen an diese.

Über OpenTracing stehen Frameworks für viele Programmiersprachen zur Verfügung, die über sogenannte Spans oder Korrelations-IDs die End-User-Aufrufe über die verschiedenen Services hinweg einfach zuweisbar machen. Dieser Standard wird schon von vielen Open Source-Libraries unterstützt.

Metriken

Metriken sind numerische Repräsentationen von Zuständen (z.B. Anzahl von offenen Connections) oder Durchsätzen (z.B. Schreibvolumen auf einer Festplatte seit einem bestimmten Zeitpunkt, Aufruf einer bestimmten Funktionalität). Sie unterscheiden sich damit von Logs und Tracing-Daten, die sich auf einzelne Events beziehen.

Metriken können über sogenannte Exporter oder Metrik-Endpunkte zu Standardapplikationen (z.B. NGINX, DBs oder Objekten in Kubernetes) abgefragt werden. Die kundenspezifischen Applikationen sollten so instrumentiert werden, dass man damit die SLAs messen lassen und weitere Information über die Nutzung (z.B. Anzahl und Antwortzeiten von kritischen Aufrufen) für detaillierte Performance-Betrachtungen gewinnen kann.

Das aktuell verbreitete Metrikformat wurde von Prometheus eingeführt und über OpenMetrics standardisiert. Metrikpunkte setzen sich dabei wie folgt zusammen:

Metrikname: beschreibt, was repräsentiert wird. Z.B. server_open_connection_count
Labels: anhand von Labeln kann man verschieden vermessene Instanzen unterscheiden. z.B. Instance=127.0.0.1:8080.
Zeitstempel: zu welchem Zeitpunkt war dieser Wert aktuell?
Wert: der numerische Wert

Damit kann die Performance und ggf. auch die Anzahl der Fehler oder spezieller Zustände kompakt repräsentiert und z.B. in Grafana grafisch visualisiert werden.

Auf diesen numerischen Werten können Regeln definiert werden, welche eine Aussage liefern, ob das System Grenzwerte überschritten hat – z.B. wenn über 10 Minuten mehr als 90 % der verfügbaren Connections belegt waren oder in 5 Minuten im Durchschnitt mehr als 2 % der Anfragen zu Fehlern führten. Ein Monitoring Tool für Metriken wie Prometheus speichert die Metriken, prüft solche Bedingungen und kann daraufhin die Verantwortlichen darüber informieren.

Monitoring

Unter Monitoring versteht man die Überwachung von Applikation und Infrastruktur. Bei fehlerhaften Zuständen oder Performance-Engpässen werden die zuständigen Betriebsteams benachrichtigt, idealerweise bevor die Nutzer der Applikation größere Probleme feststellen.

State-of-the-art Monitoring-Systeme wie Prometheus sind metrikbasiert. Das heißt, dass sie auf Basis der Metriken Problemzustände ermitteln und Alerts auslösen. Darüber hinaus speichern sie die Metriken über einen längeren Zeitraum, so dass sie über Visualisierungstools wie Grafana auch nachträglich noch zur Analyse von Problemsituationen verwendet werden können.

Erroro Management

Eine vergleichsweise junge Disziplin der Observability, welche sich der strukturierten Nachverfolgung auftretender Fehlermeldungen in der beobachteten Software widmet. Auftretende Fehlermeldungen, z.B. in Logs, werden registriert, mit gleichartigen Fehlermeldungen korrelliert (so dass ein 10.000 mal auftretender Fehler nur einen einzelnen Eintrag erzeugt). SRE- und Software-Engineers werden über neu auftretende Fehler automatisch informiert, so dass sie diese gezielt untersuchen und bereinigen können: wesentlich effektiver als das manuelle Durchforsten von gigantischen Anwendungslogs!

Anomaly Detection

In den Myriaden Einzelwerten von Applikations-Metriken versteckt sich so mancher Hinweis auf evtl. problematische Entwicklungen, aber wie findet man diese Nadel im Heuhaufen? Das ist das Anwendungsfeld der Anomaly Detection, eines sehr spannenden Use Cases für Artificial Intelligence (AI). Kurz gesagt lernt ein Anomaly Detection System automatisiert, welche Observability-Daten ein System von sich gibt, wenn es "normal" funktioniert.

Darauf basierend ist es dann in der Lage, Abweichungen von diesem normalen Betrieb (z.B. dramatisch erhöhter Traffic, volllaufende Puffer etc.), ebenso automatisiert zu erkennen und gegebenenfalls zu warnen, obwohl es nie konkret auf die Beobachtung konkreter Metriken programmiert wurde. Dies ist eine sehr hilfreiche Ergänzung zu manuell konfigurierten Alerts um "Blind Spots" in deren Konfiguration zu identifizieren und allgemein auch unvorhergesehene Probleme erkennen zu können.

Name	Zweck	Ablauf	Typ	Anbieter
CookieConsent	Speichert Ihre Einwilligung zur Verwendung von Cookies.	1 Jahr	HTML	Website
fe_typo_user	Ordnet Ihren Browser einer Session auf dem Server zu. Dies beeinflusst nur die Inhalte, die Sie sehen und wird von uns nicht ausgewertet oder weiterverarbeitet.	Session	HTTP	Website
_pk_id	Wird verwendet, um ein paar Details über den Benutzer wie die eindeutige Besucher-ID zu speichern.	13 Monate	HTML	Matomo
_pk_ref	Wird benutzt, um die Informationen der Herkunftswebsite des Benutzers zu speichern.	6 Monate	HTML	Matomo
_pk_ses	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo
_pk_cvar	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo
_pk_hsr	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo

Name	Zweck	Ablauf	Typ	Anbieter
_gcl_au	Wird von Google AdSense zum Experimentieren mit Werbungseffizienz auf Webseiten verwendet.	3 Monate	HTML	Google
AMP_TOKEN	Enthält ein Token, das verwendet werden kann, um eine Client-ID vom AMP-Client-ID-Service abzurufen. Andere mögliche Werte zeigen Opt-out, Anfrage im Gange oder einen Fehler beim Abrufen einer Client-ID vom AMP Client ID Service an.	1 Jahr	HTML	Google
_dc_gtm_--property-id--	Wird von DoubleClick (Google Tag Manager) verwendet, um die Besucher nach Alter, Geschlecht oder Interessen zu identifizieren.	2 Jahre	HTML	Google
_ga	Wird verwendet, um Benutzer zu unterscheiden.	2 Jahre	HTML	Google
_gat	Wird zum Drosseln der Anfragerate verwendet.	1 Tag	HTML	Google
_gid	Wird verwendet, um Benutzer zu unterscheiden.	1 Tag	HTML	Google
_ga_--container-id--	Speichert den aktuellen Sessionstatus.	2 Jahre	HTML	Google
_gac_--property-id--	Enthält Informationen zu Kampagnen für den Benutzer. Wenn Sie Ihr Google Analytics- und Ihr Google Ads Konto verknüpft haben, werden Elemente zur Effizienzmessung dieses Cookie lesen, sofern Sie dies nicht deaktivieren.	3 Monate	HTML	Google
UserMatchHistory	Mit diesem Cookie werden die IDs von LinkedIn Ads synchronisiert.	30 Tage	HTML	LinkedIn
AnalyticsSyncHistory	Mit diesem Cookie wird der Zeitpunkt der Synchronisierung mit dem Cookie "lms_analytics" bei Nutzer:innen in den designierten Ländern gespeichert.	30 Tage	HTML	LinkedIn
li_oatml	Mit diesem Cookie werden LinkedIn Mitglieder außerhalb von LinkedIn zu Werbe- und Analysezwecke außerhalb der designierten Länder und für begrenzte Zeit auch für Werbezwecke in den designierten Ländern identifiziert.	30 Session	HTML	LinkedIn
lms_ads	Mit diesem Cookie werden LinkedIn Mitglieder außerhalb von LinkedIn in den designierten Ländern zu Werbezwecken identifiziert.	30 Tage	HTML	LinkedIn
lms_analytics	Mit diesem Cookie werden LinkedIn Mitglieder in den designierten Ländern zu Analysezwecken identifiziert.	30 Tage	HTML	LinkedIn
li_fat_id	Bei diesem Cookie handelt es sich um eine indirekte Mitgliederkennung, die für Conversion-Tracking, Retargeting und Analysen verwendet wird.	30 Tage	HTML	LinkedIn
li_sugr	Mit diesem Cookie werden wahrscheinlichkeitstheoretische Übereinstimmungen der Identität eines Nutzers außerhalb der designierten Länder festgestellt.	90 Tage	HTML	LinkedIn
U	Bei diesem Cookie handelt es sich um eine Browserkennung für Nutzer außerhalb der designierten Länder.	3 Monate	HTML	LinkedIn
_guid	Mit diesem Cookie wird ein LinkedIn Mitglied für Werbung über Google Ads identifiziert.	90 Tage	HTML	LinkedIn
BizographicsOptOut	Mit diesem Cookie wird der Ablehnungsstatus für das Tracking durch Drittanbieter ermittelt.	10 Jahre	HTML	LinkedIn
li_giant	Indirekte Kennung für Gruppen von LinkedIn Mitgliedern, die für das Conversion-Tracking verwendet wird	7 Tage	HTML	LinkedIn
poptin_d_a_x_v_26e98d74588a8	Alle paar Tage einmal angezeigt.	1 Jahre	HTML	Poptin
poptin_o_a_d_26e98d74588a8	Poptin einmal am Tag.	1 Tage	HTML	Poptin
poptin_o_a_v_9296a6dd8d5a5	Poptin einmal pro Besuch.	30 Minuten	HTML	Poptin
poptin_o_v_9296a6dd8d5a5	Zur Zählung der monatlichen Besucher.	30 Minuten	HTML	Poptin
poptin_c_p_o_x_c_9c53b8d57bfa6	Nach Klick auf den X Button.	1 Tage	HTML	Poptin
poptin_old_user	Zum Identifizieren eines alten Besuchers.	2 Tag	HTML	Poptin
poptin_new_user	Zum Identifizieren eines neuen Besuchers.	Session	HTML	Poptin
poptin_referrer	Original referrer.	5 Minuten	HTML	Poptin
poptin_user_country_code	Ländercode des Benutzers speichern.	1 Jahre	HTML	Poptin
poptin_user_id	Einzigartige Besucher id.	1 Jahre	HTML	Poptin
poptin_user_ip	Speichert die IP Adresse des Benutzers.	1 Jahre	HTML	Poptin
poptin_conversion_70909792ed454	Nach einer Poptin Conversion.	1 Jahre	HTML	Poptin
poptin_session	Poptin-Sitzung für Poptin-Anzeigeeinstellungen.	30 Minuten	HTML	Poptin
laravel_session	Sicherheitszweck.	2 Stunden	HTML	Poptin
XSRF-TOKEN	Sicherheitszweck.	2 Stunden	HTML	Poptin
poptin_session_account_fad535548c123	Zählt Besucher pro Unterkonto.	Session	HTML	Poptin
poptin_session_account_time	Zeitverzögerungsauslöser auf der Website.	Session	HTML	Poptin
poptin_c_visitor	Besucherzahl pro Kunde (gesamtes Konto).	Session	HTML	Poptin
poptin_c_new_visitor	Besucherzahl pro Kunde (gesamtes Konto).	30 Tage	HTML	Poptin