Sqlserver
 sql >> Datenbank >  >> RDS >> Sqlserver

4 Möglichkeiten zur Vermeidung einer Warnungsüberlastung mit SQL Server-Überwachung

Für Datenbankadministratoren, die zu jeder Tages- und Nachtzeit für die Reaktion auf SQL Server-Warnungen zuständig sind, wird das Gefühl, überlastet zu sein, wahrscheinlich durch die ständige Flut von Benachrichtigungen, dass etwas Ihre Aufmerksamkeit erfordert, noch verstärkt. RECHTS. JETZT.

Die SQL Server-Überwachung ist entscheidend für die Aufrechterhaltung einer hohen Verfügbarkeit und die Verfolgung von Leistungsproblemen in Ihrem System, und Warnungen sind zweifellos der effizienteste Weg, um herauszufinden, ob ein Problem vorliegt. Aber man kann auch zu viel des Guten haben.

Wie das Sprichwort sagt:„Wenn alles Priorität hat, hat nichts Priorität.“ Warnungsmüdigkeit ist real und kann dazu führen, dass Sie Ereignisse ignorieren oder ablehnen, die sich negativ auf Ihre Benutzer auswirken.

Wenn Sie Ihre SQL Server-Leistungsüberwachung einrichten, ist es wichtig, Alarme sorgfältig und auf eine Weise zu konfigurieren, die steuert, wann, warum und wie oft Sie Benachrichtigungen erhalten. Hier sind vier Möglichkeiten zum Verwalten von Warnungen, die dazu beitragen, die Warnungsüberlastung zu verringern und das zu retten, was von Ihrer geistigen Gesundheit übrig ist.

1. Schalte die Wecker aus, die du nicht brauchst

Für viele DBAs ist das leichter gesagt als getan. Es gibt ein kleines Element des Schreckens bei dem Gedanken, auszuwählen, welche Warnungen nicht empfangen werden sollen. Glücklicherweise gibt es einige Best Practices, die Sie implementieren können, um Ihr FOMO etwas weniger schmerzhaft zu machen.

Eines der einfachsten Dinge, die Sie tun können, ist das Überprüfen der Warnungsprotokolle und das Abschalten von Warnungen, die chronische Fehlalarme oder Fehlalarme sind. Die Chancen stehen gut, dass Sie kein echtes Problem verpassen, und Ihr Gehirn wird die Pause von der Reaktion auf unnötige Benachrichtigungen zu schätzen wissen.

Eine weitere Strategie stammt von den Site Reliability Engineers (SREs) von Google. SREs sind verantwortlich für Verfügbarkeit, Latenz, Leistung, Effizienz, Änderungsmanagement, Überwachung, Notfallmaßnahmen und Kapazitätsplanung.

Die SRE-Teams verfügen über ein Alarm-/Ticket-/Protokollsystem, um die Alarmüberlastung zu minimieren, indem einem Ereignis eine Reaktion zugewiesen wird, die darauf basiert, wie schnell ein menschliches Eingreifen erforderlich ist. Die drei möglichen Antworten sind:

  • Alarm:Ein Alarm wird nur gesendet, wenn eine Person sofort handeln muss.
  • Ticket:Wenn die Veranstaltung ein Eingreifen einer Person erfordert, aber bis zu den normalen Geschäftszeiten warten kann, wird ein Ticket eingereicht und durch die normalen Kanäle geleitet.
  • Protokoll:Wenn keine Aktion erforderlich ist, wird das Ereignis zur Diagnose protokolliert.

2. Verwenden Sie Smart Alarms, um schnell zur Ursache einer Warnung zu gelangen

Wenn Ihr Telefon um 3 Uhr morgens mit Benachrichtigungen explodiert, möchten Sie nicht eine Stunde damit verbringen, herumzustöbern, um das Problem zu beheben.

Intelligente Alarme sagen Ihnen nicht nur, dass Sie ein Problem haben, sondern schlagen auch Möglichkeiten vor, es zu beheben, und helfen Ihnen, die Grundursache zu identifizieren. Smart Alarms liefern auch historische Daten über das Ereignis, damit Sie wissen, was unmittelbar vor und nach dem Auslösen des Alarms passiert ist.

3. Priorisieren Sie Ihre Benachrichtigungen, um die dringendsten Probleme zu identifizieren

Nicht alle Warnungen werden gleich erstellt, daher ist es wichtig, Ihr SQL Server-Leistungsüberwachungstool so zu konfigurieren, dass es nur Warnungen für die wichtigsten Probleme sendet. Durch die Priorisierung von Warnungen nach Schweregrad, Auswirkungen auf das Unternehmen oder Kunden und ob sofortige Maßnahmen erforderlich sind, beseitigen Sie einen Teil des Rauschens, das durch nicht kritische Warnungen erzeugt wird.

Konzentrieren Sie sich auf die Einrichtung von Warnungen für Probleme, die dazu führen können, dass Ihre Server offline gehen, Daten schwer beschädigt werden oder zu erheblichem Datenverlust führen (d. h. Schweregrad 17 oder höher und Fehlermeldungen 823, 824 und 825).

4. Verwalten Sie Alarme durch Anwenden spezifischer Schwellenwerte und Regeln

Das Festlegen von Schwellenwerten und Regeln rettet die Gesundheit enorm, da es Ihnen hilft, nicht innerhalb kurzer Zeit mit mehreren Warnungen bombardiert zu werden.

Wenn Sie Leistungsschwellenwerte definieren, wartet SQL Server mit der Benachrichtigung, bis ein Wert für eine bestimmte Metrik einen besorgniserregenden Wert erreicht – beispielsweise sind der freie Speicherplatz oder der freie physische Arbeitsspeicher gefährlich niedrig. Dadurch können DBAs andere Aufgaben erledigen, ohne ständig Metriken überwachen zu müssen.

Durch das Festlegen von Regeln für Benachrichtigungen können Sie Aktionen anpassen, z. B. wie oft Sie benachrichtigt werden möchten. Beispielsweise könnten Sie SQL Server so einstellen, dass nur dann eine Benachrichtigung gesendet wird, wenn eine bestimmte Warnung viermal ausgelöst wurde oder wenn die Warnung ein bestimmtes Datenbankobjekt oder einen bestimmten Benutzernamen enthält.

Da sich DBAs nach COVID-19 in einem neuen und völlig anderen Geschäftsumfeld zurechtfinden, wird das Stressniveau mit Sicherheit steigen. Die Aufrechterhaltung einer hohen Verfügbarkeit und die Sicherstellung, dass Ihre SQL Server-Systeme sicher sind und optimal funktionieren, werden weiterhin eine große Priorität bleiben. Aber jetzt ist ein guter Zeitpunkt, um die Überwachungsfunktionen von SQL Server zu nutzen, um die Kontrolle über Ihre Warnungskonfigurationen zu übernehmen und unnötiges Rauschen zu beseitigen.