DE602004004609T2

DE602004004609T2 - Verfahren und Vorrichtung für die Modell-basierte Erkennung von Veränderungen von Netzwerkverkehr

Info

Publication number: DE602004004609T2
Application number: DE602004004609T
Authority: DE
Inventors: Balachander New York Krishnamurthy; Subhabrata Chatham Sen; Yin Lake Hiawatha Zhang; Yan Evanston Chen
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 2003-08-14
Filing date: 2004-08-06
Publication date: 2007-11-22
Anticipated expiration: 2024-08-07
Also published as: DE602004004609D1; US7751325B2; EP1507360B1; JP2005065294A; US20050039086A1; EP1507360A1

Description

Diese Anmeldung beansprucht Priorität unter 35 U.S.C. §119(e) zur U.S. provisorischen Patentanmeldung Ser. No. 60/495.314 mit dem Titel METHOD FOR SKETCH-BASED CHANGE DETECTION (Verfahren für modellbasierte Erkennung von Veränderungen) eingereicht im Namen von Balachander Krishnamurthy am 14. August 2003, deren voller Umfang hierbei durch Bezugnahme inkorporiert wird.
GEBIET DER ERFINDUNG:
Diese Erfindung bezieht sich generell auf mehrfache Computer- oder Prozesskoordinierung und insbesondere bezieht sie sich auf Computernetzüberwachung.
HINTERGRUND DER ERFINDUNG:
Verkehrsanomalien wie beispielsweise Ausfälle und Angriffe sind im heutigen Netz etwas Alltägliches und deren schnelle und genaue Identifizierung ist für große Netzbetreiber kritisch. Die Erkennung behandelt den Verkehr typisch als eine Sammlung von Verkehrsflüssen, die auf signifikante Veränderungen in Verkehrspattern (z. B., Umfang Zahl von Anschlüssen) untersucht werden müssen. Sowie sich aber Verbindungsgeschwindigkeiten und die Zahl der Verkehrsflüsse erhöhen, ist Unterhalt „pro Fluss" entweder zu teuer oder zu langsam.
Verkehrsanomalien sind für heutige Netzbetreiber ein integraler Teil des täglichen Lebens. Einige Verkehrsanomalien sind erwartet oder sind unvorhergesehen aber erträglich. Andere sind häufig Anzeigen von Performance-Engpässen, aufgrund von "Flash Crowds", Netzelementausfällen oder böswillige Aktivitäten wie beispielsweise DoS-Angriffe (Denial-of-Service) und Würmer. Geeignete Motivierung besteht riesige Datenflüsse (von diversen Quellen verfügbar) schnell zu verarbeiten, um sie auf anomales Verhalten zu untersuchen. Es sind zwei fundamentale Ansätze für die Erkennung von Netzanomalien üblich.
Der erste Ansatz ist der "auf Signatur beruhende" Ansatz, der Verkehrsanomalien durch Betrachten von Patterns erkennt, die Signaturen bekannter Anomalien entsprechen. Beispielsweise könnten solche Techniken auf DoS-Aktivitäten, beruhend auf Adressengleichförmigkeit, einer Eigenschaft, die sich mehrere beliebte DoS-Toolkits teilen, schließen lassen. Verfahren auf Signaturbasis sind ausführlich in der Literatur und vielen Softwaresystemen und Toolkits erforscht worden. Eine Beschränkung dieses Ansatzes ist das Erfordernis, dass die Anomaliesignaturen im Voraus bekannt sein sollen. Somit lässt er sich nicht auf das Identifizieren neuer Anomalien anwenden. Außerdem kann ein böswilliger Angreifer Erkennungssysteme auf Signaturbasis durch Ändern ihrer Signaturen umgehen. Man kann eine Parallele im Versagen filterbasierter gegen Spam bekämpfende Systeme sehen, wo Spammer zufällige Hash-Zeichen in ihre Spam-Nachrichten einführen.
Ein zweiter Ansatz ist der Ansatz auf "statistischer Basis", der keine vorherige Kenntnis über die Natur und Eigenschaften von Anomalien erfordert und daher sogar für neue Anomalien oder Varianten bestehender Anomalien effektiv sein kann. Eine sehr wichtige Komponente des Ansatzes auf statistischer Basis ist Veränderungserkennung. Er erkennt Verkehrsanomalien durch Ableiten eines Modells von normalem Verhalten beruhend auf Verkehrsvorgeschichte und Suche nach signifikanten Veränderungen in Kurzzeitverhalten (nach Minuten bis Stunden), die nicht mit dem Modell übereinstimmen.
Veränderungserkennung wurde ausführlich im Kontext von Zeitreihenvorhersage und Ausreißeranalyse. Die Standardtechniken umfassen verschiedene Glättungstechniken (wie exponentielles Glätten oder Gleitfenstermittelung), „Box-Jenkins AutoRegressive Integrated Moving Average" [Autoregressives integriertes Zeitreihenmodell gleitenden Durchschnitts] (ARIMA-) Modellierung und abschließend die neueren Techniken auf „Wavelet" Basis.
Frühere Arbeiten haben diese Techniken auf Netzfehlererkennung und Einbruchserkennung angewandt. Beispiele in Fehlererkennung umfassen: Jene, die Fehler identifizieren, die auf statistischen Abweichungen vom normalen Verkehrsverhalten abweichen; Verfahren der Identifizierung anomalem Verhalten durch Anwenden von Schwellwerten in Zeitreihenmodellen von Netzverkehr; Verfahren für Einbruchserkennung, die neuronale Netze, Markovmodelle und Clusterbildung umfassen; und jene, die eine Kennzeichnung verschiedener Typen von Anomalien bereitstellen und Verfahren auf Wavelet-Basis für Veränderungserkennung vorschlagen.
Leider handhaben bestehende Veränderungserkennungstechniken typisch nur eine relativ kleine Zahl von Zeitreihen. Während dies zur Erkennung von Veränderungen in stark angehäuften Netzverkehrsdaten (z. B., "Simple Network Management Protocol" (SNMP) Verbindungszählung mit einem Abtastintervall von 5 Minuten) ausreichen dürfte, können sie maßstäblich nicht auf die Bedürfnisse auf Netzinfrastrukturebene (z. B., Internet Service Provider (ISP)) vergrößert werden. Auf einer ISP-Ebene könnten Verkehrsanomalien im angehäuften Verkehr vergraben werden, was zur Untersuchung des Verkehrs auf einer viel niedrigeren Summenebene verpflichtet (z. B., Internet Protokoll (IP) Adressenebene) um sie freizulegen.
Unter Voraussetzung des heutigen Verkehrsumfangs und der Verbindungsgeschwindigkeiten muss ein geeignetes Erkennungsverfahren fähig sein, potenziell mehrere Millionen oder mehr gleichzeitiger Netzzeitreihen zu handhaben. Direktes Anwenden bestehender Techniken auf einer „per Fluss" Basis kann maßstäblich nicht auf die Bedürfnisse solche riesiger Datenflüsse vergrößert werden. Einige kürzlichen Forschungsanstrengungen sind auf die Entwicklung skalierbarer "heavy-hitter" ("Schwertreffer") Erkennungstechniken für Buchhaltungs- und Anomalieerkennungszwecke gerichtet worden. Jedoch entsprechen "Schwertreffer"-Techniken nicht notwendigerweise Flüssen, die signifikante Veränderungen erfahren und daher ist es nicht klar wie ihre Techniken angepasst werden können Veränderungserkennung zu unterstützen.
Folglich besteht eine Notwendigkeit für einen effizienten, genauen und skalierbaren Veränderungserkennungmechanismus zum Erkennen signifikanter Veränderungen in riesigen Datenflüssen mit einer großen Zahl von Flüssen.
Das US-Patent Nr. 4769761 offenbart ein Ortsnetz mit einer Vielheit von Datenendeinrichtung, die an Übertragungsmedium gekoppelt ist, dessen Signale zwischen Elementen der Datenendeinrichtung getragen werden können. Die Elemente der Datenendeinrichtung unterhalten einen Satz von Zählern, wobei diese Zähler die Häufigkeit des Auftretens von weichen Fehlern im Netz messen. Periodisch generiert und sendet jedes Element der Datenendeinrichtung eine Fehlermeldung, welche die Fehlerzählungen enthält, an eine Ringfehlermonitorstation, die in einem der Elemente der Datenendeinrichtung bereitgestellt ist. Der Ringfehlermonitor berechnet und speichert gewichtete Fehlerzählungen für die Stationen. Die gespeicherten Fehlerzählungen werden über ein geeignetes Zeitintervall integriert und werden mit einem Schwellwert für ein Kommunikationsnetz verglichen, das mit akzeptablen Fehlerraten arbeitet.
Die EP-A-1206085 offenbart ein Verfahren der Überwachung von Verzögerungszeiten in einem Netz, um entweder zu erlauben eine Vereinbarung über die Dienstleistungsebene (SLA) anfänglich zu erstellen oder zu erlauben die Performance eines Netzes zwecks Übereinstimmung mit einer SLA zu überwachen. Das Verfahren umfasst Sammeln von Verzögerungsdaten durch Bestimmen der Durchschnittsverzögerung über einen Zeitraum und Aufzeichnung der Durchschnittverzögerung gegen Zeit. Die durchschnittliche Verzögerungszeit und eine Standardabweichung werden aus den Verzögerungsdaten erhalten. Die durchschnittliche Verzögerungszeit und die Standardabweichung der Verzögerungszeit können verwendet werden eine SLA zu generieren oder Performance gegen eine bestehende SLA zu überwachen.
Ein erster Gesichtspunkt der vorliegenden Erfindung stellt ein Verfahren zur Erkennung anomalen Verkehrsflusses bereit, wobei das Verfahren umfasst: Generieren einer "k-ary sketch" (Skizze) beobachteter Werte eines ankommenden Datenflusses, wobei die "k-ary sketch" jedes Datenelement im ankommenden Datenfluss durch einen Schlüsselwert identifiziert, der eine Quellen- oder Ziel-Internetprotokolladresse umfasst, die mit dem Datenelement und einen Update-Wert assoziiert ist, der eine Größe des Datenelements umfasst; Generieren einer Vorhersageskizze mittels eines Zeitreihenvorhersagemodells, das einen ersten Parameter, der einen Reihe von Hash-Funktionen definiert, die auf jedes Datenelement des ankommenden Datenflusses angewandt werden, einen zweiten Parameter, der eine Hash-Tabellengröße definiert und einen dritten Parameter, der ein Zeitintervall definiert, umfasst, wobei das Zeitreihenvorhersagemodell einen Wert einer Vorhersageskizze ergibt; Berechnen eines Vorhersagefehlers, der eine Differenz zwischen dem Wert der Vorhersageskizze und einem beobachteten Wert der Skizze des ankommenden Datenflusses umfasst; und. Anzeigen eines Alarmzustands, wenn der Vorhersagefehler einen Schwellwert überschreitet.
Zweite und dritte Gesichtspunkte der Erfindung stellen ein computerlesbares Medium zum Implementieren eines Verfahrens der Erkennung anomalen Verkehrsflusses, wie in Anspruch 16 beansprucht und eine Vorrichtung zum Erkennen anomalen Verkehrsflusses, wie in Anspruch 18 beansprucht, bereit.
Es ist daher eine Aufgabe der vorliegenden Offenbarung, Verfahren einzuführen, die auf verschiedener Vorrichtung implementiert sind, in denen Zusammenfassungen der Verkehrsdaten mithilfe von Sketches (Skizzen) aufgebaut werden. Insbesondere wird eine Variante der Sketch-Datenstruktur, „k-ary sketch", vorgestellt. Die "k-ary sketch" verwendet eine konstante, kleine Menge Speicher und hat konstante pro Aufzeichnung Update- und Rekonstruierungskosten. Ihre Linearitätseigenschaft ermöglicht die Zusammenfassung von Verkehr auf verschiedenen Ebenen. Eine Vielfalt von Zeitreihenvorhersagemodellen (ARIMA, Holt-Winters, usw.) werden dann oben auf solche Zusammenfassungen implementiert, die signifikante Veränderungen erkennen, indem sie nach Flüssen mit großen Vorhersagefehlern suchen. Heuristik für automatisches Konfigurieren der Modellparameter wird ebenso vorgestellt.
Mithilfe einer großen Menge reeller Internetverkehrsdaten von einem betrieblichen ISP ersten Ranges („tier-1 ISP") wird gezeigt, dass das sketchbasierte Veränderungserkennungsverfahren höchst genau ist und zu geringen Rechen- und Speicherkosten implementiert werden kann. Die Ergebnisse zeigen an, dass die offenbarten Verfahren zuverlässig für Netzanomalieerkennung und Verkehrsmessung verwendet werden könnten.
KURZE BESCHREIBUNG DER ZEICHNUNGEN:
Weitere Gesichtspunkte der vorliegenden Offenbarung werden nach erneuter Prüfung der ausführlichen Beschreibung ihrer, unten beschriebenen, verschiedenen Ausführungsformen leichter zu erkennen sein, wenn sie im Zusammenhang mit den zugehörigen Zeichnungen gesehen werden, von denen:
Die 1 ein Blockdiagramm eines Computernetzes ist, indem der hierin offenbarte Prozess durchgeführt werden kann;
Die 2 ein Flussdiagramm eines beispielhaften sketchbasierten Anomalieerkennungsprozesses ist, der über das Computernetz der 1 durchgeführt wird;
Die 3 zeigt eine grafische Darstellung der Summenhäufigkeitsfunktion (CDF) von Relativdifferenz zwischen sketchbasierten Prozessen, die im Prozess der 2 und pro Fluss Analyse verwendet wird;
Die 4 zeigt eine grafische Darstellung der Ergebnisse zufälliger Wahl von h-Parametern für Zeitreihenvorhersagemodelle, die mit dem Prozess der 2 verwendet werden;
Die 5 zeigt grafische Darstellungen der Ergebnisse zufälliger Wahl von K-Parametern für Zeitreihenvorhersagemodelle, die mit dem Prozess der 2 verwendet werden;
Die 6 zeigt grafische Darstellungen der Gesamtähnlichkeit der pro Fluss Messungen und Sketch-Funktionen, die mit dem Prozess der 2 für große Router-Dateien mit Zeitreihenvorhersageparametern H=5 und K=32000 verwendet werden;
Die 7 zeigt grafische Darstellungen der durchschnittlichen Ähnlichkeit im EWMA-Modell, das mit dem Prozess der 2 verwendet wird, wo H mit 5 festgelegt ist und K zwischen 8K und 64K für sowohl 300 s als auch 60 s Zeitintervallen variiert;
Die 8 zeigt grafische Darstellungen der Genauigkeit von Top N vs. Top X·N für das EWMA-Modell, das mit dem Prozess der 2 für große Router-Dateien verwendet wird;
Die 9 zeigt grafische Darstellungen des Effekts der Änderung von H- und K-Parammetern für EWMA-Modelle, die mit dem Prozess der 2 für große Router-Dateien verwendet werden;
Die 10 zeigt grafische Darstellungen von Ähnlichkeitsmetrik für ein EWMA-Modell, das mit dem Prozess der 2 für Router-Dateien großer und mittlerer Größe bei einem Intervall von 300 s verwendet wird;
Die 11 zeigt grafische Darstellungen von Ähnlichkeitsmetrik für ein ARIMA-Modell, das mit dem Prozess der 2 für Router-Dateien großer und mittlerer Größe bei einem Intervall von 300 s verwendet wird;
Die 12 zeigt grafische Darstellungen einer Reihe von Alarmen, einer Reihe falscher positiver und einer Reihe falscher negativer Verhältnisse bei unterschiedlichen Schwellwerten, die das NSHW-Modell mit dem Prozess der 2 auf einem großen Router bei einem Intervall von 60 Sekunden verwendet;
Die 13 zeigt grafische Darstellungen einer Reihe von Alarmen, einer Reihe falscher positiver und einer Reihe falscher negativer Verhältnisse bei unterschiedlichen Schwellwerten, die das NSHW-Modell mit dem Prozess der 2 auf einem großen Router bei einem Intervall von 300 Sekunden verwendet;
Die 14 zeigt grafische Darstellungen eines falschen negativen Verhältnisses für EWMA- und NSHW-Modelle, die mit dem Prozess der 2 verwendet werden, wie er auf einem Router mittlerer Größe bei einem Zeitintervall von 300 Sekunden implementiert ist;
Die 15 zeigt grafische Darstellungen falscher negativer Verhältnisse für unterschiedliche ARIMA-Modelle, die mit dem Prozess der 2 verwendet werden, wie er auf einem Router mittlerer Größe bei einem Zeitintervall von 300 Sekunden implementiert ist;
Die 16 zeigt grafische Darstellungen falscher positiver Verhältnisse für EWMA- und NSHW-Modelle, die mit dem Prozess der 2 verwendet werden, wie er auf einem Router mittlerer Größe bei einem Zeitintervall von 300 Sekunden implementiert ist;
Die 17 zeigt grafische Darstellungen falscher positiver Verhältnisse für unterschiedliche ARIMA-Modelle, die mit dem Prozess der 2 verwendet werden, wie er auf einem Router mittlerer Größe bei einem Zeitintervall von 300 Sekunden implementiert ist; und
Die 18 zeigt eine Tabelle, welche die Auswirkung von Hash-Berechnungen und Sketch-Funktionen auf Rechenzeiten in separaten Rechenanlagen, die im Netz der 1 verwendet werden könnten, zusammenfasst.
AUSFÜHRLICHE BESCHREIBUNG DER SPEZIFISCHEN AUSFÜHRUNGSFORMEN:
Über mehrere Jahre ist Berechnung über riesige Datenflüsse ein aktiver Forschungsbereich in der Datenbank-Forschungsgemeinde gewesen. Das sich entwickelnde Gebiet der Datenflussberechnung befasst sich mit verschiedenen Gesichtspunkten der Berechnung, die auf eine raum- und zeitsparende Art und Weise durchgeführt werden kann, wenn jedes Tupel (jede Entität) in einem Datenfluss nur einmal (oder eine kleine Zahl von Malen) berührt werden kann.
Eine besonders starke Technik ist "Sketch", eine Wahrscheinlichkeits-Zusammenfassungstechnik, die zum Analysieren großer Flüsse von Datensätzen vorgeschlagen wird. Sketches vermeiden Unterhalt des „pro Fluss" Zustands durch Reduzierung der Anzahl von Dimensionen mithilfe von Projektionen entlang zufälliger Vektoren. Sketches haben einige interessante Eigenschaften, die sich bei Datenflussberechnung sehr nützlich erwiesen haben: sie sind Raum sparend, stellen nachweisbare Wahrscheinlichkeits-Rekonstruierungsgenauigkeitsgarantien bereit und sind linear (d.h., Sketches lassen sich in einem arithmetischen Sinn kombinieren).
Jetzt wird ein sketchbasierter Veränderungserkennungsprozess vorgestellt, wobei Datenflussrechentechniken in Veränderungserkennung so inkorporiert werden, dass Erkennung signifikanter Veränderungen in riesigen Datenflüssen mit einer großen Zahl von Netzzeitreihen berücksichtigt wird. Bei sketchbasierter Veränderungserkennung werden kompakte Zusammenfassungen der Verkehrsdaten mithilfe von Sketches (Skizzen) generiert. Eine Variante der hierin vorgestellten Sketch-Datenstruktur, als "k-ary sketch" bezeichnet, verwendet eine konstante, kleine Menge Speicher und weist konstante pro Aufzeichnung Update- und Rekonstruierungskosten auf. Eine Vielfalt von Zeitreihenvorhersagemodellen (ARIMA, Holt-Winters, usw.) können oben auf solche Zusammenfassungen implementiert werden und signifikante Veränderungen erkennen, indem sie nach Flüssen mit großen Vorhersagefehlern suchen. Die Fähigkeit signifikante Differenzen in der Liste von "Top" Flüssen schnell berechnen zu können, kann auf mögliche Anomalien hinweisen. Abhängig von der Länge des Zeitraums, für den Vorhersagen berechnet werden und die Dauer von signifikanten Veränderungen, kann der Prozess die Anwesenheit einer Anomalie genau identifizieren. Beachten Sie, dass eine Anomalie ein harmloser Verkehrsflussstoß (wie ein Flash-Crowd) oder ein Angriff sein kann. Heuristik für Konfigurieren der Modellparameter wird ebenso vorgestellt.
Eine große Menge reeller Internetverkehrsdaten wurden verwendet zu demonstrieren, dass das sketchbasierte Veränderungserkennungsverfahren, wenn mit der „pro Fluss" Analyse vergleichen, höchst genau ist und zu geringeren Rechen- und Speicherkosten implementiert werden kann. Auswertungen zeigen, dass Listen der Top-Flüsse in einem Zeitraum effizient und genau rekonstruiert werden könnten, was zu ähnlichen Vorhersagefehlern im Vergleich zu „pro Fluss" Techniken führt. Dieses Verfahren kann somit leicht als Grundlage für Netzanomalieerkennung dienen.
Bezug nehmend auf die 1-18, wobei ähnliche Komponenten der vorliegenden Offenbarung auf ähnliche Weise bezeichnet sind, werden jetzt verschiedene Ausführungsformen eines Verfahrens und einer Vorrichtung für sketchbasierte Erkennung von Veränderungen in Netzverkehr offenbart.
Die 1 zeigt eine beispielhafte Rechenumgebung 100, in der die Prozesse der vorliegenden Offenbarung durchgeführt werden könnten. Als eine mögliche Implementierung wird ein Server 102, wie beispielsweise ein Unternehmensnetzserver des Typs, der gemeinhin von IBM hergestellt wird oder eine Gruppe verteilter Server, als ein Tor zwischen einem Ortsnetz (LAN) 106 und einer breiteren Rechenumgebung wie dem Internet implementiert. Der Prozess könnte direkt vom Server 102 implementiert werden oder könnte stattdessen auf einem separaten Computer 104, wie einem Personal-Computer-Terminal, einer Computerworkstation oder separatem(n) dedizierten Server(s) implementiert werden, dessen/deren Aufgabe ist, ankommenden Datenfluss zu überwachen. In solchen Ausführungsformen könnte der Computer 104 Datenflusseingabe vor dem Server 102, parallel mit dem Server 102 oder nach dem Server 102, wie gezeigt, empfangen.
Das Ortsnetz (LAN) 106 könnte eine Unternehmensnetzumgebung oder dergleichen sein und könnte beliebige kleine bis größere unterschiedlich arbeitende eine oder mehrere Rechenumgebungen und ein oder mehrere Netzprotokolle umfassen. In einer speziellen Ausführungsform werden Server 102, Terminal 104 und LAN 106 von einem Internet Service Provider oder dergleichen betrieben, die häufig Ziele bzw. Targets von DoS-Angriffen und anderen Verkehrsanomalien sind. Andere Implementierungen der Rechenumgebung 100 könnten ebenso berücksichtigt werden.
Die Funktion des sketchbasierten Veränderungserkennungsprozesses 200 ist, nach Installation auf dem Server 102 oder dem Computer 104, im Flussdiagramm der 2 zusammengefasst. Dem Prozess 200 zufolge wird eine "k-ary sketch" ankommender Datenflüsse für selektierte kontinuierliche Zeitintervalle (Schritt 202) generiert. Zeitreihenvorhersage wird implementiert, um Vorhersage-Sketches (-Skizzen) und Vorhersagefehler für jede „k-ary sketch „ (Schritt 204) zu generieren. Wenn Vorhersagefehler einen festgelegten Schwellwert (Schritt 206) überschreiten, identifiziert der Prozess den anomalen Fluss und löst einen Alarmzustand aus (Schritt 208). Ansonsten wird die Überwachung ankommender Datenflüsse fortgesetzt.
Besondere Implementierungen der Schritte 202-206 werden in den folgenden ausführlichen Erörterungen beschrieben, in denen ein Überblick des verfügbaren Rahmens des "sketchbasierten" Veränderungserkennungsprozesses, gefolgt von ausführlichen Erörterungen der in Erwägung gezogenen Softwaremodule zum Implementieren des Prozesses 200, experimentellen Setups zum Prüfen des Prozesses 200 und Ergebnisse der Prüfung des sketchbasierten Veränderungserkennungsprozesses 200 mit verschiedenen großen und reellen Datensätzen, präsentiert wird.
Über mehrere Jahre sind verschiedene Modelle vorgeschlagen worden, Datenflüsse zu beschreiben, die das Zeitreihenmodell (Time Series Model), das Cache-Registermodell (Cache Register Model) und das Drehkreuzmodell (Turnstile Model) umfassen. Das generellste Modell, nämlich das Drehkreuzmodell, wurde in den folgenden Erörterungen vorausgesetzt, obwohl andere solcher Modelle ebenso berücksichtigt werden könnten. Lassen wir dem selektierten Modell zufolge I = α₁, α₂, ^..., einen Eingangsfluss sein, der sequenziell, Element um Element, ankommt. Jedes Element α_j = (a_j, u_j) besteht aus einem Schlüssel
und einem (möglicherweise negativen) Update u_j ∈ ^R. Mit jedem Schlüssel a ∊ [u] ist ein zeitvariantes Signal A[a] assoziiert. Die Ankunft jedes neuen Datenelements (a_i, u_i) bewirkt, dass das Grundsignal A[a_i] aktualisiert wird: A[a_i]+=u_i. Das Ziel von Veränderungserkennung ist, alle derartigen Signale mit signifikanten Veränderungen in ihrem Verhalten zu identifizieren.
Das Drehkreuzmodell lässt sich auf vielerlei Art mit spezifischen Definitionen der Schlüsselwerte und Aktualisierungswerte (Update-Werte) spezialisieren. Im Kontext von Netzanomalieerkennung kann der Schlüssel mithilfe eines oder mehrerer Felder in Paketköpfen von Datenelementen eines Eingangsdatenflusses, wie beispielsweise Quell- und Ziel-Internetprotokolladressen, Quell- und Zielportnummern, Protokollnummer und dergleichen definiert werden. Es ist außerdem möglich Schlüssel mit Parameterwerten wie Netzpräfixen oder Zahlen des autonomen Systems (AS) zu definieren, um höhere Summenpegel zu erzielen.
Der Update-Wert kann der Größe eines Pakets, der Gesamtbytes oder einer Reihe von Datenpaketen in einem Fluss sein (wenn Flusspegeldaten verfügbar sind). Um aber den Parameterplatz in einer zu bewältigenden Größe zu halten, werden Zieladressen der IP-Version 4 (Ipv4) und Bytes bereitwillig als der Schlüsselwert bzw. der Update-Wert verwendet. Eine abwechselnde Wahl von Schlüssel- und Updatewerten könnte ebenso verwendet werden, von denen sich einige auf die Laufzeit des Prozesses 200 auf einem Computer auswirken könnten.
In einer idealen Umgebung mit unendlichen Ressourcen könnte man Zeitreihenvorhersage und Veränderungserkennung auf einer „pro Fluss" Basis durchführen. Speziell könnte sich Zeit in diskrete Intervalle I₁, I₂ teilen. Für jedes Zeitintervall I_t und jedes Signal A[a], das vor oder während Intervall I_t erscheint, kann ein beobachteter Wert als das gesamte Update auf A[a] während Intervall I_t:o_a(t)=Σ_i∈k_a(t)^ui berechnet werden, wo der Satz von Indexen
während I_t ankommt. Der Vorhersagewert f_a(t) kann dann durch Anwenden eines Vorhersagemodells auf beobachtete Werte in den früheren Intervallen bestimmt werden. Der Vorhersagefehler e_a(t) = o_a(t) – f_a(t) kann dann bestimmt und ein Alarm angezeigt werden, wann immer e_a(t) gemäß gewissen Erkennungskriterien signifikant ist.
Doch in der reellen Welt und wie bereits angegeben, kann "pro Fluss" Analyse unerschwinglich sein, weil die im ankommenden Datenfluss vorhandene Zahl von Signalen sehr groß sein kann. Wenn, beispielsweise, Quell- und Zieladressen des Typs IPv4 als Schlüssel verwendet werden, kann der Schlüsselraum [u] größer als 2⁶⁴ sein und die Zahl von Signalen kann, unter Voraussetzung des heutigen Verkehrsumfangs und der heutigen Verbindungsgeschwindigkeiten, leicht mehrere Zehenmillionen erreichen. Daher kann es zu langsam oder zu kostspielig sein, Veränderungserkennung auf einer "pro Fluss" Basis durchzuführen.
Die hier präsentierte Lösung ist, Sketches zu schaffen, um den Eingangsfluss zusammenzufassen und dann verschiedene Vorhersagemodelle oben auf die Sketches zu implementieren. Der sketchbasierte Veränderungserkennungsprozess 200 könnte als die folgenden drei Grundmodule implementiert werden: Ein Sketch-Modul, ein Vorhersagemodul und ein Veränderungserkennungsmodul.
Das Sketch-Modul schafft eine raum- und zeitsparende Sketch (die beobachtete Sketch S_o(t)), um alle beobachteten Werte o_a(t) (gesamtes Update t auf Signal A[a]) während jedes Zeitintervalls I_t zusammenzufassen. Das Vorhersagemodul produziert eine Vorhersage-Sketch S_f(t) mithilfe einiger Vorhersagemodelle, die auf beobachteten Sketches (Skizzen) in früheren Intervallen beruhen. Es berechnet dann die Vorhersagefehler-Sketch S_e(t) als die Differenz zwischen S_o(t) und S_f(t), d.h., S_e(t) = S_o(t) – S_f(t). Die Linearität der Sketch-Datenstruktur erlaubt uns, verschiedene Vorhersagemodelle zu implementieren und den Vorhersagefehler direkt auf der Sketch-Ebene zu berechnen. Das Veränderungserkennungsmodul verwendet die Fehler-Sketch S_e(t), um signifikante (d.h., anomale) Veränderungen zu identifizieren. Die von diesen Modulen ausgeführten Funktionen werden jetzt der Reihe nach beschrieben.
Lassen wir (a₁, u₁), (a₂, u₂)...einen Eingangsfluss (beispielsweise, den Subfluss von _x sein, der während eines gegebenen Zeitintervalls beobachtet wird). Für jeden Schlüssel a ∊ [u], lassen wir v_a = Σi_∈A au_j, wo der Satz von Indexen
Für jedes Intervall wird der "zweite Moment" (F₂) als die Summe von Quadraten der Werte definiert, die mit allen der Schlüssel assoziier sind, d.h.,
Wir beziehen uns auf die Quadratwurzel des zweiten Moments (
) als die "L2-Norm".
Das Sketch-Modul verwendet die Sketch-Datenstruktur, um alle der v_a in jedem Zeitintervall zusammenzufassen. Sketch ist eine Wahrscheinlichkeits-Zusammenfassungsdatenstruktur, die auf zufälligen Projektionen beruht. Wir haben eine Variante der Sketch-Datenstruktur konzipiert, die wir als die "k-ary sketch" bezeichnen. Die "k-ary sketch" ist der Zähl-Sketch-Datenstruktur ähnlich, die kürzlich von Anderen vorgeschlagen wurde. Aber die üblichsten Funktionen an der "k-ary sketch" verwenden einfachere Funktionen und sind effizienter als die entsprechenden Funktionen, die an Zähl-Sketches definiert sind.
Gerade wie die Zähl-Sketch besteht eine "k-ary Sketch" S aus einer H × K Tabelle von Registern: Ts [i] [j] (i ∊ [H], j ∊ [K]). Jede Reihe Ts[i][·](i ∈ [H]) ist mit einer Hash-Funktion von [u] bis [K]: h_i assoziiert. Die Datenstruktur für eine beliebige "k-ary sketch" könnte dann als eine Gruppe von Hash-Tabellen betrachtet werden. Die Hash-Funktionen müssen 4-universell sein, um Wahrscheinlichkeitsgarantien von Rekonstruierungsgenauigkeit bereitzustellen. Sie könnten mithilfe eines schnellen tabellarisch-basierten Verfahrens konstruiert werden. Verschiedene h_i werden mithilfe unabhängiger „Seeds" konstruiert und sind deshalb unabhängig.
Es gibt vier Grundfunktionen, die für „k-ary sketches" definiert sind: (1) UPDATE, um eine Sketch (Skizze) zu aktualisieren, (2) ESTIMATE, um v_a für einen gegebenen Schlüssel a zu rekonstruieren, (3) ESTIMATEF2, um den zweiten Moment F2 zu schätzen und (4) COMBINE, um die lineare Kombination mehrfacher Sketches zu berechnen. Diese Funktionen werden in verschiedenen Modulen des Prozesses 200 für Veränderungserkennung verwendet: UPDATE im Sketch-Modul, um die beobachtete Sketch S_o(t) zu aktualisieren; COMBINE im Vorhersagemodul, um verschiedene Vorhersagemodelle zu implementieren und die Vorhersage-Sketch S_f(t) und Vorhersagefehler-Sketch S_e(t) zu berechnen; ESTIMATE im Veränderungserkennungsmodul, um Vorhersagefehler vom S_e(t) zu rekonstruieren; und ESTIMATEF2 im Veränderungserkennungsmodul, um den Schwellwert zur Beurteilung zu wählen, ob Vorhersagefehler signifikant sind.
Eine formale Spezifikation dieser Funktionen ist wie folgt:

1. UPDATE (S, α, u): Für ∀_j ∊ [H], T_S[i][h_j(a)]+= u.
2. ESTIMATE(Sⁱ, a): Lassen wir sum(Sⁱ) = Σi_∊| K_| Ts[0][j] die Summe aller Werte in der Sketch sein, die nur einmal berechnet werden muss, bevor irgendein ESTIMATE (Sⁱ, a) gerufen wird. Rücksendung einer Schätzung (Estimate) von v_a:
Wie in den Nachweisen am Ende dieser Erörterung gezeit wird jede
eine erwartungsgetreue Schätzfunktion von v_a ist mit Varianz, die invers proportional zu (K – 1) ist. v^est _a verbessert Genauigkeit weiter durch Vermeidung der extremen Schätzungen (Estimates).
3. ESTIMATEF2(S): Rücksendung einer Schätzung (Estimate) des zweiten Moments:
Wie in den Nachweisen am Ende dieser Erörterung gezeigt bildet jede
eine erwartungsgetreue Schätzfunktion von F₂ ist mit Varianz, die invers proportional zu (K – 1) ist. Fest verbessert Genauigkeit weiter durch Vermeidung der extremen Schätzungen (Estimates).
4. COMBINE (c_1. S₁, ...c_e, S_e): Die Linearität der Sketch-Datenstruktur erlaubt uns mehrfache Sketches
durch Kombinieren jedes Eintrags in der Tabelle linear zu kombinieren:

Das Vorhersagemodul verwendet die beobachteten Sketches in den früheren Intervallen S_o(t₀) (t₀ < t), um die Vorhersage-Sketch S_f(t) und zusammen damit, den Fehler zwischen den beobachteten und vorhergesagten Sketches als S_e(t) zu berechnen. Für diese Zwecke könnten mindestens sechs bekannte Modelle in univariater Zeitreihenvorhersage und Veränderungserkennung verwendet werden. Die ersten vier Modelle sind einfache Glättungsmodelle, wogegen die zwei anderen Modelle zur Familie von ARIMA-Modellen gehören. Alle sechs Modelle lassen sich durch Nutzung der Linearitätseigenschaft von Sketches auf Sketche obenauf implementieren.
Die ersten vier solcher nützlichen Vorhersagemodelle sind einfache Glättungsmodelle und sind aufgrund ihrer Einfachheit beliebt. Sie sind: Gleitender Durchschnitt ((MA), exponentiell gewichteter gleitender Durchschnitt (EWMA), S-förmiger gleitender Durchschnitt (SMA) und „Non-Seasonal Holt-Winters" (NSHW).
Das Vorhersagemodell für gleitenden Durchschnitt (MA) ordnet allen früheren Sample-Daten gleiche Wichtungen zu und hat einen einzigen Integerparameter W≥1, der die Zahl früherer Zeitintervalle spezifiziert, die zum Berechnen der Vorhersage für Zeit t verwendet wurde.
Das Vorhersagemodell für S-förmigen gleitenden Durchschnitt (SMA) ist eine Klasse von gewichteten gleitenden Durchschnittsmodellen, die neueren Sample-Daten höhere Wichtungen geben.
Eine Subklasse wird verwendet gleiche Wichtungen der neuesten Hälfte des Fensters und linear abgefallene Wichtungen der früheren Hälfte zu geben.
Im Vorhersagemodell des exponentiell gewichteten gleitenden Durchschnitts (EWMA) ist die Vorhersage für Zeit t der gewichtete Durchschnitt der früheren Vorhersage und des neu beobachteten Sample-Datenwerts bei Zeit t – 1.
Der Parameter α∊[0,1] wird als die Glättungskonstante bezeichnet. Sie zeigt an, wie viel Wichtung neuen Sample-Datenwerten vs. historischen Daten von früheren Intervallen gegeben wird.
Das Vorhersagemodell "Non-Seasonal Holt-Winters" (NSHW) ist ein weiteres gemeinhin verwendetes Glättungsmodell, das benutzt werden könnte, anomales Verhalten zu erkennen. Im "Non-Seasonal Holt-Winters" Modell gibt es eine separate Glättungskomponente S_s(t) und eine Trendkomponente S_t(t). Es gibt zwei Parameter α ∊ [0,1] und β ∊ [0,1].
Die Vorhersage ist dann S_f(t) = S_s(t) + S_t(t).
Box-Jenkins-Methodenlehre oder die Modelliertechnik des Typs "AutoRegressive Integrated Moving Average (ARIMA) bzw. Autoregressiven integrierten gleitenden Durchschnitts ist eine Klasse linearer Zeitreihenvorhersagetechniken, welche die lineare Abhängigkeit der künftigen Werte von den früheren Werten erfassen. Sie sind fähig ein breites Spektrum von Zeitreihenverhalten zu modellieren. Folglich sind sie ausführlich studiert und überall für univariate Zeitreihenvorhersage und Veränderungserkennung verwendet worden.
Ein ARIMA-Modell umfasst drei Arten von Parametern: Den autoregressiven Parameter (p), die Zahl von differenzierenden Durchgängen (d) und den Parameter (q) für gleitenden Durchschnitt. In der Notation, die von Box und Jenkins eingeführt wurde, sind Modelle als ARIMA (p, d, q) zusammengefasst. Ein Modell, dass als (0, 1, 2) beschrieben wurde, bedeutet, dass es p = 0 (Null) autoregressive Parameter und q = 2 gleitende Durchschnittsparameter enthält, die für die Zeitreihen berechnet wurden, nach dem es einmal differenziert wurde (d = 1). In den Erörterungen hierin werden nur integrale Werte für p, d und q benutzt. Obwohl kürzlich Arbeit an Modellen mit einem gebrochenen d Parameter (wie beispielsweise dem "AutoRegressive Fractional Integrated Moving Average" (ARFIMA) Modell) im Kontext von Wirkung und Gegenwirkung vorgenommen wurde, obgleich deren Anwendung im Netzwerkkontext nicht völlig erforscht worden ist.
Ein allgemeines ARIMA-Modell von Ordnung (p, d, q) kann ausgedrückt werden als:
wo Z_t durch Differenzieren der originalen Zeitreihen "d" Zeiten erhalten wird, e_t der Vorhersagefehler bei Zeit „t" ist, MA_i(i = 1,...., q) und AR_j, (j = 1,...., p) MA- und AR-Koeffizienten sind. In der Praxis brauchen p und q sehr selten größer als 2 sein. Die Zahl von Differenzen (d) ist typisch entweder 0 oder 1. Daher werden, wenn wir erweiterte ARIMA-Modelle auf Sketch-Kontext anwenden, nur die folgenden zwei Typen von ARIMA-Modellen (die Namen basieren auf der Zahl von Differenzen) ausführlich erörtert:
ARIMA0: ARIMA-Modelle der Ordnung (p ≤ 2, d = 0, q ≤ 2)
ARIMA1: ARIMA-Modelle der Ordnung (p ≤ 2, d = 1, q ≤ 2)
In ARIMA-Modellen muss die Wahl von MA- und AR-Koeffizienten (MA_i(i = 1,...., q) and AR_J (j 1,...., p)) sicherstellen, dass die sich ergebenden Modelle invertierbar und stationär sind. Als eine notwendige, aber unzureichende Bedingung müssen MA_i und AR_j zum Bereich [–2, 2] gehören, wenn p, q ≤ 2.
Nach Konstruieren der Vorhersagefehler-Sketch Se(t) wählt das Veränderungserkennungsmodul einen Schwellwert TA auf der Basis des geschätzten zweiten Moments von S_e(t):
wo T ein Parameter ist, der durch die Anwendung zu bestimmen ist.
Jetzt kann das Veränderungserkennungsmodul für jeden Schlüssel "a" seinen Vorhersagefehler in S_e(t) mithilfe von ESTIMATE(Se(t), a) rekonstruieren und einen Alarm geben, wann immer der geschätzte Vorhersagefehler über dem Alarmschwellwert TA liegt.
Die übrige Frage ist, wie man den Fluss von Schlüsseln für das Veränderungserkennungsmodul erhält. Sketches unterstützen nur Rekonstruierung des mit einem gegebenen Schlüssel assoziierten Vorhersagefehlers. Er enthält keine Information darüber, welche Schlüssel im Eingangsfluss erschienen sind.
Es gibt mehrere mögliche Lösungen für dieses Problem. Bei der Lösung mit roher Gewalt kann man alle Schlüssel aufzeichnen, die in kürzlichen Intervallen erschienen sind (z. B., dasselbe Intervall „t", über das S_e(t) definiert wird) und sie wiedergeben nach dem S_e(t) konstruiert worden ist. Dies erfordert immer noch Beibehaltung von "pro Fluss" Information. Ihr Skaliervermögen wird durch die maximale Zahl von Schlüsseln begrenzt, die im Fenster für Schlüsselerfassung erscheinen. Man kann vermeiden, einen "per Fluss" Zustand zu unterhalten, indem man einen Zweidurchgang-Algorithmus verwendet – Konstruieren von S_e(t) im ersten Durchgang und Erkennen von Veränderungen beim zweiten Durchgang. Da der Eingangsfluss selbst die Schlüssel bereitstellen wird, besteht keine Notwendigkeit "pro Fluss" Zustand zu unterhalten. Dies macht zweimaligen Zugriff auf denselben Eingangsfluss erforderlich und ist daher nur im Offline-Kontext nützlich. Eine dritte Alternative ist, die Schlüssel zu verwenden, die erscheinen nach dem S_e(t) konstruiert worden ist. Dies funktioniert sowohl im Online- als auch im Offline-Kontext.
Das Risiko ist, dass jene Schlüssel, die nicht nochmals erscheinen, nach dem sie signifikante Veränderung erfahren haben, ausgelassen werden. Dies ist für Anwendungen wie DoS-Angriffserkennung häufig akzeptabel, wo der Schaden sehr begrenzt sein kann, wenn ein Schlüssel nie wieder erscheint. Beachten Sie bitte, dass dies nicht für jedes neu angekommene Datenelement getan werden muss. Wenn das Risiko des Fehlens einiger sehr seltener Schlüssel akzeptabel ist, kann man die (künftigen) Eingangsflüsse abtasten und nur mit einem Subfluss von Schlüsseln arbeiten.
Eine weitere Möglichkeit ist, kombinatorisches Gruppentesten in Sketches zu inkorporieren. Dies erlaubt einem, Schlüssel direkt aus der (modifizierten) Sketch-Datenstruktur zu folgern, ohne einen separaten Fluss von Schlüsseln zu benötigen. Jedoch erhöht dieser Plan auch die Aktualisierungs- und Schätzungskosten und zusätzliche Forschung ist erforderlich, ihn effizienter zu machen. Bei den restlichen Beschreibungen wird in allen Experimenten der Offline-Zweidurchgangs-Algorithmus vorausgesetzt.
Der Veränderungserkennungsrahmen umfasst sketchbezogene Parameter sowie Kontrollparameter für verschiedene Vorhersagemodelle. Richtlinien und Heuristik für richtiges Konfigurieren dieser Parameter wird jetzt beschrieben.
H und K sind zwei sketchbezogene Parameter: Die Zahl von Hash-Funktionen (H) und die Größe von Hash-Tabellen (K). Abhängig von der Wahl von H und K können "k-ary Sketches" Wahrscheinlichkeitsgarantien über die Schätzungsgenauigkeit der Vorhersagefehler und ihrer Gesamtenergie (siehe hierzu die Nachweise am Ende dieser Erörterung bezüglich Details) bereitstellen. Derartige analytische Ergebnisse können verwendet werden die Wahl von H und K zu bestimmen, die ausreichend sind zum Ziel gesetzte Genauigkeit zu erreichen. Da die analytischen Ergebnisse auf eine datenunabhängige Weise Anwendung finden, könnten die resultierenden H und K für den tatsächlichen Datensatz zu konservativ sein. Daher könnten analytische Ergebnisse weiter dazu verwendet werden, datenunabhängige Wahl von H und K abzuleiten und sie als Obergrenzen zu behandeln. Tatsächliche Daten könnten dann benutzt werden, die besten (datenabhängigen) H- und K-Werte in einer tatsächlichen Anwendung zu finden.
Im Kontext univariater Zeitreihenvorhersage wählt eine gemeinhin verwendete einfache Heuristik zum Konfigurieren von Modellparametern Parameter, welche die gesamte restliche Energie, d.h., die Summe von Quadraten von Vorhersagefehler über einen Zeitraum, minimieren. Die obige Heuristik lässt sich auf den Sketch-Kontext ausdehnen, um nach Parametern zu suchen, welche die Gesamtenergie in den resultierenden Vorhersagefehler-Sketches über Zeit Σt F2(Se(t)) minimieren, wo F2(Se(t)) der zweite Moment für alle durch die Sketch S_e(t) zusammengefassten Vorhersagefehler ist.
Die wahre F₂(S_e(t)) kann nicht bekannt sein, wenn nicht "per Fluss" Analyse für jede Parametereinstellung durchgeführt wird, was unerschwinglich sein kann. Stattdessen kann man den geschätzten zweiten Moment F^est ₂(S_e(t)) verwenden, solange sich F^est ₂(S_e(t)) eng annähernd F₂(S_e(t)) ist. Mit anderen Worten, man muss Parameter finden, welche die geschätzte Gesamtenergie von Vorhersagefehlern Σt F₂ ^est(S_e(t)) minimieren.
Für Parameter, die kontinuierlich sind, könnte ein Mehrfachdurchgangs-Rastersuchalgorithmus eingesetzt werden, um eine gute Wahl zu finden. Ziehen Sie zum Beispiel das EWMA-Modell in Erwägung. Der erste Durchgang findet einen Parameter α ∊ {0.1, 0.2, ...1.0}, der die geschätzte Gesamtenergie für die Vorhersagefehler minimiert. Lassen wir a₀ den besten α-Wert sein. Der zweite Durchgang unterteilt den Bereich [a₀ – 0.1; a₀ + 0.1] genauso in N = 10 Teile und wiederholt den Prozess. Über mehrfache Durchgänge erhält man hohe Präzision. Für Modelle mit integralen Parametern wie beispielsweise das Modell gleitenden Durchschnitts, könnte der Parameter einfach variiert werden, um die besten Werte zu finden. Beachten Sie bitte, dass Rastersuche nur eine Heuristik ist. Sie garantiert nicht, dass die optimale Parameterkombination gefunden werden wird, welche die geschätzte Gesamtenergie für Vorhersagefehler minimiert. Es wurde aber festgestellt, dass Rastersuche genaue Parameter derartig ergibt, dass das resultierende Modell das Gesamtzeitreihenverhalten erfasst.
Zum Auswerten und Validieren dieses Ansatzes wurden große Mengen reeller Internetverkehrsdaten verwendet. Eine Erörterung von Datensätzen und der experimentellen Parametereinstellungen wird jetzt im Detail präsentiert.
Als Eingangsdatenflüsse wurden vier Stunden von Netzflussdatenausgaben von zehn verschiedenen Routern im Backbone eines Tier-1 ISP gewählt. Fast 190 Millionen Aufzeichnungen werden mit dem kleinsten Router mit 861.000 Aufzeichnungen und dem am stärksten beschäftigten Router mit über 60 Millionen Aufzeichnungen in einem unmittelbar aneinander folgenden vierstündigen Zeitraum verarbeitet.
Verschiedene Werte von Parametern wurden in diesen Experimenten verwendet, um akzeptable Auswahlbereiche zu bestimmen. Diese Werte können im sketchbasierten Ansatz auf verfügbare tatsächliche lokale Daten zugeschnitten werden. Folglich könnten einige der Parameter verschiedene Werte haben, wenn die Sketch-Technik in unterschiedlichen Anwendungen verwendet wird.
Die Kosten von Schätzung und Aktualisierung werden von der Zahl von Hash-Tabellen dominiert, die für Sketches verwendet werden, daher sollten für H kleine Werte gewählt werden. Mittlerweile verbessert H Genauigkeit, indem die Wahrscheinlichkeit extreme Schätzungen zu treffen, exponentiell klein gemacht wird (siehe hierzu zwecks weiteren Details die Lehrsätze 2, 3 und 5, die am Ende dieser Erörterung erscheinen), was wiederum nahe legt, dass es ausreichend ist, für H einen kleinen Wert zu verwenden. H wurde variiert, um die Auswirkung der Schätzungsgenauigkeit in Bezug auf die Kosten zu bestimmen. Selektionen von H (1, 5, 9 und 25) lag die Tatsache zugrunde, dass optimierte Mediannetze verwendet werden können, die Mediane schnell finden, ohne von irgendwelchen Voraussetzungen über die Natur der Eingabe auszugehen.
Die analytische obere Grenze, die erforderlich ist, eine spezifische Fehlerschwellwertebene durch Verwendung von "k-ary sketches" bereitzustellen, wurde als der obere Bereich von K selektiert. Man kann die untere Grenze von Null durch empirisches Untersuchen von Werten zwischen 0 und der oberen Grenze in Log-Schritten (obere Schranke) einengen. Experimentelle Ergebnisse zeigen eine obere Grenze von K = 64000 und eine untere Grenze von K = 1024.
Ein weiterer wichtiger Parameter ist die Intervallgröße: Ein langes Intervall würde zu Verzögerungen führen, das der sketchbasierte Prozess 200 Anomalien am Ende jedes Intervalls meldet und Ereignisse, die nur innerhalb eines einzelnen Intervalls auftreten versäumt werden könnten. Ein kurzes Intervall erfordert häufigeres Aktualisieren (Updating) der sketchbasierten Vorhersagedatenstrukturen. Fünf Minuten (300 Sekunden (s)) wurde als ein angemessener Kompromiss zwischen der Ansprechempfindlichkeit und dem rechenbetonten Aufwand selektiert. Solch ein Intervall wird in anderen Erkennungssystemen für Netzanomalie auf SNMP-Basis verwendet. Außerdem verwenden wir Intervalle von einer Minute (60 s), um die Auswirkung kürzerer Intervalle zu untersuchen.
Jedes der sechs Zeitreihenvorhersagemodelle erfordert unterschiedliche Parameterwahlen. Für die Modelle gleitenden Durchschnitts (MA und SMA) wurde ein einziges Zeitintervall für die Mindestfenstergröße verwendet und zehn (oder zwölf) soll die Höchstfenstergröße für eine Intervallgröße von fünf (oder einer) Minuten sein. Die Fenstergröße, welche die mindeste Gesamtenergie von Vorhersagefehlern über jeden der Intervallwerte ergab, wurde dann als der Wert für diesen Parameter gewählt. Bei den restlichen Modellen wurde ein Zweidurchgangs-Rastersuchalgorithmus angewandt, um verschiedene Parameter auszuwählen. Für die EWMA- und NSHW-Modelle wurden während jeden Durchgangs die aktuellen Bereiche in zehn gleiche Intervalle unterteilt. Bei ARIMA-Modellen ist die Zahl von Parametern jedoch viel größer und der Suchraum wird zu groß, wenn jeder Parameterbereich in zehn Teile untereilt wird. Um den Suchraum zu begrenzen, wurde der aktuelle Suchbereich dann stattdessen in sieben Teile unterteilt. Während Rastersuche wurde H mit 1 und K mit 8000 festgesetzt. Wie später demonstriert werden wird, liegt mit H = 1 und K = 8000 die geschätzte Gesamtenergie von Vorhersagefehlern sehr nahe an der wahren Energie, die bei Verwendung der „per Fluss" Analyse erhalten wurde.
Nunmehr werden die Ergebnisse der Auswertung von Sketches (Skizzen) für Veränderungserkennung präsentiert. Der Aufbau für die verschiedenen Experimente wird beschrieben und Ergebnisse werden im Detail für drei Modelle (EWMA und ARIMA mit d = 0 und 1) mit gelegentlichen Ergebnissen für NSHW präsentiert. In den meisten Fällen sind die Ergebnisse von den verschiedenen Modellen größtenteils ähnlich und werden im Interesse von Kürze ausgeschlossen.
Die Auswertung ist in drei Teile unterteilt: Zunächst wird über die Gültigkeit der von der Rastersuche generierten Parameter berichtet. Danach wird eine Auswertung von Sketches auf Flussebene bereitgestellt – wobei man sich auf das, was Sketch als (i) die Top-N-Flüsse mit den maximalen absoluten Vorhersagefehlern meldet und (ii) die Flüsse, deren absoluter Vorhersagefehler einen Schwellwert überschreitet sowie einen Vergleich der Sketch-Meldung mit „pro Fluss" Plänen konzentriert.
Die jetzt beschriebenen Experimente befassten sich mit der Bestimmung angemessener Parametereinstellungen für die Vorhersagermodelle, Werten für H und K und mit der Bewertung der Nützlichkeit von Rastersuchfunktionen. Die geschätzte Gesamtenergie (statt der wahren Gesamtenergie) wurde als die Metrik für die Auswahl der Parametereinstellungen für die Vorhersagemodelle verwendet. Bei diesem Ansatz muss der geschätzte Wert, um gute Performance zu ergeben, den wahren Wert eng verfolgen. Dies war der Brennpunkt dieser Experimente. Der Raum von (H, K) Werten und verschiedener Parametereinstellungen wurde untersucht, um geeignet Auswahlen von H und K zu selektieren, die zu akzeptabler Performance führten. Rastersuchfunktionen wurden verwendet, um die Parametereinstellung zu selektieren, die zur minimalen Gesamtenergie führt. Die "Güte" des durch Rastersuche selektieren Parameters wurde dann mit einer zufälligen Auswahl von Parametern verglichen.
In der 3 ist die Summenverteilungsfunktion (CDF) für relative Differenz über alle Modelle mit Intervall=300 Sekunden, H=1 und K=1024 gezeigt. Ein Satz Experimente (als zufällig bezeichnet) wurde über eine Sammlung von 10 Routerdateien (bestehend aus über 189 Millionen Flussaufzeichnungen) durchgeführt. Für jedes Vorhersagemodell wurde eine Reihe von Punkten willkürlich im Modellparameterraum selektiert und für jeden gewählten Punkt und jede (H, K) Wertkombination wurden sowohl sketchbasierte als auch „pro Fluss" basierte Erkennung an jeder Router-Ablaufverfolgung durchgeführt. Das Ziel war hier Differenzen zwischen den verschiedenen Vorhersagemodellen zu untersuchen und Parameterwertauswahlen H und K (die Hash-Tabellen- und Bereichsgrößen) auszuwerten. Dieses Experiment erlaubte außerdem Untersuchung wie sich Sketches und "pro Fluss" vergleichen, wenn Vorhersageparameter nicht sorgfältig selektiert werden. Die Vergleichsmetrik ist die "Relative Differenz", die als die Differenz zwischen der Gesamtenergie (Quadratwurzel der Summe von zweiten Momenten für jedes Zeitintervall) berechnet aus der sketchbasierten Technik und der Gesamtenergie definiert, die mithilfe von „pro Fluss" Erkennung erhalten wird, die als ein Prozentsatz von der mithilfe von „pro Fluss" erhaltener Erkennung ausgedrückt wird. Für ein spezielles Vorhersagemodell und (H, K) Kombination erhalten wir, für jede Routerdatei, mehrfache relative Differenzwerte, einen für jeden selektierten Punkt im Parameterraum für jenes Modell.
In 3-5 entspricht jede Kurve einem speziellen Vorhersagemodell und (H, K) Kombination und repräsentiert die empirischen CDF (Summenverteilungsfunktion) der relativen Differenzwerte, die sich überall aus den Routern angesammelt haben. Die 3 zeigt, dass selbst für kleine H (1) und K (1024), über alle der Modelle, der größte Teil der Masse um etwa den 0%-Punkt herum auf der X-Achse konzentriert ist, was anzeigt, dass selbst für zufällig gewählte Modellparameter die Gesamtenergie vom sketchbasierten Ansatz sehr nahe am Ansatz für „pro Fluss" liegt. Nur für das NSHW-Modell hat ein kleiner Prozentsatz von Punkten Sketch-Werte, die sich um mehr als 1,5% von den entsprechenden „pro Fluss" Werten unterscheiden. Die Worst-Case-Differenz beträgt 3,5%.
Als Nächstes wird die Auswirkung der Variation des H-Parameters untersucht. Die 4 zeigt in der grafischen Darstellung 400 des EWMA-Modells und der grafischen Darstellung 402 des ARIMAO-Modells, dass keine Notwendigkeit besteht, H über 5 hinaus zu erhöhen, um geringe relative Differenz zu erzielen.
Der letzte Ergebnissatz für die zufällige Parametertechnik ist in der 5 gezeigt und demonstriert, dass sobald K = 8192 die relative Differenz unbedeutend wird, was die Notwendigkeit K weiter zu erhöhen überflüssig macht. Die Rastersuchtechnik zum Identifizieren von Parameter verwendet sechs Modelle für sowohl die 60 s als auch die 300 s Intervalle (in den grafischen Darstellungen 500 bzw. 502 gezeigt), ein repräsentatives Sample der Routerdateien (eine große, eine mittlere und eine kleine Datei) und (H-1, K=8192) Kombination. Für jede (Modell, Router, H, K) Kombination gibt Rastersuche den (die) Parameterwert(e) für das Modell aus, das die Gesamtenergie in den resultierenden Vorhersagefehlern minimiert. Mithilfe dieser von der Rastersuche ausgegebenen Parametereinstellung wurde "pro Fluss" Analyse durchgeführt, um die entsprechende Gesamtenergie zu erhalten. Die "pro Fluss" Schätzung wurde dann für dieselbe Routerdatei und dasselbe Modell mit den "pro Fluss" Schätzungen der Zufallsparameter verglichen, die mit der früheren Technik generiert wurden. Das Ziel dieses Experiments war zweifacher Art: Erstens sicherzustellen, dass die Rastersuchergebnisse nie schlechter als irgendwelche der "pro Fluss" Werte der Zufallsparameter sind; zweitens, um zu zeigen, dass Rastersuchergebnisse bedeutend besser als die Ergebnisse im Zufallsfall sein können. Die experimentellen Ergebnisse zeigen, dass in allen Fällen (alle Modelle, drei Routerdateien, beiden Intervallen) Rastersuche nie schlechter als die Zufallsparameter ist. Zweitens sind in mindestens 20% der Fälle die Ergebnisse mit den Zufallsparametern mindestens zweimal so schlecht (und in vielen Fällen viel mehr) wie die Fahler im Rastersuchfall. Dies rechtfertigt die Verwendung von Rastersuche, um die Parameter für die restlichen Experimente zu generieren.
Nach Validieren des Parametersatzes vom Rastersuchplan wird die Genauigkeit des Sketch-Plans mit "pro Fluss" Schätzungen über zwei Techniken verglichen: (i) Top-N und (ii) Schwellwertbildung.
Die Werte H und K sind der Schlüssel für die Genauigkeit der Vorhersagen sowie für effiziente Funktion. Der richtige Bereich von Werten ist auf pro Anwendungsbasis sorgfältig auszuwählen. Experimentelle Ergebnisse, die auf großen und diversen Datensätzen beruhen, dass sich die gewählten Werte (H = 1...25, (K = 1.000...64.000) tatsächlich für die Veränderungserkennungsklasse von Anwendungen eignen.
Die Auswertung Top-N-Sketch vs. "pro Fluss" wurde für einen gegebenen N-Wert durchgeführt, um zu bestimmen wie viele der Top-N-Flüsse (Rangordnung nach abnehmender Größe von Vorhersagefehlern), die durch den „pro Fluss" Plan erkannt wurden, auch als p-Rangordnung vom sketchbasierten Plan erkannt werden. Es wurden drei Werte von H (5, 9, 25) und K (8000, 32000, 64000), zwei Werte von Intervallen (60 s und 300 s) und drei Routerdatendateien, die Aufzeichnungen hohen (über 60 Millionen), mittleren (12,7 Millionen) und niedrigen (5,3 Millionen) Volumens repräsentieren, selektiert, um Sketch-Genauigkeitsauswertung über alle Modelle auszuführen. Für die Modellparameter wurden die durch den Rastersuchprozess selektierten Parameterwerte verwendet. Für jedes Zeitintervall werden die Top-N-Flüsse mit den maximalen absoluten Vorhersagefehlern (erinnern Sie sich daran, dass ein höherer absoluter Vorhersagefehler bedeutet, dass das Volumen eines Flusses eine höhere Abweichung von dem hat, was das Grundmodell vorhergesagt hat) für sowohl Sketches- als auch „pro Fluss" Techniken generier. Für vier Werte von N (50, 100, 500, 1000) sehen wir wie viele der Top-N-Flüsse zwischen den zwei resultierenden Sätzen gemeinsam sind und berechnen eine Ähnlichkeitsmetrik N_AB/N, wo N_AB die Zahl gemeinsamer Elemente in den zwei Sätzen ist.
Während einige der Top-N rangigen Elemente von der "pro Fluss" Technik vielleicht nicht exakt den Top-N-Elementen gehören, die von der Sketch-Technik ausgegeben wurden, wird gehofft, dass diese Elemente in der sketchbasierten Rangordnung immer noch hoch sein werden. Daher ist es möglich die Genauigkeit durch Vergleichen der Top-N "pro Fluss" Liste mit zusätzlichen Elementen in der sketchbasierten Rangliste zu erhöhen. Um diese Möglichkeit zu bewerten, involviert ein zweiter Satz von Vergleichen das Vergleichen der Top-N "pro Fluss" Ergebnisse mit den Top-X·N (X = 1; 1,2; 1,5; 2) Ergebnissen vom sketchbasierten Ansatz.
Ergebnisse zeigen wie gut Sketches, wenn mit "pro Fluss" verglichen, Leistung bringen, indem man ihre Top-N (N=50, 100, 500,1000) Flüsse vergleicht. Die Metrik ist im Wesentlichen eine von Ähnlichkeit: Die Zahl von gemeinsamen Elementen in den zwei Sätzen normalisiert durch N. Es wurde demonstriert, dass diese Metrik für moderate H- und K-Werte bemerkenswert konsistent über die Zeitintervalle ist. Die erste Stunde der vierstündigen Datensätze wurde nur für Modellanwärmzwecke verwendet, was 180 und 37 Intervalle in den Intervallfällen von 60 Sekunden bzw. 300 Sekunden beließ.
Die grafischen Darstellungen 600 und 602 der 6 zeigen, dass selbst für große N (1000) die Ähnlichkeit ca. 0,95 für sowohl die 60 s als auch 300 s Intervalle, beziehungsweise, für H=5 und K=32 ist. In den restlichen 7-9 zeigen wir den mittleren Ähnlichkeitswert über die 180 und 37 Intervalle.
Die grafischen Darstellungen 700 und 702 der 7 verwende das EWMA-Modell, um durchschnittliche Ähnlichkeit (über die Zeitintervalle) zu zeigen, wo H mit 5 festgesetzt ist und K zwischen 8K und 64Kt, für sowohl die 300 s als auch die 60 s Zeitintervalle, variiert. Wie, für K=32000, ersichtlich beträgt die Ähnlichkeit selbst für großen N-Wert über 0,95. Für einen kleineren N-Wert (sagen wir 50 oder 100) beträgt die Überlappung fast 100%. Größere Werte von K sind von begrenztem zusätzlichen Nutzen. Beachten Sie bitte, dass sich Ähnlichkeit (für großen N-Wert) bei der kleineren Intervallgröße von 60 Sekunden verbessert. Diese höhere Genauigkeit lässt sich der Tatsache zuschreiben, dass für ein kleineres Intervall potenziell weniger Flüsse vorhanden sind, die in jedem Intervall zusammengefasst werden müssen.
Die Möglichkeit der Verbesserung der Genauigkeit wird erforscht, indem ein Vergleich Top-N vs. Top-X*N (X = 1; 1,2; 1,5; 2) durchgeführt wird. Wie in den grafischen Darstellungen 800 und 802 der 8 für die 300 s bzw. 60 s Intervalle zu sehen ist, erhöht sich die Ähnlichkeit für K=8000 selbst für einen großen N-Wert. Mit X=1 5 ist die Ähnlichkeit selbst für einen großen N-Wert signifikant gestiegen. Für die untersuchten Einstellungen wird mit X = 1,5 eine sehr hohe Genauigkeit erzielt und höhere Werte von X führen nur zu unwesentlichen zusätzlichen Genauigkeitszunahmen. Dies ist wünschenswert, weil ein größerer x-Wert, obwohl er Genauigkeit vergrößert, ebenso zu mehr falschen positiven Verhältnissen führt.
Als Nächstes wird der Effekt der Variation von H auf die Genauigkeit in Betracht gezogen. Die grafische Darstellung 900 der 9 zeigt, dass bei einem kleinen K=800, H mindestens 9 sein muss, um hohe Ähnlichkeitswerte, speziell für einen großen N-Wert zu bekommen. Ein großer H-Wert ist unerwünscht, da ein Anstieg im H-Wert direkt erhöhten rechen betonten Aufwand (die Zahl von Aktualisierungsoperationen pro Schlüssel ist proportional zum Wert von H) und Speicheraufwand (für Sketches) entspricht.
Jedoch wie die grafische Darstellung 902 der 9 zeigt, steigert Erhöhung von K auf 32000, selbst für einen sehr großen N-Wert, bei einem kleinen H = 5, Ähnlichkeit sofort auf fast 1. Ein größerer K-Wert (für Sketches) lässt auf einen großen Raumaufwand schließen. Dies legt einen Kompromiss Raum-zu-Rechenaufwand nahe. In vielen Anwendungen, wo Rechenaufwand kritischer ist, bei K = 32000 oder mehr, kann man gute Genauigkeitsergebnisse mit einem kleinen Wert für H erhalten.
Die Ergebnisse für eine andere Routerdatei, wo alle Dateien ähnliche Ausgabe haben, sind in der grafischen Darstellung 1000 (die Top -N v. Top-N-Ergebnisse zeigt) und in der grafischen Darstellung 1002 (die Top-N v. Top X·N-Ergebnisse zeigt) der 10, als die Ähnlichkeitsmetrik für das EWMA-Modell für eine Routerdatei mittlerer Größe veranschaulicht.
Ebenso zeigen wir den Effekt eines ARIMAO-Modells, d.h., ARIMA mit d = 0. Die grafischen Darstellungen 1100 und 1102 der 11 zeigen Ähnlichkeit für Routerdateien großer bzw. mittlerer Größe für ein Intervall von 300 Sekunden.
Anstatt nur die Top-N-Werte, wie in den früheren Genauigkeitstests, zu vergleichen, wurden die Flüsse auf jene begrenzt, deren absoluter Vorhersagefehler größer als ein gewisser oder gleich einem gewissen Bruch der L2-Norm (erhalten durch die Quadratwurzel der Summe von Quadraten der Vorhersagefehler aller Flüsse in einem Zeitintervall) ist. Dieser Schwellwertpegel wurde über 0,01; 0,02; 0,05; 0,07 und 0,1 variiert. Die Ergebnisse für jedes der zwei Zeitintervalle (60 s, 300 s) wurden für drei Modelle (EWMA, NSHW und ARIMA mit d = 0) untersucht. Für jede sketch-basierte oder "pro Fluss" basierte Veränderungserkennung wurden die Flüsse in abnehmender Rangordnung des absoluten Werts des Vorhersagefehlers eingestuft. Die Metrik, die hier von Interesse ist, sind das falsche negative Verhältnis, das falsche positive Verhältnis und die Zahl von Alarmen. Für einen gegebenen Schwellwert τ, lassen wir N_pf(τ) und N_sk (τ) auf die Zahl von Flüssen Bezug nehmen, die den Schwellwert in „pro Fluss" basierter bzw. sketchbasierter Erkennung erfüllen. Die Zahl von Alarmen für "pro Fluss" und Sketches sind dann N_pf (τ) bzw. N_sk (τ). Lassen wir N_AB (τ) die Zählung von Flüssen sein, die sowohl den Sketch-Listen als auch den "pro Fluss" Listen gemeinsam sind. Das falsche negative Verhältnis wird berechnet als:
Das falsche positive Verhältnis ist:
An diesem Punkt gibt es für jede Metrik eine Zeitreihe mit einem Wert pro Zeitintervall. Dann wurden Mittelwerte über die ganzen Zeitreihen in Betracht gezogen.
Die Ähnlichkeit von Sketch-Ergebnissen und "pro Fluss" Ergebnissen, wenn Flüsse durch Schwellwertbildung selektiert werden, wurden ebenso in Betracht gezogen. Die Gesamtzusammenfassung ist hier, dass man mit K auf mindestens 32000 eingestellt ausgezeichnete Garantien für niedrige falsche negative und falsche positive Verhältnisse bereitstellen kann. Dies ist in den 12 und 13 gezeigt, wo große Routerdatendateien und das "Non-Seasonal Holt-Winters" Modell für die 60 s (12) und 300 s (13) Zeitintervalle verwendet wurden. Die grafische Darstellung 1200 der 12 zeigt, dass für einen sehr niedrigen Wert von H (=1) die Zahl von Alarmen sehr hoch ist. Einfaches Erhöhen von H auf 5 genügt, um die Zahl von Alarmen dramatisch zu reduzieren. Die grafische Darstellung 1200 demonstriert außerdem die signifikante Reduzierung in der Zahl von Alarmen, die sich durch Erhöhen des Schwellwerts realisieren lässt. Abschließend zeigt es, dass praktisch kein Unterschied zwischen den "pro Fluss" Ergebnissen und den Sketch-Ergebnissen besteht, wenn H ≥ 5 und K ≥ 8000.
Die grafische Darstellung 1202 der 12 zeigt, dass, für K=32000 und darüber, das falsche negative Verhältnis schnell abfällt, um geringer als 2% selbst für sehr niedrige Schwellwerte zu sein und für einen Schwellwert von 0,05 unter 1% ist. Das falsche positive Verhältnis ist, wie die grafische Darstellung 1204 der 12 zeigt, für K=32000 und selbst einen niedrigen Schwellwert von 0,02 ziemlich niedrig (unter 1%). Die Gesamtergebnisse sind für das, in den entsprechenden grafischen Darstellungen 1300, 1302 und 1304 der 13 gezeigte, 300-Sekunden-Intervall ähnlich.
Die grafischen Darstellungen in den 14-17 verwenden Routerdatendateien mittlerer Größe für eine einzelne Intervallgröße (300 s) und variieren über vier Modelle: EWMA, "Non-Seasonal Holt-Winters" Modell und ARIMA mit d=0 und d=1. Es werden nur die falschen negativen und falschen positiven Verhältnisse angezeigt.
Die grafische Darstellung 1400 der 14 zeigt das falsche negative Verhältnis für das EWMA-Modell, das gut unter 1 % für größere Schwellwerte als 0,01 ist. Ebenso zeigt die grafische Darstellung 1402 der 14 das falsche negative Verhältnis für das „Non-Seasonal Holt-Winters" Modell, das geringfügig besser als das EWMA-Modell ist.
Die grafischen Darstellungen 1500 und 1502 der 15 zeigen für die zwei verschiedenen ARIMA-Modelle (d = 0 bzw. 1), dass falsche negative Verhältnisse niedrig sind, sich aber im Vergleich zu EWMA- und NSHW-Modellen für einen niedrigen Schwellwert von 0,01 ein bisschen unterscheiden.
Die grafischen Darstellungen 1600 und 1602 der 16 zeigen die falschen positiven Verhältnisse für die EWMA- bzw. NSHW-Modelle als gut unter 1% für Schwellwerte größer als 0,01 für K=32000 oder höher.
Ebenso zeigen die grafischen Darstellungen 1700 und 1702 der 17 niedrige falsche positive Verhältnisse für ARIMA-Modelle d=0 bzw. d=1.
Es gibt drei Komponenten bei der Implementierung der sketchbasierten Veränderungserkennung: 4-universelle Hash-Funktionen, Sketches (Skizzen) und Vorhersage. Die Implementierung von 4-universellen Hash-Funktionen lässt sich mit etwa 200 Zeilen von Programmiercode in der C-Programmiersprache erzielen, wogegen Sketches ca. 250 Zeilen benötigen werden. Vorhersagecode variiert mit den verwendeten Vorhersagemodellen, aber alle der Modelle benötigen weniger als 800 Zeilen von Code.
Hash-Berechnung und Sketch-UPDATE müssen an jedem Datenelement im Eingangsfluss durchgeführt werden. Sketch-ESTIMATE, durch Vorgabe (Default), muss ebenso auf "pro Element"- Basis durchgeführt werden. Wenn es aber akzeptabel ist, einige Schlüssel zu verfehlen, die zu selten erscheinen (die wohl nur begrenzten Schaden verursachen können), kann man den Fluss ankommender Schlüssel abtasten und nur ESTIMATE an selektierten Subflüssen durchführen. Operationen wie ESTIMATEF2 brauchen selten vorgenommen werden – einmal jedes Intervall – und ihre amortisierten Kosten sind unbedeutend.
Laufzeit für die Durchführung von 10 Millionen Hash-Berechnungen und Sketch-Operationen auf "Computer A" (ein 400 Megahertz (MHz) SGI R12k Prozessor, auf dem IRIX64 6.5 läuft) und "Computer B" (einem 900 MHz ULTRASPARC-III Prozessor, auf dem SOLARIS 5.8 läuft) sind in der Tabelle der 18 gezeigt. Jede Hash-Berechnung produziert 8 unabhängige 16-Bit-Hashwerte und ist daher ausreichend für "k-ary sketches" mit H ≤ 8 und K ≤ 2¹⁶. Sowohl UPDATE als auch ESTIMATE setzen voraus, dass die Hash-Werte bereits berechnet worden sind (was nur einmal pro Element getan werden muss). Die von uns verwendeten Sketch-Parameter sind H = 5 und K = 2¹⁶. Wie hier gezeigt ist Aufwand dieser Operationen nicht sehr hoch.
Der sketchbasierte Veränderungserkennungsprozess 200 ist, wenn mit der vorhergehend beschriebenen "pro Fluss" Zeitreihenanalyse verglichen, hoch genau. Er bietet einen Baustein für Netzanomalieerkennung und Verkehrsmessung.
In weiteren Ausführungsformen könnte die sketchbasierte Technik naher Echtzeit-Veränderungserkennung fähig sein, indem sie modifiziert wird, um die Vorhersagemodellparameter Online zu erhalten. Ein möglicher Weg ist, periodisch die Vorhersagemodellparameter mithilfe historischer Daten erneut zu berechnen, um mit Veränderungen im Gesamtverkehrsverhalten Schritt zu halten.
In zusätzlichen Ausführungsformen könnten Grenzeffekte, aufgrund von festgelegten Intervallgrößen, vermieden werden. Mögliche Lösungen umfassen (i) simultaner Lauf mehrfacher Modelle mithilfe verschiedener Intervallgrößen und verschiedener Startpunkte und (ii) zufälliges Zuordnen der Intervallgröße (z. B., mithilfe exponentiell verteilter Intervallgröße) und Erkennen von Veränderungen von Gesamtwerten, die durch Intervallgröße normalisiert sind. Die Linearität von Sketches macht beide dieser Lösungen möglich.
Genaue Erkennung signifikanter Abweichung vom normalen Verkehrsverhalten ist ein bedeutendes Ziel. Aber einige Verkehrsanomalien sind harmlos. Das Problem der Reduzierung falscher Alarme ist eine große Herausforderung für alle Netzanomalieerkennungssysteme auf Basis von Veränderungserkennung. Das sketchbasierte Rahmenwerk für Veränderungserkennung, das im Vorgenannten vorgestellt worden ist, weist abstimmbare Parameter auf, die justiert werden könne, um die falschen positiven Verhältnisse zu begrenzen. Zum Beispiel kann die Technik programmiert werden nur die hauptsächlichen Top N Veränderungen oder die Veränderungen zu melden, die über einem Schwellwert liegen. Die speziellen Anwendungsbedürfnisse werden als Anleitung für die tatsächliche Einstellung dieser abstimmbaren Parameter dienen. Der Alarmzustand könnte durch beliebige Standardmittel ausgelöst und gemeldet werden, die einem Rechensystem zur Verfügung stehen, wie beispielsweise Senden einer E-Mail, Sofortnachricht (instant Message) oder irgendeiner anderen Benachrichtigung (wie mit Telefon oder Pager) an entsprechendes Netzverwaltungspersonal.
Unter Voraussetzung der riesigen Datenmengen, die in großen Netzen generiert werden, wird Sampling zunehmend in ISP-Netzmessungsinfrastrukturen verwendet, um die zu sammelnde Datenmenge zu reduzieren. Der hierin vorgestellte Ansatz kombiniert Zeitreihenanalyse mit Sketches für skalierbare Veränderungserkennung in riesigen Datensätzen. Sampling-Techniken könnten ebenso mit dem Prozess 200 für erhöhte Skalierbarkeit kombiniert werden.
Unter Voraussetzung des breiten Bereichs verfügbarer Parameter wäre es nützlich vernünftige Anleitung zum Selektieren richtiger und berechtigter Werte für diese zu haben. Das volle Faktorenverfahren in der statistischen experimentellen Designdomäne kann helfen, die Zahl von Ebenen (oder "Versionen") für die verschiedenen Variablen einzuengen. Derartige Techniken könnten jene Parameter ergeben, die voneinander unabhängig sind und sich in Richtung der Identifizierung angemessener Werte bewegen, die insgesamt auf der Ähnlichkeit beruhen. Zum Beispiel hat H Gesamtauswirkung unabhängig von anderen Parametern. Die Langwierigkeit mehrfache Durchläufe haben zu müssen, kann ebenso zum Beispiel durch Verwenden eines Yates-Algorithmus reduziert werden.
Nachweise, die auf Obiges anspielen, werden jetzt präsentiert. Notation: Für irgendein
, lassen wir a ~ b bezeichnen h(a) = h(b), a
b bezeichnen h(a) ≠ h(b).
ANALYSE FÜR V_A ESTIMATION (Genauigkeit von
): Lehrsatz 1 unten gibt an, dass jeder
eine erwartungsgetreue Schätzfunktion von v_a mit Varianz umgekehrt proportional zu (K – 1) ist. LEHRSATZ 1.
NACHWEIS. Für h ∊ {h₀, ..., h_H – 1}, haben wir:
Definieren:
Da h 4-universell ist, haben wird für jeden speziellen a,b ∊ [u]:
Zusätzlich Zu jedem speziellen a,b,c ∊ [u], haben wir: E [Xa,b Ka,c] = 0
Jetzt sind wir soweit den Lehrsatz nachzuweisen:
verbessert weiter die Genauigikeit durch Vermeiden der extremen Schätzungen. Lehrsätze 2 und 3 unten fassen die Genauigkeitsgarantie von
zusammen.
LEHRSATZ 2.
Für irgendein a ∊ [u], T ∊ (0,1), und α ∊ [1, ∞), wenn |vα| ≥ α T√F₂ , dann:
Nachweis: Für irgendein h ∊ {ho, ...hH – 1}, durch die Chenyshev Ungleichheit, haben wir:
Da vestα erhalten wird, indem man den Median von H Kopien von vhα , durch die Chernoff Ungleichheit, nimmt, haben wir sofort die Ergebnisse des Lehrsatzes 2.
LEHRSATZ 3.
Für irgendein a ∊ [u], T ∊ (0,1), und β ∊ [0,1], wenn |vα| ≤ βT√F₂ , dann
NACHWEIS. Der Nachweis ist fast identisch und wird hier im Interesse von Kürze weggelassen.
Lassen wir als ein Beispiel K = 2¹⁶, α = 2, β = 0.5, T = 1/32 und H = 20 sein. Wenn wir einen Alarm geben, wann immer Va est ≥ √F₂/32, dann ist, nach Lehrsatz 2, die Wahrscheinlichkeit, dass wir ein va > √F₂/16 verfehlen werden geringer als 9,0 × 10^–13; nach Lehrsatz 3 ist die Wahrscheinlichkeit, dass wir fälschlich Alarm geben werden für in va < √F₂/64 geringer als 9,5 × 10^–7.
ANALYSE FÜR F₂ ESTIMATION (Genauigkeit von
): Lehrsatz 4 unten zeigt, das jeder
eine erwartungsgetreue Schätzfunktion von F₂ mit Varianz umgekehrt proportional zu (K – 1) bildet. Um dieselbe Varianz mithilfe von Zählungs-Sketch zu erzielen, muss man entweder mit niedrigerer Geschwindigkeit leben oder die Speicheranforderung verdoppeln. LEHRSATZ 4.
Fest2 verbessert weiter die Genauigkeit durch Vermeiden der extremen Schätzungen. Lehrsatz 5 Fest2 stellt die Genauigkeitsgarantie von 2 bereit.
LEHRSATZ 5.
Für jeden λ > 0, haben wir:
Nachweis: Durch Lehrsatz 4 und die Chebyshev Ungleichheit,
Da Fest2 das Median von H Kopien von
, durch die Chernoff Ungleichheit, ist, erhält man sofort das Ergebnis im Lehrsatz 5.
Lassen wird als ein Beispiel K = 2¹⁶, λ = 0,05 und H = 20 sein, Lehrsatz 5 gibt an, dass die Wahrscheinlichkeit, dass die Schätzung Fest2 5% unter ihrem echten Wert F₂ liegt, unter 7,7 × 10^–14 ist.
Obwohl die besten Methodenlehren der Erfindung in der vorhergehenden Offenbarung speziell beschrieben worden sind, soll verstanden werden, dass solche Beschreibungen nur zur Veranschaulichung bereitgestellt wurden und, dass andere Variationen sowohl in der Form als auch im Detail daraufhin von Fachleuten angefertigt werden können, ohne vom Umfang der vorliegenden Erfindung abzuweichen, die zuallererst durch die angehängten Ansprüche definiert wird.

Claims

Verfahren zur Erkennung anomalen Verkehrsflusses, umfassend: a) Generieren (202) einer "k-ary" Skizze beobachteter Werte eines ankommenden Datenflusses, wobei die "k-ary" Skizze jedes Datenelement im ankommenden Datenfluss durch einen Schlüsselwert identifiziert, der die Quell- oder Ziel-Internetprotokolladresse umfasst, die mit dem Datenelement assoziiert ist und ein Update-Wert eine Größe des Datenelements umfasst; b) Generieren einer Vorhersageskizze unter Verwendung eines Zeitreihenvorhersagemodells, das einen ersten Parameter, der eine Anzahl von Hash-Funktionen definiert, die auf jedes Datenelement des ankommenden Datenflusses angewandt werden, einen zweiten Parameter, der eine Hash-Tabellengröße definiert und einen dritten Parameter, der ein Zeitintervall definiert, umfasst, wobei das Zeitreihenvorhersagemodell zu einem Wert einer Vorhersageskizze führt; c) Berechnen eines Vorhersagefehlers, der eine Differenz zwischen dem Wert der Vorhersageskizze und einem beobachteten Wert der Skizze des ankommenden Datenflusses umfasst; und d) Anzeigen eines Alarmzustands, wenn der Vorhersagefehler einen Schwellwert überschreitet.
Verfahren nach Anspruch 1 und weiter das Festlegen des Schwellwerts, beruhend auf einem geschätzten zweiten Moment des Vorhersagefehlers, umfassend, wobei der geschätzte zweite Moment eine Summe von Quadraten jedes Update-Werts umfasst, der mit jedem Schlüsselwert assoziiert ist.
Verfahren nach Anspruch 1 oder 2, wobei die "k-ary" Skizze ein Turnstile-Modell zum Identifizieren jedes Datenelements im ankommenden Datenstrom durch den Schlüsselwert und den Update-Wert verwendet.
Verfahren nach Anspruch 3, wobei der Schlüsselwert mindestens eins von Folgendem umfasst: eine Internet-Protokoll-Zieladresse des Datenelements, eine Internet-Protokoll-Quelladresse des Datenelements, eine Portnummer, die mit dem Datenelement assoziiert ist und ein Netzpräfix, das mit dem Datenelement assoziiert ist.
Verfahren nach Anspruch 3, wobei der Update-Wert eine Paketgröße des Datenelements umfasst.
Verfahren nach Anspruch 3, wobei der Update-Wert eine Anzahl von Paketen umfasst, die mit dem Datenelement assoziiert sind.
Verfahren nach Anspruch 1, wobei der Schritt Generieren der Vorhersageskizze weiter umfasst: Berechnen des Vorhersagewerts unter Verwendung eines "AutoRegressive Integrated Moving Average time series forecast model" (automatisch regressiven integrierten Zeitreihenvorhersagemodells gleitenden Durchschnitts), wobei der erste Parameter einen automatisch regressiven Parameter p einschließt, der zweite Parameter eine Anzahl Differenzier-Durchlaufparameter d einschließt und der dritte Parameter einen gleitenden Durchschnittsparameter q einschließt.
Verfahren nach Anspruch 7, wobei p ≤ 2, d=0, q ≤ 2.
Verfahren nach Anspruch 7, wobei p ≤ 2, d=1, q ≤ 2.
Verfahren nach Anspruch 1, wobei der erste Parameter einen Wert zwischen 1 und 25 einschließlich umfasst.
Verfahren nach Anspruch 1, wobei der zweite Parameter einen Wert zwischen 1000 und 64000 einschließlich umfasst.
Verfahren nach Anspruch 1, wobei der dritte Parameter einen Wert zwischen 60 und 300 Sekunden einschließlich umfasst.
Verfahren nach Anspruch 1, wobei der Schritt Generieren der Vorhersageskizze weiter umfasst: Selektieren von Werten für den ersten Parameter, den zweiten Parameter und den dritten Parameter, die eine gesamte Restenergie des Vorhersagefehlers minimieren.
Verfahren nach Anspruch 1, wobei das Zeitreihenvorhersagemodell mindestens eins von Folgendem umfasst: Ein gleitendes Durchschnittsmodell, ein S-förmiges gleitendes Durchschnittsmodell, ein exponentiell gewichtetes gleitendes Durchschnittsmodell und ein nicht saisonales Holt-Winters-Modell.
Verfahren nach Anspruch 1 und das Durchführen der Schritte (a), (b) und (c) für jeden einer Mehrheit ankommender Datenflüsse umfassend und wobei Schritt (d) Anzeigen eines Alarms umfasst, wenn irgendein Vorhersagewert den Schwellwert überschreitet.
Computerlesbares Medium zum Implementieren eines Verfahrens, das von einem Computer ausgeführt wird, zum Erkennen eines anomalen Verkehrsflusses, umfassend: ein Skizzen-Modul zum Schaffen einer "k-ary" Skizze beobachteter Werte eines ankommenden Datenflusses, wobei die "k-ary" Skizze jedes Datenelement im ankommenden Datenfluss durch einen Schlüsselwert identifiziert, der die Quell- oder Ziel-Internetprotokolladresse umfasst, die mit jedem Datenelement assoziiert ist und einen Update-Wert, der eine Größe des Datenelements umfasst; ein Vorhersagemodul zum Generieren einer Vorhersageskizze für den ankommenden Datenfluss unter Verwendung eines Zeitreihenvorhersagemodells, das einen ersten Parameter, der eine Anzahl von Hash-Funktionen definiert, die auf jedes vom Skizzenmodul identifizierte Datenelement angewandt werden, einen zweiten Parameter, der eine Hash-Tabellengröße definiert und einen dritten Parameter, der ein Zeitintervall definiert, umfasst, wobei das Zeitreihenvorhersagemodell zu einem Vorhersagewert führt, wobei das Vorhersagemodul weiter zum Berechnen eines Vorhersagefehlers eine Differenz zwischen dem Wert der Vorhersageskizze und einem beobachteten Wert der Skizze des ankommenden Datenflusses umfasst; und ein Änderungserkennungsmodul zum Anzeigen eines Alarmzustands, wenn der Vorhersagefehler einen Schwellwert überschreitet.
Computerlesbares Medium nach Anspruch 16, wobei das Verfahren weiter das Festlegen des Schwellwerts beruhend auf einem geschätzten zweiten Moment des Vorhersagefehlers umfasst, der vom Vorhersagemodul empfangen wurde, wobei das geschätzte zweite Moment eine Summe von Quadraten jedes Update-Werts umfasst, der mit jedem Schlüsselwert assoziiert ist.
Vorrichtung zur Erkennung anomalen Verkehrsflusses, umfassend: einen Prozessor; und einen Speicher in Kommunikation mit dem Prozessor, der Speicher zum Speichern einer Mehrheit von Verarbeitungsinstruktionen, um den Prozessor zu Folgendem anzuleiten: Generieren einer "k-ary" Skizze beobachteter Werte eines ankommenden Datenflusses, wobei die "k-ary" Skizze jedes Datenelement im ankommenden Datenfluss durch einen Schlüsselwert, der eine Quell- oder Ziel-Internetprotokolladresse umfasst, die mit jedem Datenelement assoziier ist und einen Update-Wert, der eine Größe des Datenelements umfasst, identifiziert; Generieren einer Vorhersageskizze unter Verwendung eines Zeitreihenvorhersagemodells, das einen ersten Parameter, der eine Anzahl von Hash-Funktionen definiert, die auf jedes Datenelement des ankommenden Datenflusses angewandt werden, einen zweiten Parameter, der eine Hash-Tabellengröße definiert und einen dritten Parameter, der ein Zeitintervall definiert, umfasst, wobei das Zeitreihenvorhersagemodell zu einem Vorhersagewert führt; Berechnen eines Vorhersagefehlers, der eine Differenz zwischen dem Wert der Vorhersageskizze und einem beobachteten Wert der Skizze des ankommenden Datenflusses umfasst; und Anzeigen eines Alarmzustands, wenn der Vorhersagefehler den Schwellwert überschreitet.
Vorrichtung nach Anspruch 18 und weiter adaptiert, einen Schwellwert, beruhend auf einem geschätzten zweiten Moment des Vorhersagefehlers festzulegen, wobei der geschätzte zweite Moment eine Summe von Quadraten jedes Update-Werts umfasst, der mit jedem Schlüsselwert assoziiert ist.