LZS

  • Increase font size
  • Default font size
  • Decrease font size
Drucken

Erkennung von Ausreißern und Clustern in hochdimensionalen Testdaten eines Systems -Big Data-

Betreuer: M.Sc. Tobias Rumpel

Problemstellung: Der Problemfall von Ausreißern ist allen Anwendern bekannt. In der Statistik versteht man unter einem Ausreißer meist einen Messwert in einer Datenbank (Messdaten), der mit den übrigen erhobenen Werten nicht konsistent ist, sei es, dass er wesentlich größer oder kleiner als die übrigen ist. Das zweite Problem bei Messdaten ist das unerwartete Entstehung von Clustern (Gruppieren). Man möchte einerseits solche Werte (Ausreißer) bzw. Gruppierungen als zu betrachtende Messfehler bzw. Abhängigkeiten erkennen. Andererseits möchte man die Gründe für dieses untypisches Verhalten in Datenbanken (Metadaten) rauslesen.

Problemlösung: Die Methoden zur mehrdimensionale Analyse von hochdimensionalen Datenbank, wie z.B. PCA, ICA, LDA, QDA, ANN, usw. gelten derzeit als beste Problemlösung zur Erkennung von untypischem Verhalten in solchen Daten sowie zur Ursachenidentifizierung.

Durchführung: Gegeben sei eine Datenbank (Testdaten aus der Industrie (R&S GmbH)): n x m-Matrix mit:

n ≙ Anzahl der Zeilen bzw. Anzahl der Objekte.

m ≙ Anzahl der Spalten, diese bestehen aus zwei Gruppen bzw. Klassen:

m1: δ ≙ Metadaten bzw. Merkmale.

m2: λ ≙ Messergebnisse → eine Kurve pro Objekt.

  • Nach Ausreißern in den Daten suchen:
    → Gibt es im Vergleich zur statistischen Gesamtheit auffällige Datensätze (λ)? Wie lassen sich die untypischen Datensätze identifizieren (Algorithmus, Verfahren)? Welche Metadaten (δ) sind für das untypische Verhalten entscheidend?
  • Nach Cluster und Abhängigkeiten in den Daten suchen:
    → Gruppieren sich die Messwerte (λ) abhängig der Metadaten (δ) in Gruppen? Wenn ja, wie viele signifikante Gruppen gibt es? Welches Metadatum / welche Metadaten (δ) definieren die Gruppe(n)?

Beginn ab sofort - Geeignet für studentische Arbeiten (BA, MA, SA und Forschungspraktikum)

 

 

Suche

LZS-Intern