Database
 sql >> Datenbank >  >> RDS >> Database

Datendateien mit Statistica zusammenführen, Teil 1

Die Statistica-Plattform wird laut Gartners neuem Bericht für 2017 „Magic Quadrant for Data Science Platforms“ (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- Plattformen), früher „Advanced Analytics Platforms“ im Jahr 2016 genannt. Die breite Palette an Funktionen und eine grafische Benutzeroberfläche (GUI) von Statistica machen es zu einem der am häufigsten verwendeten Data-Science-Tools.

Statistica-Datendateien werden Spreadsheets genannt , die Zeilen und Spalten mit Daten enthalten. Datenzeilen werden Fälle genannt und Spaltenüberschriften für Daten werden Variablen genannt . Ein häufiges Problem bei der Datenvorbereitung ist, dass verschiedene Teammitglieder Datensätze separat entwickeln oder sammeln und die Datensätze zusammengeführt werden müssen, bevor die Tabelle verwendet werden kann. Die Daten können sich in mehreren Datendateien befinden. Wir werden mit Statistica besprechen, wie Daten in zwei verschiedenen Dateien zu einer einzigen Datei zusammengeführt werden können.

Statistica unterstützt verschiedene Arten von Zusammenführungsmodi für zwei Datendateien, und diese sind:

  • Verketten: Wenn zwei Datendateien verkettet werden, wird eine Datendatei genommen und auf der rechten Seite der anderen Datendatei hinzugefügt (oder verkettet).
  • Kartesisch: Erzeugt ein Kreuzprodukt aus zwei Datendateien.
  • Passen Sie Fallnamen an: Führt die Fälle (Zeilen) einer Datei mit den Fällen der anderen Dateien zusammen, indem die Fallnamen abgeglichen werden.
  • Match-Variablen: Führt die Zeilen einer Datendatei mit den Zeilen der anderen Datendatei zusammen, indem die Variablennamen abgeglichen werden.

Wir beginnen mit der Besprechung der Concatenate-Merge. Dieses Tutorial hat die folgenden Abschnitte:

  • Einstellung der Umgebung
  • Verketten von Datendateien
  • Schlussfolgerung

Einstellung der Umgebung

Laden Sie die Statistica-Plattform herunter und installieren Sie sie. Statistica-Datendateien werden Spreadsheets genannt (gespeichert mit der Datei .sta Suffix). Wir werden in diesem Tutorial einige Statistica-Datendateien erstellen. Mit Datei>Neu wird eine Datendatei erstellt . In Neues Dokument erstellen , wählen Sie Tabelle aus , wie in Abbildung 1 gezeigt.


Abbildung 1: Auswählen einer neuen zu erstellenden Tabelle

Um eine Datendatei zu speichern, wählen Sie Datei>Speichern unter , wie in Abbildung 2 gezeigt.


Abbildung 2: Datei>Speichern unter

Verketten von Datendateien

Erstellen Sie zunächst die beiden Datendateien, die zusammengeführt werden sollen. Die zusammenzuführenden Datendateien würden typischerweise dieselbe Anzahl von Zeilen und dieselbe oder eine unterschiedliche Anzahl von Spalten aufweisen. Da Daten verkettet werden müssen, sind die Spaltennamen normalerweise unterschiedlich. Nichts davon ist eine Voraussetzung; Zwei Datendateien können eine unterschiedliche Anzahl von Zeilen haben, und wir werden auch besprechen, wie ein solcher Satz von Datendateien zusammengeführt werden kann. Das Ziel besteht darin, die Daten in einer Datendatei mit der anderen zusammenzuführen, sodass die 2. Datendatei auf der rechten Seite der 1. Datendatei hinzugefügt wird. Erstellen Sie beispielsweise eine Datendatei (mit dem Namen wlslog1.sta ) mit Spaltenüberschriften (Variablen ) Zeitstempel , Kategorie , und tippen und die folgenden Daten (Beispielprotokolldaten).

4-8-2014-7:06:16,Notice,WebLogicServer
4-8-2014-7:06:17,Notice,WebLogicServer
4-8-2014-7:06:18,Notice,WebLogicServer
4-8-2014-7:06:20,Notice,WebLogicServer
4-8-2014-7:06:21,Notice,WebLogicServer
4-8-2014-7:06:22,Notice,WebLogicServer

Die wlslog1.sta Datendatei ist in Statistica in Abbildung 3 dargestellt.


Abbildung 3: Datendatei wlslog1.sta

Erstellen Sie eine weitere Datendatei (wlslog2.sta ) mit Spaltenüberschriften servername , Code , und msg , und fügen Sie die folgenden Daten hinzu (auch Beispielprotokolldaten).

AdminServer,BEA-000365,STANDBY
AdminServer,BEA-000365,RESUMING
AdminServer,BEA-000365,ADMIN
AdminServer,BEA-000331,STARTING
AdminServer,BEA-000365,STARTED
AdminServer,BEA-000360,RUNNING

Die wlslog2.sta Datei ist in Abbildung 4 dargestellt. Um die beiden Datendateien zusammenzuführen, wlslog1.sta und wlslog2.sta , klicken Sie auf Daten und wählen Sie Zusammenführen aus , wie in Abbildung 4 gezeigt.


Abbildung 4: Datendatei wlslog2.sta

A Zusammenführungsoptionen wird angezeigt, wie in Abbildung 5 gezeigt. Die Variablen Registerkarte ist standardmäßig ausgewählt. Wählen Sie Modus als Verketten . Klicken Sie auf Datei 1 , um die 1 zusammenzuführende Datei auszuwählen.


Abbildung 5: Zusammenführungsoptionen

Wählen Sie die wlslog1.sta aus Datei in der Tabelle auswählen Dialogfeld (siehe Abbildung 6). Klicken Sie auf OK . Die wlslog1.sta Datei wird zu Datei 1 hinzugefügt Feld. Wählen Sie in ähnlicher Weise die 2 Datei wlslog2.sta aus .


Abbildung 6: Auswählen einer zusammenzuführenden Tabelle

Es ist keine weitere Konfiguration erforderlich. Standardmäßig wird eine Ausgabetabelle generiert und kann mit den Optionen konfiguriert werden Registerkarte, wie in Abbildung 7 gezeigt. Behalten Sie die Standardeinstellungen für die Ausgabetabelle bei.


Abbildung 7: Registerkarte "Optionen"

Die beiden zusammenzuführenden Dateien werden der Datei 1 hinzugefügt und Datei 2 Felder, wie in Abbildung 8 gezeigt. Die Standardeinstellung für Unmatched Cases füllt die Datendateien mit den fehlenden Werten, was impliziert, dass für den Abschnitt einer zusammengeführten Zeile leere Daten gespeichert werden (case ), die von einer Datendatei zur anderen nicht übereinstimmt. Klicken Sie auf OK .


Abbildung 8: Zusammenzuführende Datendateien

Die beiden Datendateien werden verkettet, wie in Abbildung 9 gezeigt. Die resultierende Tabelle hat 6 Spalten und 6 Zeilen.


Abbildung 9: Ergebnistabelle nach einer Zusammenführung

Wenn eine Tabelle mehr Zeilen als die andere hätte, würden die beiden Tabellen genauso verkettet. Fügen Sie als Beispiel eine zusätzliche Zeile in der 1-Tabelle hinzu (wlslog1.sta ), um 7 Reihen zu bilden, wie in Abbildung 10 gezeigt.


Abbildung 10: Zusätzliche Zeile in wlslog1.sta

Bei Verkettung mit der 2. Tabelle (wlslog2.sta ), enthält das resultierende Arbeitsblatt eine zusätzliche Zeile mit fehlenden Daten für die Spalten aus dem 2. Arbeitsblatt (siehe Abbildung 11).


Abbildung 11: Zusammengeführte Tabelle

Schlussfolgerung

In diesem Tutorial haben wir das Zusammenführen von Datendateien (auch Spreadsheets genannt) in der Statistica Platform for Data Science vorgestellt. Wir haben einen der Merge-Modi besprochen:Concatenating Merge. In einem nachfolgenden Tutorial werden wir das Zusammenführen durch übereinstimmende Fallnamen und durch übereinstimmende Variablen besprechen.