Datendateien mit Statistica zusammenführen, Teil 2

In einem früheren Tutorial, „Zusammenführen von Datendateien mit Statistica, Teil 1“, haben wir die Verwendung von Statistica zum Zusammenführen von Tabellenkalkulationen vorgestellt. Wir haben den Concatenation-Merge-Modus besprochen. In diesem Tutorial werden wir zwei weitere Modi besprechen:die Verwendung von Fallnamen und Variablennamen. Dieses Tutorial hat die folgenden Abschnitte:

Verwenden von Fallnamen zum Zusammenführen von Datendateien
Variablennamen zum Zusammenführen von Datendateien verwenden
Schlussfolgerung

Verwenden von Fallnamen zum Zusammenführen von Datendateien

Als Nächstes werden wir Datendateien (Tabellenkalkulationen) zusammenführen, indem wir die Zeilen (auch Fälle genannt) abgleichen ). Wenn die Zeilen dieselben Fallnamen haben, werden die Daten in den Zeilen aus den beiden Datendateien zusammengeführt. Die Beispieldatendateien, die wir im vorherigen Artikel verwendet haben, enthalten keinen Fallnamen. Der Fallname wird in der 1. Spalte angegeben, der Spalte vor den Datenspalten. Verwenden Sie dieselben Daten wie für das Verketten von Datendateien und fügen Sie die Fallnamen hinzu (log1 zu log6 ) zu Zeilen in wlslog1.sta Tabelle, wie in Abbildung 1 gezeigt.

Abbildung 1: Tabelle wlslog1

Fügen Sie auf ähnliche Weise Fallnamen hinzu (log1 zu log6 ) zu jeder Zeile in wlslog2.sta , wie in Abbildung 2 gezeigt.

Abbildung 2: Tabelle wlslog2

Wählen Sie Daten>Zusammenführen aus und unter Optionen zum Zusammenführen , wählen Sie Modus als Match casenames , wie in Abbildung 3 gezeigt. Klicken Sie auf OK .

Abbildung 3: wlslog1 und wlslog2 zusammenführen

Die Daten in der wlslog1.sta Tabellenkalkulation wird mit den Daten in der wlslog2.sta zusammengeführt Tabellenkalkulation, wie in der resultierenden Tabellenkalkulation in Abbildung 4 gezeigt.

Abbildung 4: Zusammengeführte Datei

Beim Zusammenführen durch übereinstimmende Fallnamen muss jede der zusammenzuführenden Datendateien Fallnamen enthalten, oder der in Abbildung 5 gezeigte Fehler wird angezeigt.

Abbildung 5: Fallnamen sind beim Zusammenführen durch übereinstimmende Fallnamen erforderlich

Eine Tabelle kann mehr Fälle (oder Zeilen) haben als die andere. Fügen Sie beispielsweise eine 7-Zeile zu wlslog1.sta hinzu (siehe Abbildung 6). Klicken Sie auf Zusammenführen um die Tabellen zusammenzuführen.

Abbildung 6: Mit einer 7. Zeile in wlslog1.sta

zusammenführen

Zusammenführen durch übereinstimmende Fallnamen mit wlslog2.sta , das ist dasselbe wie zuvor mit 6 Fällen (Zeilen), wie in Abbildung 28 gezeigt. Die zusammenzuführenden Tabellenkalkulationen haben nicht übereinstimmende Fälle (eine Tabellenkalkulation hat mehr Fälle als die andere). Nicht zugeordnete Fälle werden standardmäßig durch Auffüllen mit fehlenden Daten zusammengeführt, was impliziert, dass die Datenwerte leer sind. Die resultierende Tabelle enthält leere fehlende Daten für Fälle ohne Übereinstimmung, wie in Abbildung 7 gezeigt.

Abbildung 7: Die resultierende Tabelle enthält leere fehlende Daten

Zusammenführungsoptionen bietet einige Optionen für Nicht abgeglichene Fälle außer mit fehlenden Daten zu füllen. Verwenden Sie zur Demonstration eine Tabelle wlslog1.sta , mit einer zusätzlichen Zeile und auch einem doppelten Fallnamen (log2 ), wie in Abbildung 8 gezeigt.

Abbildung 8: Tabelle mit doppeltem Fallnamen

Die nicht abgeglichenen Fälle können gelöscht werden, indem Sie Fälle löschen in Datei 1 nicht abgeglichene Fälle auswählen , wie in Abbildung 9 gezeigt. Mehrere Fälle werden durch Auswahl von „Drop File 1 multiples“ behoben. Mit Merge-Modus als Match Casenames , klicken Sie auf OK .

Abbildung 9: Datei 1 Nicht zugeordnete Fälle>Fälle löschen

In der resultierenden Tabelle sind beide Probleme behoben. Der nicht übereinstimmende Fall wird gelöscht und der doppelte Fall wird gelöscht, wie in Abbildung 10 gezeigt.

Abbildung 10: Ergebnistabelle mit gelöschtem Fall ohne Übereinstimmung und gelöschtem doppeltem Fall

Variablennamen zum Zusammenführen von Datendateien verwenden

Als nächstes werden wir Tabellen zusammenführen, indem wir Variablennamen abgleichen. Beginnen Sie mit zwei Tabellenkalkulationen, wlslog1.sta und wlslog2.sta , jeweils mit den in Abbildung 11 gezeigten Spaltennamen.

Abbildung 11: Spaltennamen in wlslog1 und wlslog2

Fügen Sie die folgenden Daten zu wlslog1.sta hinzu .

4-8-2014-7:06:16,Notice,WebLogicServer,AdminServer,BEA-000365,
   STANDBY
4-8-2014-7:06:17,Notice,WebLogicServer,AdminServer,BEA-000365,
   RESUMING
4-8-2014-7:06:18,Notice,WebLogicServer,AdminServer,BEA-000365,
   ADMIN

Die wlslog1.sta Tabelle ist in Abbildung 12 dargestellt.

Abbildung 12: Tabelle wlslog1.sta

Fügen Sie die folgenden Daten zu wlslog2.sta hinzu .

4-8-2014-7:06:20,Notice,WebLogicServer,AdminServer,BEA-000331,
   STARTING
4-8-2014-7:06:21,Notice,WebLogicServer,AdminServer,BEA-000365,
   STARTED
4-8-2014-7:06:22,Notice,WebLogicServer,AdminServer,BEA-000360,
   RUNNING

Die wlslog2.sta ist in Abbildung 13 dargestellt. Wählen Sie Daten>Zusammenführen wie zuvor.

Abbildung 13: Tabelle wlslog2.sta

In den Optionen zum Zusammenführen , wählen Sie Modus als Match-Variablen , wie in Abbildung 14 gezeigt. Wählen Sie Datei 1 aus als wlslog1.sta und Datei 2 als wlslog2.sta . Die Reihenfolge ist wichtig, da die Tabelle, die am Ende der anderen hinzugefügt werden soll, Datei 2 sein muss . Behalten Sie die Übereinstimmungskriterien bei als Auto , das automatisch die am besten geeigneten Zusammenführungskriterien auswählt. Die anderen Optionen für Übereinstimmungskriterien sind Nach Text , das Daten vergleicht, indem es Text vergleicht; und Nach Numerisch , das Daten vergleicht, indem es die numerischen Werte vergleicht. Klicken Sie anschließend auf Auswählen , um die abzugleichenden Variablen auszuwählen.

Abbildung 14: Zusammenführungsmodus als Match-Variablen

Wählen Sie zunächst passende Variablen für die aktuelle Datei (Datei 1) aus. Klicken Sie auf Alle auswählen und klicken Sie auf OK, wie in Abbildung 15 gezeigt.

Abbildung 15: Auswählen von Variablen in der aktuellen Datei

Wählen Sie auf ähnliche Weise alle Variablen für die Zusammenführungsdatei (Datei 2) aus und klicken Sie auf OK (siehe Abbildung 16).

Abbildung 16: Auswählen von Variablen in der Zusammenführungsdatei

Klicken Sie in den Zusammenführungsoptionen auf OK, wie in Abbildung 17 gezeigt.

Abbildung 17: Zusammenführen mit Modus als Match-Variablen

Die beiden Arbeitsblätter werden durch übereinstimmende Variablennamen zusammengeführt, wie in Abbildung 18 gezeigt.

Abbildung 18: Resultierendes Arbeitsblatt aus Zusammenführung durch Abgleich von Variablennamen

Beim Zusammenführen von Tabellenkalkulationen nach übereinstimmenden Variablennamen werden die Datenwerte numerisch und textuell sortiert. Führen Sie als Beispiel zwei Tabellenkalkulationen mit der 1. Tabellenkalkulation zusammen, wie in Abbildung 19 gezeigt.

Abbildung 19: Erste zusammenzuführende Tabelle

Das zweite Arbeitsblatt ist in Abbildung 20 dargestellt. Eine hinzugefügte Änderung besteht darin, dass der Variablenname in Datei 1 leicht geändert wurde:„ServerType“ anstelle von „Servername“, „MessageCode“ anstelle von „Code“ und „Message“ anstelle von „ Nachricht“.

Abbildung 20: Zweite zusammenzuführende Tabelle

Klicken Sie auf Auswählen, um die Variablen auszuwählen, die für den Abgleich verwendet werden sollen. Wählen Sie in Datei 1 alle Variablen aus (siehe Abbildung 21).

Abbildung 21: Passende Variablen für aktuelle Datei auswählen

Wählen Sie auch in Datei 2 alle Variablen aus, wie in Abbildung 22 gezeigt.

Abbildung 22: Auswählen passender Variablen für die Zusammenführungsdatei

Führen Sie die beiden Tabellenkalkulationen wie zuvor zusammen. Der „Servername“ oder „ServerType“ ist für alle Zeilen gleich und trägt nicht zur Sortierung der Daten in der resultierenden Tabelle bei. Die Datenwerte der Spalte „Code“ oder „MessageCode“ werden als Groß-/Kleinschreibung sortiert; BEA-000331 wird vor BEA-000360 sortiert, die vor BEA-000365 sortiert wird. Für den gleichen Wert für Code BEA-000365 werden die Spaltendaten „msg“ oder „Message“ ebenfalls nach Text sortiert – ADMIN->RESUMING->STANDBY>STARTING – wie in Abbildung 23 gezeigt.

Abbildung 23: Ergebnistabelle

Bei der Variablenauswahl müssen bestimmte Bedingungen eingehalten werden. Mindestens eine Variable muss für den Abgleich ausgewählt werden, sonst wird der in Abbildung 24 gezeigte Fehler generiert.

Abbildung 24: Es muss mindestens 1 Variable ausgewählt werden

Die Anzahl der ausgewählten Variablen muss in Datei 1 und Datei 2 gleich sein, sonst wird der in Abbildung 25 gezeigte Fehler generiert.

Abbildung 25: Dieselbe Anzahl von Variablen muss in Tabellenkalkulationen zum Zusammenführen ausgewählt werden

Der Datentyp der ausgewählten Variablen muss für die ausgewählten Variablen gleich sein. Beispielsweise müssen die Variablen „servername“ und „ServerType“ in Datei 1 bzw. Datei 2 denselben Datentyp haben, sonst wird der in Abbildung 26 gezeigte Fehler generiert.

Abbildung 26: Variablentypen müssen beim Zusammenführen durch übereinstimmende Variablen identisch sein

Schlussfolgerung

In diesem Tutorial haben wir das Zusammenführen von Datendateien (auch Tabellenkalkulationen genannt) in der Statistica-Plattform mit den Modi besprochen:Fallnamen abgleichen und Variablen abgleichen.