PostgreSQL
 sql >> Datenbank >  >> RDS >> PostgreSQL

SparkSQL PostgresQL Dataframe-Partitionen

Im Wesentlichen werden die Unter- und Obergrenze und die Anzahl der Partitionen verwendet, um das Inkrement oder die Aufteilung für jede parallele Aufgabe zu berechnen.

Angenommen, die Tabelle hat die Partitionsspalte „Jahr“ und Daten von 2006 bis 2016.

Wenn Sie die Anzahl der Partitionen als 10 definieren, mit Untergrenze 2006 und Obergrenze 2016, wird jede Aufgabe Daten für ihr eigenes Jahr abrufen – der Idealfall.

Auch wenn Sie die Unter- und/oder Obergrenze falsch angeben, z. setzen Sie Lower =0 und Upper =2016, wird es eine Verzerrung bei der Datenübertragung geben, aber Sie werden keine Daten "verlieren" oder keine Daten abrufen, weil:

Die erste Aufgabe ruft Daten für das Jahr <0 ab.

Die zweite Aufgabe ruft Daten für das Jahr zwischen 0 und 2016/10 ab.

Die dritte Aufgabe wird Daten für das Jahr zwischen 2016/10 und 2*2016/10 abrufen.

...

Und die letzte Aufgabe wird eine Where-Bedingung mit year->2016.

haben

T.