HBase
 sql >> Datenbank >  >> NoSQL >> HBase

Verwenden von Cloudera Data Engineering zur Analyse der Daten des Gehaltsscheck-Schutzprogramms

Das Paycheck Protection Program (PPP) wird von der US-Bundesregierung eingeführt, um Unternehmen einen direkten Anreiz zu bieten, ihre Mitarbeiter auf der Gehaltsliste zu halten, insbesondere während der Covid-19-Pandemie. PPP unterstützt qualifizierte Unternehmen dabei, ihre Mitarbeiter zu halten und die damit verbundenen Geschäftsausgaben zu bezahlen. Daten von der Website des US-Finanzministeriums zeigen, welche Unternehmen PPP-Darlehen erhalten haben und wie viele Arbeitsplätze erhalten blieben. Das US-Finanzministerium genehmigte ungefähr eine Million PPP-Darlehen in den USA.

Die Analyse dieser Daten bringt drei Herausforderungen mit sich. Erstens ist die Größe der Daten signifikant. Der Zeitaufwand für das Abrufen, Kuratieren, Transformieren, Abrufen und Berichten über diese Daten ist zeitintensiv. Zweitens wird sich der Datensatz wahrscheinlich weiterentwickeln, was zusätzliche Entwicklungszeit und Ressourcen in Anspruch nehmen wird. Schließlich besteht in einem mehrstufigen Prozess wie diesem die Möglichkeit, dass Dinge kaputt gehen. Die Möglichkeit, Fehler oder Engpässe schnell zu ermitteln, hilft dabei, SLAs konsequent einzuhalten.

Dieser Blog zeigt, wie Cloudera Data Engineering (CDE) mit Apache Spark verwendet werden kann, um Berichte basierend auf den PPP-Daten zu erstellen und gleichzeitig alle oben beschriebenen Herausforderungen anzugehen.

Ziel

Nachfolgend wird ein Scheinszenario für das Texas Legislative Budget Board (LBB) erstellt, um einem Datentechniker bei der Verwaltung und Analyse der PPP-Daten zu helfen. Das Hauptziel dieses Dateningenieurs besteht darin, der LBB zwei Endberichte zur Verfügung zu stellen:

  • Bericht 1:Aufschlüsselung aller Städte in Texas, die Arbeitsplätze behalten haben
  • Bericht 2:Aufschlüsselung nach Unternehmenstyp, der Arbeitsplätze behielt

Cloudera Data Engineering (CDE)

Hier kann Cloudera Data Engineering (CDE) mit Apache Spark helfen. CDE ist einer der Dienste in Cloudera Data Platform (CDP), der es Dateningenieuren ermöglicht, Apache Spark-Jobs zu erstellen, zu verwalten und zu planen, während nützliche Tools zur Überwachung der Jobleistung, zum Zugriff auf Protokolldateien und zur Orchestrierung von Workflows über Apache Airflow bereitgestellt werden. Apache Spark ist ein Datenverarbeitungs-Framework, das in der Lage ist, umfangreiche Datenverarbeitung schnell auszuführen.

Das US-Finanzministerium stellt zwei verschiedene Datensätze bereit, einen für genehmigte Kredite über 150.000 USD und einen für genehmigte Kredite unter 150.000 USD. Zur Erstellung der beiden Abschlussberichte für die LBB wurden diese Schritte befolgt (siehe Abb. 1).

  • Der erste Schritt bestand darin, die beiden separaten Datensätze in einen S3-Bucket zu laden.
  • Für jeden Datensatz wurde ein Spark-Job erstellt, um Daten aus dem S3-Bucket abzurufen und zu filtern.
  • Diese beiden Spark-Jobs transformierten und luden die sauberen Daten in ein Hive-Data-Warehouse zum Abrufen.
  • Ein dritter Spark-Job wurde erstellt, um die Daten aus dem Hive Data Warehouse zu verarbeiten und die beiden Berichte zu erstellen.

Sobald die Jobläufe abgeschlossen waren, stellte CDE die verschiedenen Phasen innerhalb jedes Spark-Jobs grafisch dar (siehe Abb. 2). Dadurch konnte der Datentechniker leicht erkennen, welche Teile des Jobs möglicherweise die meiste Zeit in Anspruch nahmen, sodass er seinen Code leicht verfeinern und verbessern konnte, um die Kunden-SLAs optimal zu erfüllen.

Abb. 1:Datenreise zur Erstellung der beiden Endberichte.

Abb. 2:Grafische CDE-Darstellung verschiedener Spark-Stufen.

Ergebnisse

Das primäre Ziel, die beiden Endberichte aus dem Datensatz von einer Million zugelassener Bewerber zu erstellen, wurde erreicht. Die grafische Zusammenfassung des ersten Berichts (siehe Abb. 3) zeigt eine Top-10-Stichprobe der Anzahl der erhaltenen Arbeitsplätze pro Stadt in Texas, und der zweite Bericht (siehe Abb. 4) zeigt eine Top-5-Stichprobe der Anzahl der erhaltenen Arbeitsplätze nach Unternehmenstyp. Aus diesen Berichten kann beispielsweise das Texas Legislative Budget Board ableiten, dass Städte mit der geringsten Anzahl von Arbeitsplätzen pro Kopf möglicherweise Ressourcen benötigen, um die wirtschaftlichen Auswirkungen zu verringern.

Abb. 3:Top 10 der Städte mit den meisten Arbeitsplätzen, Bundesstaat Texas, 2020

Abb. 4:Top 5 Unternehmenstypen mit den meisten Arbeitsplätzen, Bundesstaat Texas, 2020

Nächste Schritte

Um all dies in Aktion zu sehen, klicken Sie bitte unten auf die Links zu einigen verschiedenen Quellen, die den erstellten Prozess zeigen.

  • Video – Wenn Sie sehen und hören möchten, wie dies gebaut wurde, sehen Sie sich das Video unter dem Link an.
  • Tutorials – Wenn Sie dies in Ihrem eigenen Tempo tun möchten, sehen Sie sich eine detaillierte exemplarische Vorgehensweise mit Screenshots und zeilenweisen Anweisungen zum Einrichten und Ausführen an.
  • Meetup – Wenn Sie direkt mit Experten von Cloudera sprechen möchten, nehmen Sie bitte an einem virtuellen Meetup teil, um eine Live-Stream-Präsentation zu sehen. Am Ende ist Zeit für direkte Fragen und Antworten.
  • CDP-Benutzerseite – Klicken Sie auf den Link, um mehr über andere CDP-Ressourcen zu erfahren, die für Benutzer entwickelt wurden, darunter zusätzliche Videos, Tutorials, Blogs und Veranstaltungen.