Mysql
 sql >> Datenbank >  >> RDS >> Mysql

Automatisieren Sie das Massenladen von Daten von s3 in die Aurora MySQL RDS-Instanz

Der Ansatz ist wie oben angegeben, haben Sie einen S3-Ereignisauslöser und einen Lambda-Job, der den S3-Bucket/Objektort überwacht. Sobald eine Datei in den s3-Speicherort hochgeladen wird, wird der Lambda-Job ausgeführt, und im Lambda können Sie konfigurieren, dass ein AWS Glue-Job aufgerufen wird. Genau das haben wir getan und erfolgreich live geschaltet. Lambda hat eine Lebensdauer von 15 Minuten und es sollte weniger als eine Minute dauern, um einen Glue-Job auszulösen/zu starten.

Hier finden Sie eine Musterquelle als Referenz.

from __future__ import print_function
import json
import boto3
import time
import urllib

print('Loading function')

s3 = boto3.client('s3')
glue = boto3.client('glue')

def lambda_handler(event, context):
    gluejobname="your-glue-job-name here"

    try:
        runId = glue.start_job_run(JobName=gluejobname)
        status = glue.get_job_run(JobName=gluejobname, RunId=runId['JobRunId'])
        print("Job Status : ", status['JobRun']['JobRunState'])
    except Exception as e:
        print(e)
        print('Error getting object {} from bucket {}. Make sure they exist '
              'and your bucket is in the same region as this '
              'function.'.format(source_bucket, source_bucket))
    raise e

Um eine Lambda-Funktion zu erstellen, gehen Sie zu AWS Lambdra->Create a new function from Scratch->Select S3 for event und konfigurieren Sie dann die S3-Bucket-Standorte und Präfixe nach Bedarf. Kopieren Sie dann das obige Codebeispiel, den Inline-Codebereich, und konfigurieren Sie den Klebeauftragsnamen nach Bedarf. Bitte stellen Sie sicher, dass Sie über alle erforderlichen IAM-Rollen/Zugriffseinstellungen verfügen.

Der Glue-Job sollte eine Verbindung zu Ihrem Aurora herstellen können, und dann können Sie den von Aurora bereitgestellten Befehl "LOAD FROM S3 ....." verwenden. Stellen Sie sicher, dass alle Parametergruppeneinstellungen/-konfigurationen wie erforderlich vorgenommen wurden.

Lassen Sie mich wissen, falls es Probleme gibt.

UPDATE:BEISPIEL-Code-Snippet für LOAD FROM S3:

conn = mysql.connector.connect(host=url, user=uname, password=pwd, database=dbase)
cur = conn.cursor()
cur, conn = connect()
createStgTable1 = "DROP TABLE IF EXISTS mydb.STG_TABLE;"
createStgTable2 = "CREATE TABLE mydb.STG_TABLE(COL1 VARCHAR(50) NOT NULL, COL2 VARCHAR(50), COL3 VARCHAR(50), COL4 CHAR(1) NOT NULL);"
loadQry = "LOAD DATA FROM S3 PREFIX 's3://<bucketname>/folder' REPLACE INTO TABLE mydb.STG_TABLE FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n' IGNORE 1 LINES (@var1, @var2, @var3, @var4) SET col1= @var1, col2= @var2, col3= @var3, [email protected];"
cur.execute(createStgTable1)
cur.execute(createStgTable2)
cur.execute(loadQry)
conn.commit()
conn.close()