Я пытаюсь написать функцию Python AWS Lambda для доступа к таблице каталога AWS Glue через Redshift Spectrum всякий раз, когда в корзине S3 создается новый файл паркета (с помощью триггера).
Например: у меня есть таблица клиентов и таблица заказов в каталоге Glue.
- Файлы данных, связанные с таблицей клиентов, в
s3:\customer_folder\customer1.parquet
- Файлы данных, связанные с таблицей порядка, в
S3:\Order_folder\Ordernumber.parquet
-
customerId
является общим ключом между этими двумя файлами
Каждый раз, когда в корзине S3 создается новый файл паркета (клиент/заказ), я хотел бы запросить две таблицы (объединить входные файлы customerID
) и извлечь все записи.
Мы будем очень признательны за любой пример кода Python Lambda, связанный с этим.