Функция Python AWS Lambda для запроса таблицы каталога Redshift Spectrum Glue

avatar
PysparkSan
8 августа 2021 в 17:28
124
0
0

Я пытаюсь написать функцию Python AWS Lambda для доступа к таблице каталога AWS Glue через Redshift Spectrum всякий раз, когда в корзине S3 создается новый файл паркета (с помощью триггера).

Например: у меня есть таблица клиентов и таблица заказов в каталоге Glue.

  • Файлы данных, связанные с таблицей клиентов, в s3:\customer_folder\customer1.parquet
  • Файлы данных, связанные с таблицей порядка, в S3:\Order_folder\Ordernumber.parquet
  • customerId является общим ключом между этими двумя файлами

Каждый раз, когда в корзине S3 создается новый файл паркета (клиент/заказ), я хотел бы запросить две таблицы (объединить входные файлы customerID) и извлечь все записи.

Мы будем очень признательны за любой пример кода Python Lambda, связанный с этим.

Источник

Ответы (0)