Развертывание кластера основной пряжи Pyspark — местоположение журналов

avatar
Sudhir Jangam
8 августа 2021 в 21:47
44
1
0

Я отправил задание pyspark с помощью команды spark-submit в кластере haddoop. Команда выглядит следующим образом

spark-submit --master yarn --deploy-mode cluster --driver-memory 1g --num-executors 2 --executor-memory 1g --executor-cores 2 --py-files module_stm_extracts.py,module_table_compare.py datacheck,py

Задание завершено, но я так и не получил идентификатор приложения в консоли. Как найти журнал приложений, чтобы просмотреть

Источник

Ответы (1)

avatar
improta
9 августа 2021 в 01:53
1

Вы можете найти его в веб-интерфейсе YARN Resource Manager, по умолчанию он доступен через порт 8088 главного узла: http://<master_node_ip>:8088

Или вы также можете перечислить приложения через командную строку:

yarn application -list -appStates ALL

И с помощью applicationId получите журнал с помощью следующей команды:

yarn logs --applicationId <application_id>