Вопросы, помеченные тегом «apache-spark»
Apache Spark - это движок распределенной обработки данных с открытым исходным кодом, написанный на Scala, предоставляющий пользователям унифицированный API и распределенные наборы данных как для пакетной, так и для потоковой обработки. Сценарии использования Apache Spark часто связаны с машинным / глубоким обучением и обработкой графиков.
9 августа 2021 в 02:31
37
1
Ресурсы, применяемые YARN, не активны. Будут ли они использоваться другими заданиями?
Я запускаю искровое задание, выделяющее много ресурсов в пряже, и задание длится долго.
В последней задаче искрового задания активны только одно ядро и два ядра.
Я хочу знать, что неактивный ресурс может использоваться другим заданием Spark или Mr.
Или просто...
8 августа 2021 в 23:38
34
0
Загрузка CSV в кадр данных PySpark, подсчитывающий разрывы строк как новые строки
Я пытаюсь загрузить CSV-файл во фрейм данных Spark, используя стандартные инструкции, однако CSV-файл загружается неправильно. Ниже заголовок и проблемная запись. Это представление файла Vim, показывающее ^M возврат...
8 августа 2021 в 21:33
390
1
Как обновить объект pyspark.sql.Row в PySpark?
Как обновить значение в объекте pyspark.sql.Row?
from pyspark.sql import Row
Record = Row('first','last')
start_row = Record('james','smith')
print(f"Sarting Row Object: {start_row}")
updated_row = start_row.first = 'john'
Выдает исключение:
Exception ...
8 августа 2021 в 18:34
94
2
Преобразование типов данных в JSON из Kafka Spark Streaming
У меня есть JSON, который я читаю из темы kafka, используя потоковую передачу искры
{"COUNTRY_REGION": "United States", "GROCERY_AND_PHARMACY_CHANGE_PERC": "-7", "PARKS_CHANGE_PERC": "\\\\N", "LAST_UPDATE_DATE": "05:31.7"}
Я понимаю, что сначала нам нужно создать...
8 августа 2021 в 17:21
87
3
Как избежать дублирования имени ключевого столбца в соединении?
Я пытаюсь соединить две таблицы в spark sql. Каждая таблица имеет более 50 столбцов. Оба имеют столбец id в качестве ключа.
spark.sql("select * from tbl1 join tbl2 on tbl1.id = tbl2.id")
В объединенной таблице есть дублированный столбец id.
Конечно, мы можем указать,...
8 августа 2021 в 16:36
214
1
искровая потоковая передача для python не работает в блоках данных
Я пытаюсь читать из объединенной темы с помощью потоковой передачи искры с помощью python в блоках данных.
Итак, у меня есть 2 вопроса
Я пытался читать из темы, но она продолжает выдавать мне "не удалось создать потребителя kafka"
from pyspark.sql import...
8 августа 2021 в 13:32
440
1
PySpark передает Dataframe в качестве дополнительного параметра для карты
Я хочу распараллелить список Python, использовать карту в этом списке и также передать кадр данных в функцию отображения
def output_age_split(df):
ages= [18, 19, 20, 21, 22]
age_dfs= spark.sparkContext.parallelize(ages).map(lambda x: test(x, df)
# Unsure of type...
8 августа 2021 в 12:59
66
4
Как найти первое значение в заданном списке?
У меня есть таблица с несколькими записями. Например
PERSON, COLOR
John, orange
John, blue
Jack, green
Jack, purple
Я знаю, что могу получить минимальные, максимальные и первые записи, используя эти операции. Есть ли способ получить первое значение на основе...
8 августа 2021 в 12:56
103
1
как извлечь данные xml из записи csv
Мне нужно загрузить данные в фреймворк данных spark, который содержит некоторый XML и текстовый контент. Ниже мой формат данных.
1,2003,4349,<c><ab a="Roy" b="201"/><ab a="Joe" b="202"/></c> 54,M
Мне нужно получить окончательный результат, как...
8 августа 2021 в 12:37
154
2
Можно ли удалить строки с помощью JDBC?
Используя соединение spark jdbc, я могу читать или записывать данные. Например:
app_project_model_df = (
sqlContext.read.format("jdbc")
.option("url",sqlURL)
.option("driver","com.microsoft.sqlserver.jdbc.SQLServerDriver")
.option("dbtable","app.projectmodel")
...
8 августа 2021 в 11:13
114
1
Проблема при преобразовании карты Scala в объект на блокноте Databricks
Выпуск
У меня есть сценарий, в котором мне нужно преобразовать карту scala в объект класса case, и с помощью следующих ссылок я смог добиться этого локально (версия scala 2.12.13):
Scala: преобразовать карту в класс case
Преобразование карты в объект Scala
Но когда я...
8 августа 2021 в 10:25
624
1
Elastic Search — не удается инициализировать SSL — проблема с сертификатом
Я пытаюсь получить данные из Elastic Search (версия: 7.13.4) через PySpark. Однако я получаю эту ошибку.
org.elasticsearch.hadoop.EsHadoopIllegalStateException: Cannot initialize SSL - parseAlgParameters failed: ObjectIdentifier() -- data isn't an object ID (tag =...
8 августа 2021 в 06:14
70
0
Массовая загрузка данных Hbase в несколько столбцов семейства
Я написал приложение Spark(2.4.7), которое читает и записывает в таблицу Hbase (myTable) с коннектором HBase-Spark, оно в основном использует RDD Spark.
До сих пор моя таблица состояла из одного семейства столбцов (column1), и я использовал массовую загрузку для записи...
8 августа 2021 в 04:36
428
1
Получить имя таблицы из каталога искры
У меня есть объект DataSourceV2Relation, и я хочу получить имя его таблицы из искрового каталога. spark.catalog.listTables() покажет все таблицы, но есть ли способ получить конкретную таблицу непосредственно из объекта?
8 августа 2021 в 02:43
55
0
Livy Service для Spark Submit и EMR HA
Приносим свои извинения, если этот вопрос окажется очень конкретным и пропустит журналы ошибок, так как это было трудно воспроизвести для нашей производственной среды.
Сценарий:
У нас есть служба Livy, работающая в узлах EMR для удаленного вызова отправки искры.
Мы...
8 августа 2021 в 00:05
153
1
Путь к журналу набора журналов Python во время выполнения при запуске задания искры в кластерном режиме
Мои настройки ведения журнала выглядят примерно так
logging.json содержит конфигурацию ведения журнала .
File Handler:
filename: "%dynamic_log%/sample.log"
Я создаю путь динамического журнала во время выполнения и заменяю %dynamic_log% фактическим путем, по которому я...
7 августа 2021 в 17:19
304
1
org/bson/conversions/ошибка Bson в Apache Zeppelin
Я установил Zeppelin 0.9.0 на свой компьютер с Ubuntu 20.04.
В интерпретаторах spark.jars у меня есть mongo-spark-connector, mongo-java-driver и bson.
Я успешно импортировал com.mongodb.spark, org.bson.Document и другие необходимые пакеты, но когда я хочу выполнить...
7 августа 2021 в 15:52
68
2
Таблица Spark и фильтрация Ranger Row
Читая документы, мы сомневаемся:
Для таблицы Spark, созданной с помощью saveAsTable(...) и использующей хранилище метаданных Hive
можно ли использовать Apache Ranger для применения фильтров на уровне строк к такой таблице?
Это неясно из документации. Очевидно, что...
7 августа 2021 в 15:31
222
1
Как мы можем получить доступ к значению первой строки в окне в Spark
Я хочу получить доступ к значению самой первой строки в окне DataFrame в Spark.
Учетная запись
Транзакция
Дата...
7 августа 2021 в 14:19
29
0
Не удается найти модуль PySpark в отсоединенном экземпляре ноутбука EMR
Я создал экземпляр EMR, который поддерживает приложения для работы с большими данными, включая Spark, Hadoop и livy. Когда я запустил ноутбук, подключенный к этому EMR, я не мог ни импортировать, ни pip install pyspark.
Ниже приводится краткое изложение моего ЭМИ. Что...