Вопросы, помеченные тегом «apache-spark»

Apache Spark - это движок распределенной обработки данных с открытым исходным кодом, написанный на Scala, предоставляющий пользователям унифицированный API и распределенные наборы данных как для пакетной, так и для потоковой обработки. Сценарии использования Apache Spark часто связаны с машинным / глубоким обучением и обработкой графиков.
avatar
chen amos
9 августа 2021 в 02:31
37
1

Ресурсы, применяемые YARN, не активны. Будут ли они использоваться другими заданиями?

Я запускаю искровое задание, выделяющее много ресурсов в пряже, и задание длится долго. В последней задаче искрового задания активны только одно ядро ​​и два ядра. Я хочу знать, что неактивный ресурс может использоваться другим заданием Spark или Mr. Или просто...
avatar
Steve
8 августа 2021 в 23:38
34
0

Загрузка CSV в кадр данных PySpark, подсчитывающий разрывы строк как новые строки

Я пытаюсь загрузить CSV-файл во фрейм данных Spark, используя стандартные инструкции, однако CSV-файл загружается неправильно. Ниже заголовок и проблемная запись. Это представление файла Vim, показывающее ^M возврат...
avatar
warnerm06
8 августа 2021 в 21:33
390
1

Как обновить объект pyspark.sql.Row в PySpark?

Как обновить значение в объекте pyspark.sql.Row? from pyspark.sql import Row Record = Row('first','last') start_row = Record('james','smith') print(f"Sarting Row Object: {start_row}") updated_row = start_row.first = 'john' Выдает исключение: Exception ...
avatar
Adam
8 августа 2021 в 18:34
94
2

Преобразование типов данных в JSON из Kafka Spark Streaming

У меня есть JSON, который я читаю из темы kafka, используя потоковую передачу искры {"COUNTRY_REGION": "United States", "GROCERY_AND_PHARMACY_CHANGE_PERC": "-7", "PARKS_CHANGE_PERC": "\\\\N", "LAST_UPDATE_DATE": "05:31.7"} Я понимаю, что сначала нам нужно создать...
avatar
zesla
8 августа 2021 в 17:21
87
3

Как избежать дублирования имени ключевого столбца в соединении?

Я пытаюсь соединить две таблицы в spark sql. Каждая таблица имеет более 50 столбцов. Оба имеют столбец id в качестве ключа. spark.sql("select * from tbl1 join tbl2 on tbl1.id = tbl2.id") В объединенной таблице есть дублированный столбец id. Конечно, мы можем указать,...
avatar
Adam
8 августа 2021 в 16:36
214
1

искровая потоковая передача для python не работает в блоках данных

Я пытаюсь читать из объединенной темы с помощью потоковой передачи искры с помощью python в блоках данных. Итак, у меня есть 2 вопроса Я пытался читать из темы, но она продолжает выдавать мне "не удалось создать потребителя kafka" from pyspark.sql import...
avatar
scalaLala
8 августа 2021 в 13:32
440
1

PySpark передает Dataframe в качестве дополнительного параметра для карты

Я хочу распараллелить список Python, использовать карту в этом списке и также передать кадр данных в функцию отображения def output_age_split(df): ages= [18, 19, 20, 21, 22] age_dfs= spark.sparkContext.parallelize(ages).map(lambda x: test(x, df) # Unsure of type...
avatar
John
8 августа 2021 в 12:59
66
4

Как найти первое значение в заданном списке?

У меня есть таблица с несколькими записями. Например PERSON, COLOR John, orange John, blue Jack, green Jack, purple Я знаю, что могу получить минимальные, максимальные и первые записи, используя эти операции. Есть ли способ получить первое значение на основе...
avatar
Sharma
8 августа 2021 в 12:56
103
1

как извлечь данные xml из записи csv

Мне нужно загрузить данные в фреймворк данных spark, который содержит некоторый XML и текстовый контент. Ниже мой формат данных. 1,2003,4349,<c><ab a="Roy" b="201"/><ab a="Joe" b="202"/></c> 54,M Мне нужно получить окончательный результат, как...
avatar
Grevioos
8 августа 2021 в 12:37
154
2

Можно ли удалить строки с помощью JDBC?

Используя соединение spark jdbc, я могу читать или записывать данные. Например: app_project_model_df = ( sqlContext.read.format("jdbc") .option("url",sqlURL) .option("driver","com.microsoft.sqlserver.jdbc.SQLServerDriver") .option("dbtable","app.projectmodel") ...
avatar
Sameer Kumar
8 августа 2021 в 11:13
114
1

Проблема при преобразовании карты Scala в объект на блокноте Databricks

Выпуск У меня есть сценарий, в котором мне нужно преобразовать карту scala в объект класса case, и с помощью следующих ссылок я смог добиться этого локально (версия scala 2.12.13): Scala: преобразовать карту в класс case Преобразование карты в объект Scala Но когда я...
avatar
Tad
8 августа 2021 в 10:25
624
1

Elastic Search — не удается инициализировать SSL — проблема с сертификатом

Я пытаюсь получить данные из Elastic Search (версия: 7.13.4) через PySpark. Однако я получаю эту ошибку. org.elasticsearch.hadoop.EsHadoopIllegalStateException: Cannot initialize SSL - parseAlgParameters failed: ObjectIdentifier() -- data isn't an object ID (tag =...
avatar
Oded
8 августа 2021 в 06:14
70
0

Массовая загрузка данных Hbase в несколько столбцов семейства

Я написал приложение Spark(2.4.7), которое читает и записывает в таблицу Hbase (myTable) с коннектором HBase-Spark, оно в основном использует RDD Spark. До сих пор моя таблица состояла из одного семейства столбцов (column1), и я использовал массовую загрузку для записи...
avatar
user2328609
8 августа 2021 в 04:36
428
1

Получить имя таблицы из каталога искры

У меня есть объект DataSourceV2Relation, и я хочу получить имя его таблицы из искрового каталога. spark.catalog.listTables() покажет все таблицы, но есть ли способ получить конкретную таблицу непосредственно из объекта?
avatar
jishmisc28
8 августа 2021 в 02:43
55
0

Livy Service для Spark Submit и EMR HA

Приносим свои извинения, если этот вопрос окажется очень конкретным и пропустит журналы ошибок, так как это было трудно воспроизвести для нашей производственной среды. Сценарий: У нас есть служба Livy, работающая в узлах EMR для удаленного вызова отправки искры. Мы...
avatar
Keyboard
8 августа 2021 в 00:05
153
1

Путь к журналу набора журналов Python во время выполнения при запуске задания искры в кластерном режиме

Мои настройки ведения журнала выглядят примерно так logging.json содержит конфигурацию ведения журнала . File Handler: filename: "%dynamic_log%/sample.log" Я создаю путь динамического журнала во время выполнения и заменяю %dynamic_log% фактическим путем, по которому я...
avatar
s241k
7 августа 2021 в 17:19
304
1

org/bson/conversions/ошибка Bson в Apache Zeppelin

Я установил Zeppelin 0.9.0 на свой компьютер с Ubuntu 20.04. В интерпретаторах spark.jars у меня есть mongo-spark-connector, mongo-java-driver и bson. Я успешно импортировал com.mongodb.spark, org.bson.Document и другие необходимые пакеты, но когда я хочу выполнить...
avatar
thebluephantom
7 августа 2021 в 15:52
68
2

Таблица Spark и фильтрация Ranger Row

Читая документы, мы сомневаемся: Для таблицы Spark, созданной с помощью saveAsTable(...) и использующей хранилище метаданных Hive можно ли использовать Apache Ranger для применения фильтров на уровне строк к такой таблице? Это неясно из документации. Очевидно, что...
avatar
Sugyan sahu
7 августа 2021 в 15:31
222
1

Как мы можем получить доступ к значению первой строки в окне в Spark

Я хочу получить доступ к значению самой первой строки в окне DataFrame в Spark. Учетная запись Транзакция Дата...
avatar
Memphis Meng
7 августа 2021 в 14:19
29
0

Не удается найти модуль PySpark в отсоединенном экземпляре ноутбука EMR

Я создал экземпляр EMR, который поддерживает приложения для работы с большими данными, включая Spark, Hadoop и livy. Когда я запустил ноутбук, подключенный к этому EMR, я не мог ни импортировать, ни pip install pyspark. Ниже приводится краткое изложение моего ЭМИ. Что...