Вопросы, помеченные тегом «pyspark»

Spark Python API (PySpark) предоставляет Python модель программирования apache-spark.
avatar
Cobe9696
9 августа 2021 в 05:56
100
1

Как объединить список в кадре данных в искре

У меня есть такой код columns = ("language","users_count","status") data = (("Java",None,"1"), ("Python", "100000","2"), ("Scala", "3000","3")) rdd = spark.sparkContext.parallelize(data) df = rdd.toDF(columns) df.withColumn('concat', regexp_replace(concat(...
avatar
user13782591
9 августа 2021 в 03:22
43
0

Как решить это исключение: процесс шлюза Java завершился до отправки номера порта в Windows?

!pip install pyspark import pyspark from pyspark.sql import SparkSession spark=SparkSession.builder.appName('practice').master('local').getOrCreate() Я попытался выполнить указанные выше строки, и это выдает ошибку исключения. Я использую ОС Windows. и выполнение...
avatar
Steve
8 августа 2021 в 23:38
34
0

Загрузка CSV в кадр данных PySpark, подсчитывающий разрывы строк как новые строки

Я пытаюсь загрузить CSV-файл во фрейм данных Spark, используя стандартные инструкции, однако CSV-файл загружается неправильно. Ниже заголовок и проблемная запись. Это представление файла Vim, показывающее ^M возврат...
avatar
KKS
8 августа 2021 в 23:22
4233
2

Ошибка PYCHARM — java.io.IOException: не удается запустить программу «python3»: ошибка CreateProcess = 2, система не может найти указанный файл

Я получаю следующую ошибку при запуске программы pyspark на PYCHARM, Ошибка: java.io.IOException: Не удается запустить программу "python3": ошибка CreateProcess=2, система не может найти указанный файл ...... Интерпретатор распознает файл python.exe, и я добавил...
avatar
Sudhir Jangam
8 августа 2021 в 21:47
31
1

Развертывание кластера основной пряжи Pyspark — местоположение журналов

Я отправил задание pyspark с помощью команды spark-submit в кластере haddoop. Команда выглядит следующим образом spark-submit --master yarn --deploy-mode cluster --driver-memory 1g --num-executors 2 --executor-memory 1g --executor-cores 2 --py-files...
avatar
warnerm06
8 августа 2021 в 21:33
391
1

Как обновить объект pyspark.sql.Row в PySpark?

Как обновить значение в объекте pyspark.sql.Row? from pyspark.sql import Row Record = Row('first','last') start_row = Record('james','smith') print(f"Sarting Row Object: {start_row}") updated_row = start_row.first = 'john' Выдает исключение: Exception ...
avatar
batman23
8 августа 2021 в 21:14
45
1

Spark-агрегация с оконными функциями

У меня есть искра df, которую мне нужно использовать для определения последней активной записи для каждого первичного ключа на основе даты моментального снимка. Пример того, что у меня есть: А В С Привязка 1 2 3 2019-12-29 1 2 4 2019-12-31 где первичный...
avatar
Adam
8 августа 2021 в 18:34
94
2

Преобразование типов данных в JSON из Kafka Spark Streaming

У меня есть JSON, который я читаю из темы kafka, используя потоковую передачу искры {"COUNTRY_REGION": "United States", "GROCERY_AND_PHARMACY_CHANGE_PERC": "-7", "PARKS_CHANGE_PERC": "\\\\N", "LAST_UPDATE_DATE": "05:31.7"} Я понимаю, что сначала нам нужно создать...
avatar
JAdel
8 августа 2021 в 17:32
41
1

Создайте новый столбец, который отмечает клиентов

Моя цель состоит в том, чтобы агрегировать идентификатор клиента (количество), создать новый столбец и отметить клиента, который часто возвращает статью. Как я могу это сделать? (с использованием Databricks,...
avatar
scalaLala
8 августа 2021 в 13:32
440
1

PySpark передает Dataframe в качестве дополнительного параметра для карты

Я хочу распараллелить список Python, использовать карту в этом списке и также передать кадр данных в функцию отображения def output_age_split(df): ages= [18, 19, 20, 21, 22] age_dfs= spark.sparkContext.parallelize(ages).map(lambda x: test(x, df) # Unsure of type...
avatar
Grevioos
8 августа 2021 в 12:37
154
2

Можно ли удалить строки с помощью JDBC?

Используя соединение spark jdbc, я могу читать или записывать данные. Например: app_project_model_df = ( sqlContext.read.format("jdbc") .option("url",sqlURL) .option("driver","com.microsoft.sqlserver.jdbc.SQLServerDriver") .option("dbtable","app.projectmodel") ...
avatar
Tad
8 августа 2021 в 10:25
638
1

Elastic Search — не удается инициализировать SSL — проблема с сертификатом

Я пытаюсь получить данные из Elastic Search (версия: 7.13.4) через PySpark. Однако я получаю эту ошибку. org.elasticsearch.hadoop.EsHadoopIllegalStateException: Cannot initialize SSL - parseAlgParameters failed: ObjectIdentifier() -- data isn't an object ID (tag =...
avatar
Keyboard
8 августа 2021 в 00:05
153
1

Путь к журналу набора журналов Python во время выполнения при запуске задания искры в кластерном режиме

Мои настройки ведения журнала выглядят примерно так logging.json содержит конфигурацию ведения журнала . File Handler: filename: "%dynamic_log%/sample.log" Я создаю путь динамического журнала во время выполнения и заменяю %dynamic_log% фактическим путем, по которому я...
avatar
winnie
7 августа 2021 в 23:57
795
1

Сбой задания клея с сообщением «Нет свободного места на устройстве» или «ArrayIndexOutOfBoundsException» при записи огромного фрейма данных

У меня есть работа по склейке, которая: создавать динамические кадры из нескольких каталогов данных изменить фреймы данных Spark. объединить 4 фрейма данных и завершить агрегацию. запись в s3 с типом файла csv/parquet. У него не было проблем с источником данных...
avatar
JAdel
7 августа 2021 в 17:59
29
0

Pyspark FeatureImportance с RFormula

Есть ли возможность получить featureImportance дерева решений без использования VectorAssembler? Я предварительно вычислил DataFrame с помощью RFormula. Есть ли возможность получить значения Importances в любом случае, или мне нужно использовать OneHotEncoder,...
avatar
Sugyan sahu
7 августа 2021 в 15:31
222
1

Как мы можем получить доступ к значению первой строки в окне в Spark

Я хочу получить доступ к значению самой первой строки в окне DataFrame в Spark. Учетная запись Транзакция Дата...
avatar
tharindu
7 августа 2021 в 14:35
156
1

Разделение данных по годам и месяцам на основе длинного столбца даты с использованием Pyspark

У меня есть следующий кадр данных root |-- id: long (nullable = false) |-- name: string (nullable = true) |-- school: string(nullable = true) |-- subject: string(nullable = true) |-- created_date: long(nullable = false) Я хочу сохранить данные в этом фрейме...
avatar
Memphis Meng
7 августа 2021 в 14:19
29
0

Не удается найти модуль PySpark в отсоединенном экземпляре ноутбука EMR

Я создал экземпляр EMR, который поддерживает приложения для работы с большими данными, включая Spark, Hadoop и livy. Когда я запустил ноутбук, подключенный к этому EMR, я не мог ни импортировать, ни pip install pyspark. Ниже приводится краткое изложение моего ЭМИ. Что...
avatar
Anirban Chakraborty
7 августа 2021 в 12:32
392
2

Искра автоматически удаляет кеш и удаляет неиспользуемые кадры данных?

У меня есть следующая стратегия изменения фрейма данных df. df = T1(df) df.cache() df = T2(df) df.cache() . . . df = Tn(df) df.cache() Здесь T1, T2, ... Tn n преобразований, которые возвращают искровые кадры данных. Повторное кэширование используется, потому что df...
avatar
Subhasis
7 августа 2021 в 06:44
92
0

Отправка задания Spark в EMR с удаленного компьютера

Я хочу отправить задание spark в своем кластере EMR со шлюза, который не является компьютером EC2. Помимо открытия подключения и настройки шлюза с той же конфигурацией и библиотеками emr spark, какие у меня есть альтернативы? Кроме того, если удаленный компьютер не...