Создайте новый столбец, который отмечает клиентов

avatar
JAdel
8 августа 2021 в 17:32
40
1
0

Моя цель состоит в том, чтобы агрегировать идентификатор клиента (количество), создать новый столбец и отметить клиента, который часто возвращает статью. Как я могу это сделать? (с использованием Databricks, pyspark)

train.select("itemID","customerID","returnShipment").show(10)
+------+----------+--------------+
|itemID|customerID|returnShipment|
+------+----------+--------------+
|   186|       794|             0|
|    71|       794|             1|
|    71|       794|             1|
|    32|       850|             1|
|    32|       850|             1|
|    57|       850|             1|
|     2|       850|             1|
|   259|       850|             1|
|   603|       850|             1|
|   259|       850|             1|
+------+----------+--------------+
Источник

Ответы (1)

avatar
werner
8 августа 2021 в 18:25
1

Вы можете определить пороговое значение, а затем сравнить это пороговое значение с суммой returnShipments для каждого customerID:

from pyspark.sql import functions as F

threshold=5
df.groupBy("customerID")\
    .sum("returnShipment") \
    .withColumn("mark", F.col("sum(returnShipment)") > threshold) \
    .show()