it-roy-ru.com

Apache Spark, добавить вычисляемый столбец "CASE WHEN ... ELSE ..." в существующий DataFrame

Я пытаюсь добавить вычисляемый столбец "CASE WHEN ... ELSE ..." в существующий DataFrame, используя API Scala . Запуск dataframe:

color
Red
Green
Blue

Желаемый фрейм данных (синтаксис SQL: CASE WHEN color == Зеленый THEN 1 ELSE 0 END AS bool):

color bool
Red   0
Green 1
Blue  0

Как мне реализовать эту логику?

20
Leonardo Biagioli

В следующем выпуске SPARK 1.4.0 (должен быть выпущен в ближайшие пару дней). Вы можете использовать синтаксис когда/иначе:

// Create the dataframe
val df = Seq("Red", "Green", "Blue").map(Tuple1.apply).toDF("color")

// Use when/otherwise syntax
val df1 = df.withColumn("Green_Ind", when($"color" === "Green", 1).otherwise(0))

Если вы используете SPARK 1.3.0, вы можете использовать UDF:

// Define the UDF
val isGreen = udf((color: String) => {
  if (color == "Green") 1
  else 0
})
val df2 = df.withColumn("Green_Ind", isGreen($"color"))
50
Herman

В Spark 1.5.0: вы также можете использовать функцию синтаксиса SQL expr

val df3 = df.withColumn("Green_Ind", expr("case when color = 'green' then 1 else 0 end"))

или обычная искра-sql

df.registerTempTable("data")
val df4 = sql(""" select *, case when color = 'green' then 1 else 0 end as Green_ind from data """)
9
Robert Chevallier

Я нашел это:

https://issues.Apache.org/jira/browse/SPARK-3813

Работал у меня на спарке 2.1.0:

import sqlContext._
val rdd = sc.parallelize((1 to 100).map(i => Record(i, s"val_$i")))
rdd.registerTempTable("records")
println("Result of SELECT *:")
sql("SELECT case key when '93' then 'ravi' else key end FROM records").collect()
1
ozma

Я долго искал, так что вот пример SPARK 2.1 Java с группированием для других пользователей Java.

import static org.Apache.spark.sql.functions.*;
 //...
    Column uniqTrue = col("uniq").equalTo(true);
    Column uniqFalse = col("uniq").equalTo(false);

    Column testModeFalse = col("testMode").equalTo(false);
    Column testModeTrue = col("testMode").equalTo(true);

    Dataset<Row> x = basicEventDataset
            .groupBy(col(group_field))
            .agg(
                    sum(when((testModeTrue).and(uniqTrue), 1).otherwise(0)).as("tt"),
                    sum(when((testModeFalse).and(uniqTrue), 1).otherwise(0)).as("ft"),
                    sum(when((testModeTrue).and(uniqFalse), 1).otherwise(0)).as("tf"),
                    sum(when((testModeFalse).and(uniqFalse), 1).otherwise(0)).as("ff")
            );
0
Ehud Lev