it-roy-ru.com

Как получить последний ряд из DataFrame?

У меня есть DataFrame, у DataFrame есть два столбца 'value' и 'timestamp', упорядочена 'timestmp', я хочу получить последнюю строку DataFrame, что мне делать?

это мой вклад:

+-----+---------+
|value|timestamp|
+-----+---------+
|    1|        1|
|    4|        2|
|    3|        3|
|    2|        4|
|    5|        5|
|    7|        6|
|    3|        7|
|    5|        8|
|    4|        9|
|   18|       10|
+-----+---------+

это мой код:

    val arr = Array((1,1),(4,2),(3,3),(2,4),(5,5),(7,6),(3,7),(5,8),(4,9),(18,10))
    var df=m_sparkCtx.parallelize(arr).toDF("value","timestamp")

это мой ожидаемый результат:

+-----+---------+
|value|timestamp|
+-----+---------+
|   18|       10|
+-----+---------+
3
mentongwu

Я бы просто reduce:

df.reduce { (x, y) => 
  if (x.getAs[Int]("timestamp") > y.getAs[Int]("timestamp")) x else y 
}
3
hi-zir

Попробуйте это, это работает для меня.

df.orderBy($"value".desc).show(1)
3
Mimii Cheng

Я бы просто использовал запрос, который - упорядочивает вашу таблицу в порядке убывания - принимает 1-е значение из этого порядка

df.createOrReplaceTempView("table_df")
query_latest_rec = """SELECT * FROM table_df ORDER BY value DESC limit 1"""
latest_rec = self.sqlContext.sql(query_latest_rec)
latest_rec.show()
3
Danylo Zherebetskyy

Самый эффективный способ - это reduce ваш DataFrame. Это дает вам одну строку, которую вы можете преобразовать обратно в DataFrame, но так как она содержит только 1 запись, это не имеет особого смысла.

sparkContext.parallelize(
  Seq(
  df.reduce {
    (a, b) => if (a.getAs[Int]("timestamp") > b.getAs[Int]("timestamp")) a else b 
   } match {case Row(value:Int,timestamp:Int) => (value,timestamp)}
  )
)
.toDF("value","timestamp")
.show


+-----+---------+
|value|timestamp|
+-----+---------+
|   18|       10|
+-----+---------+

Менее эффективно (так как требует перетасовки), хотя короче это решение:

df
.where($"timestamp" === df.groupBy().agg(max($"timestamp")).map(_.getInt(0)).collect.head)
1
Raphael Roth

Если ваш столбец отметок времени уникален и находится в порядке возрастания, есть следующие способы получить последнюю строку

println(df.sort($"timestamp", $"timestamp".desc).first())

// Output [1,1]

df.sort($"timestamp", $"timestamp".desc).take(1).foreach(println)

// Output [1,1]

df.where($"timestamp" === df.count()).show

Результат: 

+-----+---------+
|value|timestamp|
+-----+---------+
|   18|       10|
+-----+---------+

Если нет, создайте новый столбец с индексом и выберите последний индекс, как показано ниже. 

val df1 = spark.sqlContext.createDataFrame(
    df.rdd.zipWithIndex.map {
  case (row, index) => Row.fromSeq(row.toSeq :+ index)
},
StructType(df.schema.fields :+ StructField("index", LongType, false)))

df1.where($"timestamp" === df.count()).drop("index").show

Результат: 

+-----+---------+
|value|timestamp|
+-----+---------+
|   18|       10|
+-----+---------+
1
Shankar Koirala

Джава:

Dataset<Row> sortDF = inputDF.orderBy(org.Apache.spark.sql.functions.col(config.getIncrementingColumn()).desc());
Row row = sortDF.first()
0
Suneel