webentwicklung-frage-antwort-db.com.de

Mehrere Aggregatvorgänge in derselben Spalte eines Funken-Datenrahmens

Ich habe drei Arrays vom String-Typ, die folgende Informationen enthalten:

  • groupBy-Array: enthält die Namen der Spalten, nach denen meine Daten gruppiert werden sollen.
  • aggregat-Array: enthält die Namen der Spalten, die ich aggregieren möchte.
  • operations-Array: enthält die Aggregatoperationen, die ich ausführen möchte

Ich versuche, Funken-Datenrahmen zu verwenden, um dies zu erreichen. Spark-Datenrahmen stellen ein agg () bereit, mit dem Sie eine Map [String, String] (des Spaltennamens und der jeweiligen Aggregatoperation) als Eingabe übergeben können. Ich möchte jedoch verschiedene Aggregationsoperationen für dieselbe Datenspalte ausführen. Irgendwelche Vorschläge, um dies zu erreichen

19
Richa Banker

Scala :

Sie können beispielsweise eine Liste von Funktionen mit einer definierten mapping von Name zu Funktion abbilden:

import org.Apache.spark.sql.functions.{col, min, max, mean}
import org.Apache.spark.sql.Column

val df = Seq((1L, 3.0), (1L, 3.0), (2L, -5.0)).toDF("k", "v")
val mapping: Map[String, Column => Column] = Map(
  "min" -> min, "max" -> max, "mean" -> avg)

val groupBy = Seq("k")
val aggregate = Seq("v")
val operations = Seq("min", "max", "mean")
val exprs = aggregate.flatMap(c => operations .map(f => mapping(f)(col(c))))

df.groupBy(groupBy.map(col): _*).agg(exprs.head, exprs.tail: _*).show
// +---+------+------+------+
// |  k|min(v)|max(v)|avg(v)|
// +---+------+------+------+
// |  1|   3.0|   3.0|   3.0|
// |  2|  -5.0|  -5.0|  -5.0|
// +---+------+------+------+

oder

df.groupBy(groupBy.head, groupBy.tail: _*).agg(exprs.head, exprs.tail: _*).show

Leider wird der intern verwendete Parser SQLContext nicht öffentlich verfügbar gemacht. Sie können jedoch immer versuchen, einfache SQL-Abfragen zu erstellen:

df.registerTempTable("df")
val groupExprs = groupBy.mkString(",")
val aggExprs = aggregate.flatMap(c => operations.map(
  f => s"$f($c) AS ${c}_${f}")
).mkString(",")

sqlContext.sql(s"SELECT $groupExprs, $aggExprs FROM df GROUP BY $groupExprs")

Python :

from pyspark.sql.functions import mean, sum, max, col

df = sc.parallelize([(1, 3.0), (1, 3.0), (2, -5.0)]).toDF(["k", "v"])
groupBy = ["k"]
aggregate = ["v"] 
funs = [mean, sum, max]

exprs = [f(col(c)) for f in funs for c in aggregate]

# or equivalent df.groupby(groupBy).agg(*exprs)
df.groupby(*groupBy).agg(*exprs)
41
zero323

Für diejenigen, die sich fragen, wie die @ zero323-Antwort ohne Listenverständnis in Python geschrieben werden kann:

from pyspark.sql.functions import min, max, col
# init your spark dataframe

expr = [min(col("valueName")),max(col("valueName"))]
df.groupBy("keyName").agg(*expr)
1
Zephro