webentwicklung-frage-antwort-db.com.de

Wie berechnet man den Datumsunterschied im Pyspark?

Ich habe Daten wie diese: 

df = sqlContext.createDataFrame([
    ('1986/10/15', 'z', 'null'), 
    ('1986/10/15', 'z', 'null'),
    ('1986/10/15', 'c', 'null'),
    ('1986/10/15', 'null', 'null'),
    ('1986/10/16', 'null', '4.0')],
    ('low', 'high', 'normal'))

Ich möchte die Datumsdifferenz zwischen low Spalte und 2017-05-02 berechnen und low Spalte durch die Differenz ersetzen. Ich habe verwandte Lösungen für stackoverflow ausprobiert, aber keine davon funktioniert.

7
Mark Krystal

Sie müssen die Spalte low in das Datum der Klasse umwandeln und dann datediff() in Kombination mit lit() verwenden. Verwenden von Spark 2.2 :

from pyspark.sql.functions import datediff, to_date, lit

df.withColumn("test", 
              datediff(to_date(lit("2017-05-02")),
                       to_date("low","yyyy/MM/dd"))).show()
+----------+----+------+-----+
|       low|high|normal| test|
+----------+----+------+-----+
|1986/10/15|   z|  null|11157|
|1986/10/15|   z|  null|11157|
|1986/10/15|   c|  null|11157|
|1986/10/15|null|  null|11157|
|1986/10/16|null|   4.0|11156|
+----------+----+------+-----+

Mit <Spark 2.2 müssen wir zuerst die low-Spalte in die Klasse timestamp konvertieren:

from pyspark.sql.functions import datediff, to_date, lit, unix_timestamp

df.withColumn("test", 
              datediff(to_date(lit("2017-05-02")),
                       to_date(unix_timestamp('low', "yyyy/MM/dd").cast("timestamp")))).show()
18
mtoto

Alternativ können Sie die Anzahl der Tage ermitteln, die zwischen zwei nachfolgenden Benutzeraktionen mit pySpark vergangen sind:

import pyspark.sql.functions as funcs
from pyspark.sql.window import Window

window = Window.partitionBy('user_id').orderBy('action_date')

df = df.withColumn("days_passed", funcs.datediff(df.action_date, 
                                  lag(df.action_date, 1).over(window)))



+----------+-----------+-----------+
|   user_id|action_date|days_passed| 
+----------+-----------+-----------+
|623       |2015-10-21|        null|
|623       |2015-11-19|          29|
|623       |2016-01-13|          59|
|623       |2016-01-21|           8|
|623       |2016-03-24|          63|
+----------+----------+------------+
1
Artem Zaika