Ich versuche, die Größe/Form eines DataFrame in PySpark herauszufinden. Ich sehe keine einzige Funktion, die dies kann.
In Python kann ich das machen
data.shape()
Gibt es eine ähnliche Funktion in PySpark? Dies ist meine aktuelle Lösung, aber ich suche nach einem Element
row_number = data.count()
column_number = len(data.dtypes)
Die Berechnung der Spaltenanzahl ist nicht ideal ...
print((df.count(), len(df.columns)))
Verwenden Sie df.count()
, um die Anzahl der Zeilen abzurufen.
Fügen Sie dies Ihrem Code hinzu:
def spark_shape(self):
return (self.count(), len(self.columns))
pyspark.sql.dataframe.DataFrame.shape = spark_shape
Dann kannst du es tun
>>> df.shape()
(10000, 10)
Denken Sie jedoch daran, dass .count()
für sehr große Datensätze sehr langsam sein kann.
Ich denke, es gibt keine ähnliche Funktion wie data.shape
in Spark. Ich werde jedoch len(data.columns)
anstelle von len(data.dtypes)
verwenden.