@loyal
В PySpark данные можно сохранить в различных форматах и хранилищах, таких как файлы CSV, JSON, Parquet, Avro, ORC, JDBC-совместимые базы данных и многие другие.
Например, если вы хотите сохранить данные в формате CSV, вы можете использовать метод write.csv
объекта DataFrame или RDD следующим образом:
1 2 3 4 5 6 |
# Создание DataFrame из списка data = [("John", 25), ("Jane", 30), ("Mark", 35)] df = spark.createDataFrame(data, ["Name", "Age"]) # Сохранение DataFrame в CSV-файл df.write.csv("path/to/save/file.csv") |
Если вы хотите сохранить данные в формате Parquet, вы можете использовать метод write.parquet
объекта DataFrame или RDD следующим образом:
1 2 |
# Сохранение DataFrame в Parquet-файл df.write.parquet("path/to/save/file.parquet") |
Вы также можете использовать различные опции для настройки формата сохраняемых данных, такие как разделитель, режим сохранения и многое другое. Дополнительную информацию о настройке формата можно найти в документации PySpark.