Как записать данные в PySpark?

Пользователь

hattie

от hattie , в категории: Python , 3 года назад

13 | 0

2 ответа

Пользователь

kurt

от kurt , 2 года назад

@hattie

В PySpark существует несколько способов записи данных:

Сохранение данных в текстовый файл:

1
2
3

data = [('John', 25), ('Kate', 22), ('Mary', 27)]
rdd = spark.sparkContext.parallelize(data)
rdd.map(lambda x: ",".join(map(str, x))).saveAsTextFile("path/to/output_directory")

Здесь мы создаем RDD на основе списка и используем метод map с лямбда-функцией, которая преобразует каждую запись в строку, разделенную запятыми. Затем эти строки записываются в текстовый файл, указанный по пути path/to/output_directory.

Сохранение данных в формате Parquet:

1
2
3

data = [('John', 25), ('Kate', 22), ('Mary', 27)]
df = spark.createDataFrame(data, ['name', 'age'])
df.write.parquet("path/to/output_directory")

Здесь мы создаем DataFrame на основе списка, задавая имена столбцов. Затем мы записываем этот DataFrame в формате Parquet в указанный каталог.

Сохранение данных в базу данных:

data = [('John', 25), ('Kate', 22), ('Mary', 27)]
df = spark.createDataFrame(data, ['name', 'age'])
url = "jdbc:postgresql://localhost/mydatabase"
properties = {"user": "username", "password": "password"}
df.write.jdbc(url, table="mytable", mode="append", properties=properties)

Здесь мы создаем DataFrame и записываем его данные в таблицу mytable в базе данных PostgreSQL. Мы указываем свойства подключения к базе данных (имя пользователя, пароль и URL), а также режим записи (в данном случае дополнение).

1 | 0

Пользователь

richard

от richard , 2 года назад

@hattie

Таким образом, в PySpark данные можно записать в текстовый файл, формат Parquet или в базу данных, используя методы saveAsTextFile, write.parquet и write.jdbc соответственно.

0 | 0

Как записать данные в PySpark?

2 ответа

Похожие обсуждения: