Как создать DataFrame в PySpark?

Пользователь

от cierra , в категории: Python , 8 месяцев назад

Как создать DataFrame в PySpark?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от brenna , 8 месяцев назад

@cierra 

В PySpark можно создать DataFrame из разных источников данных, таких как CSV файлы, базы данных, RDD (Resilient Distributed Datasets) и т.д.


Один из способов создания DataFrame в PySpark - это использование метода createDataFrame объекта SparkSession.


Вот пример создания DataFrame с помощью метода createDataFrame:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
# импортируем библиотеку PySpark
from pyspark.sql import SparkSession

# создаем объект SparkSession
spark = SparkSession.builder.appName("Create DataFrame").getOrCreate()

# создаем список кортежей (tuple), содержащий данные
data = [('Alice', 25), ('Bob', 30), ('Charlie', 35), ('David', 40), ('Emily', 45)]

# создаем RDD из списка данных
rdd = spark.sparkContext.parallelize(data)

# создаем DataFrame из RDD
df = spark.createDataFrame(rdd, schema=['Name', 'Age'])

# выводим содержимое DataFrame
df.show()


В этом примере мы создали SparkSession, создали список данных, создали RDD из списка данных, создали DataFrame из RDD, и наконец, вывели содержимое DataFrame с помощью метода show.


Таким образом, мы успешно создали DataFrame в PySpark.