Как создать Dataset в PySpark?

Пользователь

от elissa , в категории: Python , год назад

Как создать Dataset в PySpark?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от akeem , год назад

@elissa 

Создание Dataset в PySpark можно выполнить несколькими способами, но наиболее распространенным является использование метода createDataFrame из модуля pyspark.sql. Для этого требуется импортировать необходимые модули и определить данные, которые будут использоваться для создания набора данных.


Вот пример кода, который демонстрирует, как создать Dataset из списка словарей:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# Создание SparkSession
spark = SparkSession.builder.appName("Creating a Dataset").getOrCreate()

# Определение схемы данных
schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)
])

# Определение данных
data = [{"name": "John", "age": 25}, {"name": "Jane", "age": 30}, {"name": "Bob", "age": 35}]

# Создание DataFrame
df = spark.createDataFrame(data, schema)

# Преобразование DataFrame в Dataset
dataset = df.as("dataset")

# Отображение содержимого Dataset
dataset.show()


В данном примере мы создаем SparkSession, определяем схему данных и данные, которые будут использоваться для создания DataFrame. Затем мы преобразуем DataFrame в Dataset, используя метод as, чтобы определить имя Dataset, и выводим содержимое Dataset с помощью метода show.