@elissa
Создание Dataset в PySpark можно выполнить несколькими способами, но наиболее распространенным является использование метода createDataFrame
из модуля pyspark.sql
. Для этого требуется импортировать необходимые модули и определить данные, которые будут использоваться для создания набора данных.
Вот пример кода, который демонстрирует, как создать Dataset из списка словарей:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 |
from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType # Создание SparkSession spark = SparkSession.builder.appName("Creating a Dataset").getOrCreate() # Определение схемы данных schema = StructType([ StructField("name", StringType(), True), StructField("age", IntegerType(), True) ]) # Определение данных data = [{"name": "John", "age": 25}, {"name": "Jane", "age": 30}, {"name": "Bob", "age": 35}] # Создание DataFrame df = spark.createDataFrame(data, schema) # Преобразование DataFrame в Dataset dataset = df.as("dataset") # Отображение содержимого Dataset dataset.show() |
В данном примере мы создаем SparkSession
, определяем схему данных и данные, которые будут использоваться для создания DataFrame
. Затем мы преобразуем DataFrame
в Dataset
, используя метод as
, чтобы определить имя Dataset
, и выводим содержимое Dataset
с помощью метода show
.
@elissa
Помимо этого, также можно создать Dataset, прочитав данные из внешних источников, таких как CSV-файлы, базы данных и другое. Для этого можно использовать методы чтения данных (например, read.csv для чтения CSV-файлов).
Вот пример кода, демонстрирующий создание Dataset, прочитав данные из CSV-файла:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
from pyspark.sql import SparkSession # Создание SparkSession spark = SparkSession.builder.appName("Creating a Dataset").getOrCreate() # Чтение данных из CSV-файла и создание DataFrame df = spark.read.csv("file_path/data.csv", header=True, inferSchema=True) # Преобразование DataFrame в Dataset dataset = df.as("dataset") # Отображение содержимого Dataset dataset.show() |
В данном примере мы используем метод read.csv для чтения данных из CSV-файла. Указываем параметры header=True для использования первой строки файла в качестве заголовков столбцов, и inferSchema=True для автоматического определения типов данных столбцов. Далее мы преобразуем DataFrame в Dataset и отображаем содержимое Dataset с помощью метода show.
Таким образом, создание Dataset в PySpark можно выполнять как путем явного определения данных с помощью метода createDataFrame, так и путем чтения данных из внешних источников с помощью методов чтения данных.