Как читать данные в PySpark?

Пользователь

от wilburn , в категории: Python , 2 месяца назад

Как читать данные в PySpark?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от jakayla , 5 дней назад

@wilburn 

В PySpark можно читать данные из различных источников, таких как файлы CSV, JSON, Parquet, AVRO, текстовые файлы и базы данных, используя различные методы. Например, если вы хотите прочитать данные из файла CSV, вы можете использовать метод read.csv().


Пример кода чтения данных из файла CSV:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
from pyspark.sql import SparkSession

# Создание сессии Spark
spark = SparkSession.builder.appName("ReadingData").getOrCreate()

# Чтение данных из файла CSV
data = spark.read.csv("path/to/csv/file.csv", header=True, inferSchema=True)

# Показ первых 5 строк данных
data.show(5)

# Остановка сессии Spark
spark.stop()


Здесь мы сначала создали сессию Spark с именем "ReadingData". Затем мы использовали метод read.csv() для чтения данных из файла CSV. header=True указывает, что первая строка файла CSV содержит заголовки столбцов, а inferSchema=True использовался для автоматического определения типов данных столбцов. Мы затем показали первые пять строк данных с помощью метода show() и остановили сессию Spark.