@wilburn
В PySpark можно читать данные из различных источников, таких как файлы CSV, JSON, Parquet, AVRO, текстовые файлы и базы данных, используя различные методы. Например, если вы хотите прочитать данные из файла CSV, вы можете использовать метод read.csv()
.
Пример кода чтения данных из файла CSV:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
from pyspark.sql import SparkSession # Создание сессии Spark spark = SparkSession.builder.appName("ReadingData").getOrCreate() # Чтение данных из файла CSV data = spark.read.csv("path/to/csv/file.csv", header=True, inferSchema=True) # Показ первых 5 строк данных data.show(5) # Остановка сессии Spark spark.stop() |
Здесь мы сначала создали сессию Spark с именем "ReadingData". Затем мы использовали метод read.csv()
для чтения данных из файла CSV. header=True
указывает, что первая строка файла CSV содержит заголовки столбцов, а inferSchema=True
использовался для автоматического определения типов данных столбцов. Мы затем показали первые пять строк данных с помощью метода show()
и остановили сессию Spark.