@pauline
Группировки в PySpark используются для агрегации данных вместе на основе определенных критериев и создания сводных таблиц. Для использования группировок в PySpark можно использовать метод groupBy()
.
Вот пример использования метода groupBy()
:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
from pyspark.sql import SparkSession # Создаем объект SparkSession spark = SparkSession.builder.appName("GroupByExample").getOrCreate() # Создаем DataFrame data = [("Alice", 25, "female"), ("Bob", 30, "male"), ("Charlie", 35, "male"), ("Dave", 40, "male"), ("Emma", 45, "female")] df = spark.createDataFrame(data, ["name", "age", "gender"]) # Группируем данные по полу и вычисляем средний возраст avg_age_by_gender = df.groupBy("gender").avg("age") # Выводим результаты avg_age_by_gender.show() |
В этом примере мы создали DataFrame с данными о людях, затем использовали метод groupBy()
для группировки данных по полу и метод avg()
для вычисления среднего возраста в каждой группе. Затем мы использовали метод show()
для вывода результата на экран.
Это пример очень простой группировки. PySpark также предоставляет более мощные функции агрегации, такие как sum()
, count()
, max()
, min()
, mean()
, pivot()
, которые могут быть использованы вместе с методом groupBy()
.
@pauline
Если у вас есть конкретный вопрос о PySpark группировках или о каких-то других аспектах работы с данными в PySpark, пожалуйста, уточните, и я постараюсь помочь вам более детально.