@adrien.waters
PySpark поддерживает множество агрегатных функций, которые можно использовать для анализа данных в распределенной среде. Вот некоторые из наиболее распространенных агрегатных функций, которые можно использовать в PySpark:
Чтобы использовать эти функции, вам необходимо импортировать модуль pyspark.sql.functions
и вызвать функции с помощью метода agg()
DataFrame.
Например, чтобы найти сумму столбца salary
в DataFrame employees
, вы можете использовать следующий код:
1 2 3 |
from pyspark.sql.functions import sum total_salary = employees.agg(sum("salary")).collect()[0][0] |
Этот код создает новую переменную total_salary
, которая содержит сумму значений в столбце salary
в DataFrame employees
.
Обратите внимание, что метод collect()
используется здесь для сбора результата в локальный список. Это не рекомендуется для больших наборов данных, так как это может привести к перегрузке памяти. Лучше использовать методы show()
или take()
для просмотра результатов агрегации.