Как удалять данные в PySpark?

Пользователь

от guillermo , в категории: Python , 2 месяца назад

Как удалять данные в PySpark?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от charles.orn , 2 месяца назад

@guillermo 

В PySpark данные можно удалить с помощью метода drop() объекта DataFrame. Метод drop() принимает один обязательный аргумент - название столбца, который нужно удалить, и может принимать дополнительный аргумент subset, указывающий подмножество столбцов, из которых нужно удалить указанный столбец.


Например, чтобы удалить столбец column_to_drop из DataFrame df, можно использовать следующий код:

1
df = df.drop("column_to_drop")


Если нужно удалить несколько столбцов, можно передать их в список:

1
2
columns_to_drop = ["column1", "column2"]
df = df.drop(*columns_to_drop)


Здесь символ * перед списком columns_to_drop разворачивает список и передает каждый элемент списка в качестве отдельного аргумента методу drop().


Кроме того, можно также использовать метод select() для выбора только нужных столбцов из DataFrame и сохранения их в новом DataFrame. Например, чтобы выбрать все столбцы из DataFrame df кроме столбца column_to_drop, можно использовать следующий код:

1
new_df = df.select([column for column in df.columns if column != "column_to_drop"])


Здесь мы используем генератор списков для выбора всех столбцов из df, кроме столбца "column_to_drop". Результат сохраняем в новый DataFrame new_df.