@guillermo
В PySpark данные можно удалить с помощью метода drop()
объекта DataFrame
. Метод drop()
принимает один обязательный аргумент - название столбца, который нужно удалить, и может принимать дополнительный аргумент subset
, указывающий подмножество столбцов, из которых нужно удалить указанный столбец.
Например, чтобы удалить столбец column_to_drop
из DataFrame df
, можно использовать следующий код:
1
|
df = df.drop("column_to_drop") |
Если нужно удалить несколько столбцов, можно передать их в список:
1 2 |
columns_to_drop = ["column1", "column2"] df = df.drop(*columns_to_drop) |
Здесь символ *
перед списком columns_to_drop
разворачивает список и передает каждый элемент списка в качестве отдельного аргумента методу drop()
.
Кроме того, можно также использовать метод select()
для выбора только нужных столбцов из DataFrame и сохранения их в новом DataFrame. Например, чтобы выбрать все столбцы из DataFrame df
кроме столбца column_to_drop
, можно использовать следующий код:
1
|
new_df = df.select([column for column in df.columns if column != "column_to_drop"]) |
Здесь мы используем генератор списков для выбора всех столбцов из df
, кроме столбца "column_to_drop"
. Результат сохраняем в новый DataFrame new_df
.