Как удалить повторяющиеся строки в pandas?

Пользователь

от krista , в категории: Python , месяц назад

Как удалить повторяющиеся строки в pandas?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от bart , месяц назад

@krista 

Чтобы удалить повторяющиеся строки в pandas, вы можете использовать метод drop_duplicates(). Он позволяет удалить дубликаты по указанным столбцам (по умолчанию по всем столбцам). Например:

1
2
3
4
5
6
7
8
9
import pandas as pd

# Создаем небольшую таблицу с дубликатами
df = pd.DataFrame({'A': ['a', 'b', 'b', 'c', 'c', 'c'], 'B': [1, 2, 2, 3, 3, 3]})

# Удаляем дубликаты
df = df.drop_duplicates()

print(df)


Результат:

1
2
3
4
   A  B
0  a  1
1  b  2
3  c  3


В данном случае мы удалили все строки, в которых столбец A имеет значение "b" или "c", так как эти значения уже встречались ранее. Вы также можете указать список столбцов, по которым нужно удалять дубликаты, например: df.drop_duplicates(subset=['A']). Это удалит только те строки, в которых столбец A имеет одинаковое значение.