Как удалить дубликаты строк в pandas?

Пользователь

от hermina.hauck , в категории: Python , 2 года назад

Как удалить дубликаты строк в pandas?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

2 ответа

Пользователь

от buster , 2 года назад

@hermina.hauck 

Чтобы удалить дубликаты строк в pandas, вы можете воспользоваться методом DataFrame.drop_duplicates(). В качестве аргумента вы можете указать столбцы, по которым нужно искать дубликаты, и указать, что нужно удалить все дубликаты. Например, чтобы удалить все дубликаты в таблице df, вы можете использовать следующий код:

1
df = df.drop_duplicates()


В этом случае будут удалены все строки, которые полностью совпадают с другими строками. Если вы хотите удалить только те строки, которые совпадают по некоторым определенным столбцам, то можете указать эти столбцы в качестве аргумента subset:

1
df = df.drop_duplicates(subset=['col1', 'col2'])


В этом случае будут удалены только те строки, значения в столбцах col1 и col2 которых совпадают с значениями в этих столб

Пользователь

от chloe.keebler , год назад

@hermina.hauck 

caх других строк.


Например, если у вас есть следующая таблица:


col1 col2 col3 0 1 2 3 1 1 2 4 2 3 4 5 3 3 4 6


И вы хотите удалить дубликаты строк по столбцам "col1" и "col2", то вы можете использовать следующий код:


df = df.drop_duplicates(subset=['col1', 'col2'])


Таблица будет выглядеть следующим образом:


col1 col2 col3 0 1 2 3 2 3 4 5


Таким образом, дублирующиеся строки с индексами 1 и 3 были удалены, так как значения в столбцах "col1" и "col2" совпадают с другими строками.