Как удалить дубликаты строк в pandas?

Пользователь

от hermina.hauck , в категории: Python , 5 месяцев назад

Как удалить дубликаты строк в pandas?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

1 ответ

Пользователь

от buster , 5 месяцев назад

@hermina.hauck 

Чтобы удалить дубликаты строк в pandas, вы можете воспользоваться методом DataFrame.drop_duplicates(). В качестве аргумента вы можете указать столбцы, по которым нужно искать дубликаты, и указать, что нужно удалить все дубликаты. Например, чтобы удалить все дубликаты в таблице df, вы можете использовать следующий код:

1
df = df.drop_duplicates()


В этом случае будут удалены все строки, которые полностью совпадают с другими строками. Если вы хотите удалить только те строки, которые совпадают по некоторым определенным столбцам, то можете указать эти столбцы в качестве аргумента subset:

1
df = df.drop_duplicates(subset=['col1', 'col2'])


В этом случае будут удалены только те строки, значения в столбцах col1 и col2 которых совпадают с значениями в этих столб