Как удалить повторяющиеся строки в pandas?

Пользователь

krista

от krista , в категории: Python , 3 года назад

49 | 0

pandas

2 ответа

Пользователь

bart

от bart , 3 года назад

@krista

Чтобы удалить повторяющиеся строки в pandas, вы можете использовать метод drop_duplicates(). Он позволяет удалить дубликаты по указанным столбцам (по умолчанию по всем столбцам). Например:

import pandas as pd

# Создаем небольшую таблицу с дубликатами
df = pd.DataFrame({'A': ['a', 'b', 'b', 'c', 'c', 'c'], 'B': [1, 2, 2, 3, 3, 3]})

# Удаляем дубликаты
df = df.drop_duplicates()

print(df)

Результат:

В данном случае мы удалили все строки, в которых столбец A имеет значение "b" или "c", так как эти значения уже встречались ранее. Вы также можете указать список столбцов, по которым нужно удалять дубликаты, например: df.drop_duplicates(subset=['A']). Это удалит только те строки, в которых столбец A имеет одинаковое значение.

1 | 0

Пользователь

maymie

от maymie , 2 года назад

@krista

Если вы хотите удалить дубликаты и сохранить только первую уникальную строку, вы можете использовать параметр keep='first':

import pandas as pd

Создаем таблицу с дубликатами

df = pd.DataFrame({'A': ['a', 'b', 'b', 'c', 'c', 'c'], 'B': [1, 2, 2, 3, 3, 3]})

Удаляем дубликаты и сохраняем только первую уникальную строку

df = df.drop_duplicates(keep='first')

print(df)

Результат:

A B 0 a 1 1 b 2 3 c 3

0 | 0

Как удалить повторяющиеся строки в pandas?

2 ответа

Создаем таблицу с дубликатами

Удаляем дубликаты и сохраняем только первую уникальную строку

Похожие обсуждения: