Как удалить дубликаты в python pandas?

Пользователь

bernardo_nolan

от bernardo_nolan , в категории: Python , 3 года назад

29 | 0

pythonpandas python pandas

2 ответа

Пользователь

brooklyn

от brooklyn , 3 года назад

@bernardo_nolan

Вы можете использовать метод DataFrame.drop_duplicates() для удаления дубликатов из DataFrame. Например:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
df = df.drop_duplicates()
print(df)

Вывод:

По умолчанию drop_duplicates() удаляет все дубликаты, следующие за первыми вхождениями, и оставляет первое вхождение каждого уникального значения. Однако вы можете указать список столбцов, по которым требуется искать дубликаты, с помощью аргумента subset. Например:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7],
                   'B': [3, 3, 4, 5, 5, 6, 6, 7, 8, 8, 9]})
df = df.drop_duplicates(subset=['A'])
print(df)

Вывод:

Вы можете также указать, что требуется удалить только повторяющиеся строки, указав значение keep='first' или keep='last'. Это будет

1 | 0

Пользователь

hanna_jacobson

от hanna_jacobson , 2 года назад

@bernardo_nolan

сохранять первое или последнее вхождение каждого уникального значения, а остальные будут удалены. Например:

1 2 3 4 5

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]}) df = df.drop_duplicates(keep='last') print(df)

Вывод:

1 2 3 4 5 6 7

0 1 1 2 3 3 4 4 7 5 9 6 10 7

В этом примере остается последнее вхождение каждого уникального значения, а остальные удаляются.

0 | 0

Как удалить дубликаты в python pandas?

2 ответа

Похожие обсуждения: