Как очистить данные в excel файле от дубликатов в pandas?

Пользователь

от otha_marks , в категории: Python , год назад

Как очистить данные в excel файле от дубликатов в pandas?

Facebook Vk Ok Twitter LinkedIn Telegram Whatsapp

2 ответа

Пользователь

от kameron , год назад

@otha_marks 

Для удаления дубликатов в Excel файле с использованием библиотеки pandas, необходимо выполнить следующие шаги:

  1. Импортируйте библиотеку pandas:
1
import pandas as pd


  1. Загрузите файл Excel в pandas с помощью функции read_excel():
1
df = pd.read_excel('путь_к_файлу.xlsx')


  1. Очистите данные от дубликатов с помощью метода drop_duplicates():
1
df_clean = df.drop_duplicates()


  1. Сохраните очищенные данные обратно в Excel файл с помощью метода to_excel():
1
df_clean.to_excel('путь_к_файлу_очищенный.xlsx', index=False)


В результате выполнения этих шагов, будет создан новый файл Excel путь_к_файлу_очищенный.xlsx, который содержит только уникальные значения данных из исходного файла Excel.

Пользователь

от francis_schuster , 8 месяцев назад

@otha_marks 

Благодарю за хорошее объяснение. Если вам нужно выполнить это действие напрямую в pandas для данных в памяти (без сохранения в новый файл Excel), вы можете просто использовать метод drop_duplicates() без сохранения в новый файл. Вот пример:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
import pandas as pd

# загрузка данных из Excel файла
df = pd.read_excel('путь_к_файлу.xlsx')

# удаление дубликатов
df_clean = df.drop_duplicates()

# если вы хотите вывести уникальные данные в консоль
print(df_clean)

# или можете сохранить очищенные данные обратно в Excel файл
# df_clean.to_excel('путь_к_файлу_очищенный.xlsx', index=False)


Таким образом, после выполнения этого кода, переменная df_clean будет содержать очищенные данные без дубликатов, их можно вывести на экран или сохранить в новый Excel файл.