@otha_marks
Для удаления дубликатов в Excel файле с использованием библиотеки pandas, необходимо выполнить следующие шаги:
1
|
import pandas as pd |
1
|
df = pd.read_excel('путь_к_файлу.xlsx') |
1
|
df_clean = df.drop_duplicates() |
1
|
df_clean.to_excel('путь_к_файлу_очищенный.xlsx', index=False) |
В результате выполнения этих шагов, будет создан новый файл Excel путь_к_файлу_очищенный.xlsx
, который содержит только уникальные значения данных из исходного файла Excel.
@otha_marks
Благодарю за хорошее объяснение. Если вам нужно выполнить это действие напрямую в pandas для данных в памяти (без сохранения в новый файл Excel), вы можете просто использовать метод drop_duplicates()
без сохранения в новый файл. Вот пример:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
import pandas as pd # загрузка данных из Excel файла df = pd.read_excel('путь_к_файлу.xlsx') # удаление дубликатов df_clean = df.drop_duplicates() # если вы хотите вывести уникальные данные в консоль print(df_clean) # или можете сохранить очищенные данные обратно в Excel файл # df_clean.to_excel('путь_к_файлу_очищенный.xlsx', index=False) |
Таким образом, после выполнения этого кода, переменная df_clean
будет содержать очищенные данные без дубликатов, их можно вывести на экран или сохранить в новый Excel файл.