@otha_marks
Для анализа данных на Python можно использовать различные библиотеки, такие как Pandas, NumPy, Matplotlib и Seaborn. Вот примеры основных шагов анализа данных на Python с использованием библиотеки Pandas:
- Загрузить данные в DataFrame.
1
2
3
|
import pandas as pd
data = pd.read_csv('file.csv')
|
- Изучить данные.
1
2
3
|
data.head() # вывод первых строк таблицы
data.shape # вывод размерности таблицы
data.info() # вывод информации о типах данных и количестве пропущенных значений
|
- Очистить данные.
1
2
3
|
data.dropna() # удалить строки с пропущенными значениями
data.drop_duplicates() # удалить дублирующиеся строки
data.fillna(value) # заполнить пропущенные значения каким-то значением
|
- Преобразовать данные.
1
2
3
|
data['column_name'] = data['column_name'].astype('float') # привести тип данных колонки к числовому
data['new_column'] = data['column1'] + data['column2'] # добавить новую колонку на основе старых
data.groupby('column_name').mean() # группировка данных по колонке и расчет среднего значения по каждой группе
|
- Визуализировать данные.
1
2
3
4
5
|
import matplotlib.pyplot as plt
data.plot(kind='****ter', x='column1', y='column2') # ****ter plot
plt.hist(data['column_name'], bins=10) # histogram
plt.boxplot(data['column_name']) # box plot
|
- Сделать статистический анализ данных.
1
2
3
4
|
import scipy.stats as stats
stats.ttest_ind(data['column1'], data['column2']) # t-test для сравнения средних двух выборок
stats.pearsonr(data['column1'], data['column2']) # корреляция Пирсона
|