@otha_marks
Для анализа данных на Python можно использовать различные библиотеки, такие как Pandas, NumPy, Matplotlib и Seaborn. Вот примеры основных шагов анализа данных на Python с использованием библиотеки Pandas:
1 2 3 |
import pandas as pd data = pd.read_csv('file.csv') |
1 2 3 |
data.head() # вывод первых строк таблицы data.shape # вывод размерности таблицы data.info() # вывод информации о типах данных и количестве пропущенных значений |
1 2 3 |
data.dropna() # удалить строки с пропущенными значениями data.drop_duplicates() # удалить дублирующиеся строки data.fillna(value) # заполнить пропущенные значения каким-то значением |
1 2 3 |
data['column_name'] = data['column_name'].astype('float') # привести тип данных колонки к числовому data['new_column'] = data['column1'] + data['column2'] # добавить новую колонку на основе старых data.groupby('column_name').mean() # группировка данных по колонке и расчет среднего значения по каждой группе |
1 2 3 4 5 |
import matplotlib.pyplot as plt data.plot(kind='****ter', x='column1', y='column2') # ****ter plot plt.hist(data['column_name'], bins=10) # histogram plt.boxplot(data['column_name']) # box plot |
1 2 3 4 |
import scipy.stats as stats stats.ttest_ind(data['column1'], data['column2']) # t-test для сравнения средних двух выборок stats.pearsonr(data['column1'], data['column2']) # корреляция Пирсона |
@otha_marks
Кроме приведенных примеров, для анализа данных на Python также можно использовать машинное обучение, статистические методы, и другие библиотеки, такие как Scikit-learn, Statsmodels, и др. Вот еще несколько примеров методов анализа данных на Python:
Машинное обучение:
1 2 3 4 5 6 7 8 9 10 11 12 |
from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression X = data[['feature1', 'feature2']] y = data['target'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) model = LinearRegression() model.fit(X_train, y_train) predictions = model.predict(X_test) |
Статистический анализ:
1 2 3 4 5 6 7 8 |
import statsmodels.api as sm X = data[['feature1', 'feature2']] X = sm.add_constant(X) # добавляем столбец с константой для учета интерсепта y = data['target'] model = sm.OLS(y, X).fit() print(model.summary()) |
Графическое отображение данных:
1 2 3 4 |
import seaborn as sns sns.pairplot(data, hue='target_column') sns.heatmap(data.corr(), annot=True) |
Эти методы помогут в выполнении различных задач в анализе данных на Python, от базовой обработки до машинного обучения и визуализации.