0% found this document useful (0 votes)

14 views

Data Science Lab Manual

The document provides steps and code snippets for various machine learning techniques like regression, classification, clustering and dimensionality reduction. It includes practical examples on Excel functions, pivot tables, VLOOKUP, conditional formatting, reading data from files, preprocessing tasks, feature scaling, dummy variables, hypothesis testing using t-test and chi-square test, ANOVA, different types of regression, logistic regression and decision trees.

Uploaded by

Ravishankar Gautam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views

Data Science Lab Manual

Uploaded by

Ravishankar Gautam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 32

PRACTICAL 1

Introduction to Excel
A. Perform conditional formatting on a dataset using various criteria.

Steps
Step 1: Go to conditional formatting > Greater Than

Step 2: Enter the greater than filter value for example 2000.
Step 3: Go to Data Bars > Solid Fill in conditional formatting.

B. Create a pivot table to analyse and summarize data.

Steps
Step 1: select the entire table and go to Insert tab PivotChart > Pivotchart
Step 2: Select “New worksheet” in the create pivot chart window.
Step 3: Select and drag attributes in the below boxes.

C. Use VLOOKUP function to retrieve information from a different worksheet or table.

Steps:
Step 1: click on an empty cell and type the following command.
=VLOOKUP(B3, B3:D3,1, TRUE)
D. Perform what-if analysis using Goal Seek to determine input values for desired
output.
Steps-
Step 1: In the Data tab go to the what if analysis>Goal seek.

Step 2: Fill the information in the window accordingly and click ok

PRACTICAL 2

Data Frames and Basic Data Pre-processing

A. Read data from CSV and JSON files into a data frame.
(1)
# Read data from a csv file
import pandas as pd
df = pd.read_csv('Student_Marks.csv')
print("Our dataset ")
print(df)

(2)
# Reading data from a JSON file
import pandas as pd
data = pd.read_json('dataset.json')
print(data)

B. Perform basic data pre-processing tasks such as handling missing values and outliers.
Code:
(1)
# Replacing NA values using fillna()
import pandas as pd
df = pd.read_csv('titanic.csv')
print(df)
df.head(10)
print("Dataset after filling NA values with 0 : ")
df2=df.fillna(value=0)
print(df2)

(2)
# Dropping NA values using dropna()
import pandas as pd
df = pd.read_csv('titanic.csv')
print(df)
df.head(10)

print("Dataset after dropping NA values: ")

df.dropna(inplace = True)
print(df)
C. Manipulate and transform data using functions like filtering, sorting, and grouping
Code:
import pandas as pd

# Load iris dataset

iris = pd.read_csv('Iris.csv')

# Filtering data based on a condition

setosa = iris[iris['Species'] == 'setosa']
print("Setosa samples:")
print(setosa.head())

# Sorting data
sorted_iris = iris.sort_values(by='SepalLengthCm', ascending=False)
print("\nSorted iris dataset:")
print(sorted_iris.head())

# Grouping data
grouped_species = iris.groupby('Species').mean()
print("\nMean measurements for each species:")
print(grouped_species)
PRACTICAL 3

Feature Scaling and Dummification

A. Apply feature-scaling techniques like standardization and normalization to numerical

features.

Code:

# Standardization and normalization

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler, StandardScaler
df = pd.read_csv('wine.csv', header=None, usecols=[0, 1, 2], skiprows=1)
df.columns = ['classlabel', 'Alcohol', 'Malic Acid']
print("Original DataFrame:")
print(df)
scaling=MinMaxScaler()
scaled_value=scaling.fit_transform(df[['Alcohol','Malic Acid']])
df[['Alcohol','Malic Acid']]=scaled_value
print("\n Dataframe after MinMax Scaling")
print(df)
scaling=StandardScaler()
scaled_standardvalue=scaling.fit_transform(df[['Alcohol','Malic Acid']])
df[['Alcohol','Malic Acid']]=scaled_standardvalue
print("\n Dataframe after Standard Scaling")
print(df)
B. Perform feature Dummification to convert categorical variables into numerical
representations.

Code:

import pandas as pd
iris=pd.read_csv("Iris.csv")
print(iris)
from sklearn.preprocessing import LabelEncoder
le=LabelEncoder()
iris['code']=le.fit_transform(iris.Species)
print(iris)
Practical 4
Hypothesis Testing
Conduct a hypothesis test using appropriate statistical tests (e.g., t-test, chi-square test)
# t-test
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

# Generate two samples for demonstration purposes

np.random.seed(42)
sample1 = np.random.normal(loc=10, scale=2, size=30)
sample2 = np.random.normal(loc=12, scale=2, size=30)

# Perform a two-sample t-test

t_statistic, p_value = stats.ttest_ind(sample1, sample2)

# Set the significance level

alpha = 0.05

print("Results of Two-Sample t-test:")

print(f'T-statistic: {t_statistic}')
print(f'P-value: {p_value}')
print(f"Degrees of Freedom: {len(sample1) + len(sample2) - 2}")

# Plot the distributions

plt.figure(figsize=(10, 6))
plt.hist(sample1, alpha=0.5, label='Sample 1', color='blue')
plt.hist(sample2, alpha=0.5, label='Sample 2', color='orange')
plt.axvline(np.mean(sample1), color='blue', linestyle='dashed', linewidth=2)
plt.axvline(np.mean(sample2), color='orange', linestyle='dashed', linewidth=2)
plt.title('Distributions of Sample 1 and Sample 2')
plt.xlabel('Values')
plt.ylabel('Frequency')
plt.legend()

# Highlight the critical region if null hypothesis is rejected

if p_value < alpha:
critical_region = np.linspace(min(sample1.min(), sample2.min()), max(sample1.max(),
sample2.max()), 1000)
plt.fill_between(critical_region, 0, 5, color='red', alpha=0.3, label='Critical Region')
plt.text(11, 5, f'T-statistic: {t_statistic:.2f}', ha='center', va='center', color='black',
backgroundcolor='white')

# Show the plot

plt.show()

# Draw Conclusions
if p_value < alpha:
if np.mean(sample1) > np.mean(sample2):
print("Conclusion: There is significant evidence to reject the null hypothesis.")
print("Interpretation: The mean of Sample 1 is significantly higher than that of Sample
2.")
else:
print("Conclusion: There is significant evidence to reject the null hypothesis.")
print("Interpretation: The mean of Sample 2 is significantly higher than that of Sample
1.")
else:
print("Conclusion: Fail to reject the null hypothesis.")
print("Interpretation: There is not enough evidence to claim a significant difference
between the means.")

Output:

#chi-test
import pandas as pd
import numpy as np
import matplotlib as plt
import seaborn as sb
import warnings
from scipy import stats
warnings.filterwarnings('ignore')
df=sb.load_dataset('mpg')
print(df)
print(df['horsepower'].describe())
print(df['model_year'].describe())
bins=[0,75,150,240]
df['horsepower_new']=pd.cut(df['horsepower'],bins=bins,labels=['l','m','h'])
c=df['horsepower_new']
print(c)
ybins=[69,72,74,84]
label=['t1','t2','t3']
df['modelyear_new']=pd.cut(df['model_year'],bins=ybins,labels=label)
newyear=df['modelyear_new']
print(newyear)
df_chi=pd.crosstab(df['horsepower_new'],df['modelyear_new'])
print(df_chi)
print(stats.chi2_contingency(df_chi)
Output:
Conclusion: There is sufficient evidence to reject the null hypothesis, indicating that
there is a significant association between 'horsepower_new' and 'modelyear_new'
categories.
Practical 5
ANOVA (Analysis of Variance)
Perform one-way ANOVA to compare means across multiple groups.
Conduct post-hoc tests to identify significant differences between group means.

import pandas as pd
import scipy.stats as stats
from statsmodels.stats.multicomp import pairwise_tukeyhsd

group1 = [23, 25, 29, 34, 30]

group2 = [19, 20, 22, 24, 25]
group3 = [15, 18, 20, 21, 17]
group4 = [28, 24, 26, 30, 29]

all_data = group1 + group2 + group3 + group4

group_labels = ['Group1'] * len(group1) + ['Group2'] * len(group2) + ['Group3'] *
len(group3) + ['Group4'] * len(group4)

f_statistics, p_value = stats.f_oneway(group1, group2, group3, group4)

print("one-way ANOVA:")
print("F-statistics:", f_statistics)
print("p-value", p_value)

tukey_results = pairwise_tukeyhsd(all_data, group_labels)

print("\nTukey-Kramer post-hoc test:")
print(tukey_results)

Output:-
Practical 6
Regression and its Types.

import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

housing = fetch_california_housing()
housing_df = pd.DataFrame(housing.data, columns=housing.feature_names)
print(housing_df)

housing_df['PRICE'] = housing.target

X = housing_df[['AveRooms']]
y = housing_df['PRICE']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()

model.fit(X_train, y_train)

mse = mean_squared_error(y_test, model.predict(X_test))

r2 = r2_score(y_test, model.predict(X_test))
print("Mean Squared Error:", mse)
print("R-squared:", r2)
print("Intercept:", model.intercept_)
print("Coefficient:", model.coef_)

#########################################

#Multiple Liner Regression

X = housing_df.drop('PRICE',axis=1)
y = housing_df['PRICE']

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)

model = LinearRegression()

model.fit(X_train,y_train)

y_pred = model.predict(X_test)

mse = mean_squared_error(y_test,y_pred)
r2 = r2_score(y_test,y_pred)

print("Mean Squared Error:",mse)

print("R-squared:",r2)
print("Intercept:",model.intercept_)
print("Coefficient:",model.coef_)
Output:
Practical 7

Logistic Regression and Decision Tree

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score,
classification_report
# Load the Iris dataset and create a binary classification problem
iris = load_iris()
iris_df = pd.DataFrame(data=np.c_[iris['data'], iris['target']], columns=iris['feature_names'] +
['target'])
binary_df = iris_df[iris_df['target'] != 2]
X = binary_df.drop('target', axis=1)
y = binary_df['target']
# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Train a logistic regression model and evaluate its performance
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred_logistic = logistic_model.predict(X_test)

print("Logistic Regression Metrics")

print("Accuracy: ", accuracy_score(y_test, y_pred_logistic))
print("Precision:", precision_score(y_test, y_pred_logistic))
print("Recall: ", recall_score(y_test, y_pred_logistic))
print("\nClassification Report")
print(classification_report(y_test, y_pred_logistic))
# Train a decision tree model and evaluate its performance
decision_tree_model = DecisionTreeClassifier()
decision_tree_model.fit(X_train, y_train)
y_pred_tree = decision_tree_model.predict(X_test)
print("\nDecision Tree Metrics")
print("Accuracy: ", accuracy_score(y_test, y_pred_tree))
print("Precision:", precision_score(y_test, y_pred_tree))
print("Recall: ", recall_score(y_test, y_pred_tree))
print("\nClassification Report")
print(classification_report(y_test, y_pred_tree))
Output:-
Practical 8
K-Means clustering
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

data = pd.read_csv("C:\\Users\Reape\Downloads\wholesale\wholesale.csv")
data.head()

categorical_features = ['Channel', 'Region']

continuous_features = ['Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen']
data[continuous_features].describe()

for col in categorical_features:

dummies = pd.get_dummies(data[col], prefix = col)
data = pd.concat([data, dummies], axis = 1)
data.drop(col, axis = 1, inplace = True)
data.head()

mms = MinMaxScaler()
mms.fit(data)
data_transformed = mms.transform(data)

sum_of_squared_distances = []
K = range(1, 15)
for k in K:
km = KMeans(n_clusters=k)
km = km.fit(data_transformed)
sum_of_squared_distances.append(km.inertia_)

plt.plot(K, sum_of_squared_distances, 'bx-')

plt.xlabel('k')
plt.ylabel('sum_of_squared_distances')
plt.title('elbow Mehtod for optimal k')
plt.show()

Output:
Practical 9

Principal Component Analysis (PCA)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

iris = load_iris()
iris_df = pd.DataFrame(data=np.c_[iris['data'], iris['target']], columns=iris['feature_names'] +
['target'])
X = iris_df.drop('target', axis=1)
y = iris_df['target']

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

pca = PCA()
X_pca = pca.fit_transform(X_scaled)
explained_variance_ratio = pca.explained_variance_ratio_

plt.figure(figsize=(8, 6))
plt.plot(np.cumsum(explained_variance_ratio), marker='o', linestyle='--')
plt.title('Explained Variance Ratio')
plt.xlabel('Number of Principal Components')
plt.ylabel('Cumulative Explained Variance Ratio')
plt.grid(True)
plt.show()

cumulative_variance_ratio = np.cumsum(explained_variance_ratio)
n_components = np.argmax(cumulative_variance_ratio >= 0.95) + 1
print(f"Number of principal components to explain 95% variance: {n_components}")

pca = PCA(n_components=n_components)
X_reduced = pca.fit_transform(X_scaled)

plt.figure(figsize=(8, 6))
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap='viridis', s=50, alpha=0.5)
plt.title('Data in Reduced-dimensional Space')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.colorbar(label='Target')
plt.show()
Output:

Zhi-Hua Zhou (Auth.) - Machine Learning (2021, Springer) (10.1007 - 978-981!15!1967-3) - Libgen - Li
100% (1)
Zhi-Hua Zhou (Auth.) - Machine Learning (2021, Springer) (10.1007 - 978-981!15!1967-3) - Libgen - Li
460 pages
Advanced Statistics ANOVA PCA EDA Project Report 3 Great Lakes
91% (34)
Advanced Statistics ANOVA PCA EDA Project Report 3 Great Lakes
28 pages
CFA Exercise With Solution - Chap 08
100% (1)
CFA Exercise With Solution - Chap 08
2 pages
KD Hndcse 44 20
No ratings yet
KD Hndcse 44 20
18 pages
data-science-practical-with-solutions-bsc-cs-sem-6
No ratings yet
data-science-practical-with-solutions-bsc-cs-sem-6
29 pages
data science practicals
No ratings yet
data science practicals
47 pages
omkar
No ratings yet
omkar
37 pages
Data Science Practicals
No ratings yet
Data Science Practicals
40 pages
ds
No ratings yet
ds
28 pages
TYCS Practical
No ratings yet
TYCS Practical
26 pages
Data science and analtics Laboratory
No ratings yet
Data science and analtics Laboratory
21 pages
DVA Lab Manual
No ratings yet
DVA Lab Manual
20 pages
DAV Guidelines
No ratings yet
DAV Guidelines
4 pages
DA Manual - Part B
No ratings yet
DA Manual - Part B
13 pages
Data Science
No ratings yet
Data Science
18 pages
Vanshika Goyal Gec Practicals
No ratings yet
Vanshika Goyal Gec Practicals
31 pages
DAV Practical
No ratings yet
DAV Practical
12 pages
GEC PRACTICALS
No ratings yet
GEC PRACTICALS
31 pages
External
No ratings yet
External
11 pages
Some Exercises
No ratings yet
Some Exercises
9 pages
ML(sudhanshu)
No ratings yet
ML(sudhanshu)
24 pages
Print Print Print Print: Import As
No ratings yet
Print Print Print Print: Import As
6 pages
Dwdm-Lab Manual
No ratings yet
Dwdm-Lab Manual
39 pages
Machine Learning Lab Manual (1)
No ratings yet
Machine Learning Lab Manual (1)
42 pages
23bet10114 Naman Gupta Assignment-1
No ratings yet
23bet10114 Naman Gupta Assignment-1
17 pages
DataAnalytics Lab Manual (1)
No ratings yet
DataAnalytics Lab Manual (1)
35 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
1DA (1)
No ratings yet
1DA (1)
18 pages
Data Analysis
No ratings yet
Data Analysis
8 pages
DALab Part-B BCU&BU
No ratings yet
DALab Part-B BCU&BU
12 pages
Pattern Recognition
No ratings yet
Pattern Recognition
26 pages
R Basics
No ratings yet
R Basics
18 pages
Dav Lab Manual
No ratings yet
Dav Lab Manual
28 pages
Bda Assign
No ratings yet
Bda Assign
15 pages
data science
No ratings yet
data science
15 pages
ADS LAB Merged
No ratings yet
ADS LAB Merged
86 pages
FDSA Lab Manual
No ratings yet
FDSA Lab Manual
27 pages
ADS EXP Assignments
No ratings yet
ADS EXP Assignments
38 pages
DS Slips Solutions Sem 5
No ratings yet
DS Slips Solutions Sem 5
23 pages
Gaurav - Data Mining Lab Assignment
No ratings yet
Gaurav - Data Mining Lab Assignment
36 pages
AD3411 (2)
No ratings yet
AD3411 (2)
28 pages
Ankit Python
No ratings yet
Ankit Python
26 pages
Dav practicals
No ratings yet
Dav practicals
33 pages
DA lab
No ratings yet
DA lab
27 pages
CS3362 Data Science Laboratory Manual 2022-23
No ratings yet
CS3362 Data Science Laboratory Manual 2022-23
54 pages
ml lab
No ratings yet
ml lab
14 pages
Python For Data Sceince l1 Hands On
No ratings yet
Python For Data Sceince l1 Hands On
5 pages
Data Analysis Lab - Final - 23-24
No ratings yet
Data Analysis Lab - Final - 23-24
11 pages
Jashan ML
No ratings yet
Jashan ML
20 pages
BAN5
No ratings yet
BAN5
2 pages
Project paarth (1) (1)
No ratings yet
Project paarth (1) (1)
21 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
Date Preparation and Exploration:: Titanic Data - CSV
No ratings yet
Date Preparation and Exploration:: Titanic Data - CSV
5 pages
Aditya Garg DMDW
No ratings yet
Aditya Garg DMDW
40 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
pp DWDM 4 5
No ratings yet
pp DWDM 4 5
26 pages
Final Cost Practical
No ratings yet
Final Cost Practical
29 pages
COST - JournalPracticals (1-7)
No ratings yet
COST - JournalPracticals (1-7)
22 pages
ML LAB manual-1
No ratings yet
ML LAB manual-1
33 pages
ML Final Prac
No ratings yet
ML Final Prac
47 pages
ML LAB Mannual - Index
No ratings yet
ML LAB Mannual - Index
29 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
4. VEDIC AGE
No ratings yet
4. VEDIC AGE
4 pages
CC and WS Practical Journal
No ratings yet
CC and WS Practical Journal
65 pages
Products
No ratings yet
Products
4 pages
Ir Practical
No ratings yet
Ir Practical
13 pages
Parametric & Non Parametric Test
100% (1)
Parametric & Non Parametric Test
8 pages
TBChap 002 A
No ratings yet
TBChap 002 A
30 pages
Regresi Ordinal
No ratings yet
Regresi Ordinal
3 pages
Statistics For Management and Economics, Tenth Edition Formulas
No ratings yet
Statistics For Management and Economics, Tenth Edition Formulas
11 pages
Continuous Predictors
No ratings yet
Continuous Predictors
5 pages
Business Statistics Unit 1
No ratings yet
Business Statistics Unit 1
22 pages
Regression Analysis - Chapter 4 - Model Adequacy Checking - Shalabh, IIT Kanpur
No ratings yet
Regression Analysis - Chapter 4 - Model Adequacy Checking - Shalabh, IIT Kanpur
36 pages
Univariate Bivariavte Multivariate
No ratings yet
Univariate Bivariavte Multivariate
10 pages
Basic Time Series Concepts
No ratings yet
Basic Time Series Concepts
10 pages
Text Problems Solved
No ratings yet
Text Problems Solved
9 pages
Statistics II - Formula Sheet: Unit 1
No ratings yet
Statistics II - Formula Sheet: Unit 1
2 pages
Hotelling's T2 PDF
No ratings yet
Hotelling's T2 PDF
12 pages
Correlation and Regression Analysis Using SPSS: December 2019
No ratings yet
Correlation and Regression Analysis Using SPSS: December 2019
8 pages
A Review On Detection of Parkinsons Disease Using ML Algorithms
No ratings yet
A Review On Detection of Parkinsons Disease Using ML Algorithms
6 pages
Data Analytics Unit III
No ratings yet
Data Analytics Unit III
15 pages
Customer Satisfaction and Service Quality in High-Contact Service Firm
No ratings yet
Customer Satisfaction and Service Quality in High-Contact Service Firm
12 pages
Tutorial 8
No ratings yet
Tutorial 8
2 pages
Neural Networks Report HW2: Pripoae Serbanescu Mihai
No ratings yet
Neural Networks Report HW2: Pripoae Serbanescu Mihai
5 pages
Flight Delay Prediction System Paper - 802 - 826 - 828
No ratings yet
Flight Delay Prediction System Paper - 802 - 826 - 828
7 pages
Assignment 2 QTB
No ratings yet
Assignment 2 QTB
5 pages
BS Final Assignment
No ratings yet
BS Final Assignment
3 pages
Testbank KTLTC
No ratings yet
Testbank KTLTC
54 pages
Stock Market Prediction
No ratings yet
Stock Market Prediction
16 pages
06 Machine Learning - Naive Bayes
No ratings yet
06 Machine Learning - Naive Bayes
9 pages
Module 4-2 Principal Components Analysis
No ratings yet
Module 4-2 Principal Components Analysis
18 pages
Multivariate Statistical Machine Learning Methods For Genomic Prediction
No ratings yet
Multivariate Statistical Machine Learning Methods For Genomic Prediction
707 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Data Science Lab Manual

Uploaded by

Data Science Lab Manual

Uploaded by

PRACTICAL 1

B. Create a pivot table to analyse and summarize data.

C. Use VLOOKUP function to retrieve information from a different worksheet or table.

Step 2: Fill the information in the window accordingly and click ok

Data Frames and Basic Data Pre-processing

print("Dataset after dropping NA values: ")

# Load iris dataset

# Filtering data based on a condition

Feature Scaling and Dummification

A. Apply feature-scaling techniques like standardization and normalization to numerical

# Standardization and normalization

# Generate two samples for demonstration purposes

# Perform a two-sample t-test

# Set the significance level

print("Results of Two-Sample t-test:")

# Plot the distributions

# Highlight the critical region if null hypothesis is rejected

# Show the plot

group1 = [23, 25, 29, 34, 30]

all_data = group1 + group2 + group3 + group4

f_statistics, p_value = stats.f_oneway(group1, group2, group3, group4)

tukey_results = pairwise_tukeyhsd(all_data, group_labels)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

mse = mean_squared_error(y_test, model.predict(X_test))

#Multiple Liner Regression

print("Mean Squared Error:",mse)

Logistic Regression and Decision Tree

print("Logistic Regression Metrics")

categorical_features = ['Channel', 'Region']

for col in categorical_features:

plt.plot(K, sum_of_squared_distances, 'bx-')

Principal Component Analysis (PCA)

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.