0% found this document useful (0 votes)

4 views14 pages

Data Cleaning in Python

The document provides a comprehensive guide on data cleaning using Python, particularly with the `pandas` library. It covers essential tasks such as handling missing data, removing duplicates, standardizing formats, correcting invalid data, and saving cleaned data. Each task includes Python code snippets for practical implementation.

Uploaded by

christianamboulou26

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views14 pages

Data Cleaning in Python

Uploaded by

christianamboulou26

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 14

DATA CLEANING IN

PYTHON
Working with Python made easier
Introduction

• Data cleaning is a vital step in data analysis, and Python, with libraries
like `pandas`, offers powerful tools for this process. Below is a guide to
common data cleaning tasks using Python:
1. Import Libraries and Load Data

• Python code
• import pandas as pd
• import numpy as np
•
• # Load data
• df = pd.read_csv('data.csv') # Replace with your dataset path
2. Handle Missing Data

Identify Missing Values: Fill Missing Values: Drop Missing Values:

Python Code Python code Python code
print(df.isnull().sum()) df['column_name'].fillna('Default df.dropna(inplace=True) # Drop
# Count missing values per Value', inplace=True) rows with missing values
column # Fill with a default value df.dropna(axis=1, inplace=True)
print(df[df.isnull().any(axis=1)]) df['column_name'].fillna(df['colu # Drop columns with missing
# Display rows with missing mn_name'].mean(), values
values inplace=True)
# Fill with mean
3. Remove Duplicates

• Python code
• df.drop_duplicates(inplace=True) # Remove duplicate rows
4. Standardize Data Formats

Trim Whitespace: Change Case: Format Dates:

Python code Python code Python code
df['column_name'] = df['column_name'] = df['date_column'] =
df['column_name'].str.strip() df['column_name'].str.lower() # pd.to_datetime(df['date_column'
Convert to lowercase ], format='%Y%m%d')
5. Correct Invalid Data

Replace Invalid Values: Remove Outliers:

Python code Python code
df['column_name'] = # Using ZScore
df['column_name'].replace(['Invalid Value'], 'Valid from scipy.stats import zscore
Value') df = df[(np.abs(zscore(df['numeric_column'])) < 3)]
6. Handle Inconsistent Data

Unify Categories: Split and Combine Columns:

Python code Python code
df['category_column'] = # Split a column
df['category_column'].replace({ df[['first_name', 'last_name']] =
'Variation1': 'Standardized Value', df['full_name'].str.split(' ', expand=True)
'Variation2': 'Standardized Value'
}) # Combine columns
df['full_name'] = df['first_name'] + ' ' +
df['last_name']
7. Drop Unnecessary Columns or Rows

Drop Columns: Drop Rows:

Python code Python code
df.drop(['unnecessary_column'], axis=1, df = df[df['column_name'] != 'Unwanted Value']
inplace=True)
8. Validate and Clean Data Types

Convert Data Types: Check for Invalid Types:

Python code Python code
df['numeric_column'] = print(df.dtypes)
pd.to_numeric(df['numeric_column'],
errors='coerce') # Coerce invalid values to NaN
df['string_column'] =
df['string_column'].astype(str)
9. Handle Outliers

• Using IQR:
• Python code
• Q1 = df['numeric_column'].quantile(0.25)
• Q3 = df['numeric_column'].quantile(0.75)
• IQR = Q3 Q1
• df = df[(df['numeric_column'] >= Q1 1.5 IQR) & (df['numeric_column'] <= Q3 + 1.5
IQR)]
10. Save Cleaned Data

• Python code
• df.to_csv('cleaned_data.csv', index=False) # Save cleaned data to a new file
Example Workflow
# Full Example # Identify and # Remove # Standardize # Handle # Save the
fill missing duplicates case outliers cleaned data
values
df = df['age'].fillna(df[ df.drop_duplicat df['name'] = Q1 = df.to_csv('cleane
pd.read_csv('dat 'age'].mean(), es(inplace=True) df['name'].str.lo df['income'].qua d_data.csv',
a.csv') inplace=True) wer() ntile(0.25) index=False)
Q3 =
df['income'].qua
ntile(0.75)
IQR = Q3 Q1
df =
df[(df['income']
>= Q1 1.5 IQR) &
(df['income'] <=
Q3 + 1.5 IQR)]
Conclusion

• These Python tools ensure clean, structured, and consistent data for
analysis.

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
HEALTH CARE ANALYTICS (All 5 Units Notes)
100% (1)
HEALTH CARE ANALYTICS (All 5 Units Notes)
63 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
9 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Module 3
No ratings yet
Module 3
20 pages
Core of ML - Part 1 Handling Data
No ratings yet
Core of ML - Part 1 Handling Data
3 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
Day 10 Pandasdatacleaning
No ratings yet
Day 10 Pandasdatacleaning
6 pages
Data Cleaning & Preparation
100% (2)
Data Cleaning & Preparation
2 pages
DAP Writeups - Merged
No ratings yet
DAP Writeups - Merged
33 pages
Pandas Data Cleaning Presentation
No ratings yet
Pandas Data Cleaning Presentation
11 pages
Overview of Data Cleaning
No ratings yet
Overview of Data Cleaning
17 pages
Code Explanation For Date Types
No ratings yet
Code Explanation For Date Types
8 pages
Master Data Cleaning With Python
No ratings yet
Master Data Cleaning With Python
11 pages
Data Cleaning
No ratings yet
Data Cleaning
28 pages
Prac 7
No ratings yet
Prac 7
5 pages
What Is Data Cleaning
No ratings yet
What Is Data Cleaning
8 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
Python Basics Refresher
No ratings yet
Python Basics Refresher
19 pages
Document
No ratings yet
Document
29 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
S08 Slides
No ratings yet
S08 Slides
14 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Cleaning Data in Python: Pu!ing It All Together
No ratings yet
Cleaning Data in Python: Pu!ing It All Together
14 pages
Pandas
No ratings yet
Pandas
30 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Data Cleaning
No ratings yet
Data Cleaning
13 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
Part A Assignment 6
No ratings yet
Part A Assignment 6
28 pages
ch4 Slides PDF
No ratings yet
ch4 Slides PDF
44 pages
Data Cleanups
No ratings yet
Data Cleanups
16 pages
Data Cleaning
No ratings yet
Data Cleaning
42 pages
Pandas Cheat Sheet Final
No ratings yet
Pandas Cheat Sheet Final
1 page
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
Introduction To Pandas Programming 2
No ratings yet
Introduction To Pandas Programming 2
3 pages
Lec 4
No ratings yet
Lec 4
9 pages
DA Cheat Codes
No ratings yet
DA Cheat Codes
2 pages
String (Pandas) - Removing $ After Int Sales ( Revenue') Sales ( Revenue') .STR - Strip ( $') #Convert String To Int
No ratings yet
String (Pandas) - Removing $ After Int Sales ( Revenue') Sales ( Revenue') .STR - Strip ( $') #Convert String To Int
12 pages
Lab 1 ML Lab
No ratings yet
Lab 1 ML Lab
15 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
5 pages
PDS Exp 7 To 9
No ratings yet
PDS Exp 7 To 9
10 pages
Data Cleaning With Python and Pandas
No ratings yet
Data Cleaning With Python and Pandas
49 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
Dataframing in CSV
No ratings yet
Dataframing in CSV
14 pages
Lab 3 DWM
No ratings yet
Lab 3 DWM
5 pages
Lecture 4 Data Pre-Processing
No ratings yet
Lecture 4 Data Pre-Processing
43 pages
Unit 5 Python
No ratings yet
Unit 5 Python
30 pages
Unit V
No ratings yet
Unit V
47 pages
Python Interviews
No ratings yet
Python Interviews
154 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Banking Resume Template
100% (2)
Banking Resume Template
8 pages
DGTIN Assignment
No ratings yet
DGTIN Assignment
20 pages
74ALS00
No ratings yet
74ALS00
4 pages
What Is Artificial Intelligence (AI) - Built in
No ratings yet
What Is Artificial Intelligence (AI) - Built in
22 pages
Log Shipping
No ratings yet
Log Shipping
5 pages
WWW - Bbau.ac - In: Generated On: 17/04/2022 14:34:57
No ratings yet
WWW - Bbau.ac - In: Generated On: 17/04/2022 14:34:57
2 pages
ISO 05456-2-1996 Scan
No ratings yet
ISO 05456-2-1996 Scan
10 pages
The Essential BYOM Manual: Tjalling Jager April 3, 2015
100% (1)
The Essential BYOM Manual: Tjalling Jager April 3, 2015
18 pages
TNMS CT LCT Mode NCT Mode and at CT Mode
No ratings yet
TNMS CT LCT Mode NCT Mode and at CT Mode
2 pages
Kubernetes Programming With Go: Programming Kubernetes Clients and Operators Using Go and The Kubernetes API 1st Edition Philippe Martin Download
No ratings yet
Kubernetes Programming With Go: Programming Kubernetes Clients and Operators Using Go and The Kubernetes API 1st Edition Philippe Martin Download
50 pages
E Commerce Challenges in India
No ratings yet
E Commerce Challenges in India
14 pages
Active Directory
No ratings yet
Active Directory
26 pages
ICT Notes For 1,2&3
No ratings yet
ICT Notes For 1,2&3
8 pages
Settings Provider
No ratings yet
Settings Provider
279 pages
Question Bank (2014) MAM-581, Engineering Mathematics V: Unit#2 16
No ratings yet
Question Bank (2014) MAM-581, Engineering Mathematics V: Unit#2 16
7 pages
This Is A Heading 1 Title For Your Story
No ratings yet
This Is A Heading 1 Title For Your Story
3 pages
Jitter Distribution
No ratings yet
Jitter Distribution
7 pages
Tde Macno Servo kk1
No ratings yet
Tde Macno Servo kk1
140 pages
Electronic Components
No ratings yet
Electronic Components
6 pages
Oracle HRMS Functional Document: Business Group Setup
No ratings yet
Oracle HRMS Functional Document: Business Group Setup
32 pages
Project Write Up
No ratings yet
Project Write Up
42 pages
CS123 00 Mechanics 9.05.19
No ratings yet
CS123 00 Mechanics 9.05.19
19 pages
EE354L: Introduction To Digital Circuits
No ratings yet
EE354L: Introduction To Digital Circuits
8 pages
Oracle Application Express: Developing Database Web Applications
No ratings yet
Oracle Application Express: Developing Database Web Applications
27 pages
The Crowd A Study of The Popular Mind - Gustave Le Bon 1896
100% (1)
The Crowd A Study of The Popular Mind - Gustave Le Bon 1896
251 pages
Ourlog 686
No ratings yet
Ourlog 686
2 pages
Documento Web ISF - The 2018 Standard - Executive Summary
100% (1)
Documento Web ISF - The 2018 Standard - Executive Summary
3 pages
Firomsa Usman For Heineken GTP
No ratings yet
Firomsa Usman For Heineken GTP
2 pages
8086 Interrupts
No ratings yet
8086 Interrupts
22 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Data Cleaning in Python

Uploaded by

Data Cleaning in Python

Uploaded by

DATA CLEANING IN

Identify Missing Values: Fill Missing Values: Drop Missing Values:

Trim Whitespace: Change Case: Format Dates:

Replace Invalid Values: Remove Outliers:

Unify Categories: Split and Combine Columns:

Drop Columns: Drop Rows:

Convert Data Types: Check for Invalid Types:

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.