0% found this document useful (0 votes)

8 views3 pages

Pandas Fuction Notes

The document provides a comprehensive guide on Exploratory Data Analysis (EDA) using Pandas, covering data loading, inspection, cleaning, transformation, visualization, and statistical analysis. It includes techniques for handling time series data, merging datasets, managing duplicates, and optimizing memory usage. Additionally, it addresses advanced operations such as multi-indexing, categorical data handling, and working with JSON and XML files.

Uploaded by

jasskarans078

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views3 pages

Pandas Fuction Notes

Uploaded by

jasskarans078

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Exploratory Data Analysis (EDA) with Pandas

1. Data Loading
• Read CSV File: df = pd.read_csv('filename.csv')
• Read Excel File: df = pd.read_excel('filename.xlsx')
• Read from SQL Database: df = pd.read_sql(query, connection)
2. Basic Data Inspection
• Display Top Rows: df.head()
• Display Bottom Rows: df.tail()
• Display Data Types: df.dtypes
• Summary Statistics: df.describe()
• Display Index, Columns, and Data: df.info()
3. Data Cleaning
• Check for Missing Values: df.isnull().sum()
• Fill Missing Values: df.fillna(value)
• Drop Missing Values: df.dropna()
• Rename Columns: df.rename(columns={'old_name': 'new_name'})
• Drop Columns: df.drop(columns=['column_name'])
4. Data Transformation
• Apply Function: df['column'].apply(lambda x: function(x))
• Group By and Aggregate: df.groupby('column').agg({'column': 'sum'})
• Pivot Tables: df.pivot_table(index='column1', values='column2', aggfunc='mean')
• Merge DataFrames: pd.merge(df1, df2, on='column')
• Concatenate DataFrames: pd.concat([df1, df2])
5. Data Visualization Integration
• Histogram: df['column'].hist()
• Boxplot: df.boxplot(column=['column1', 'column2'])
• Scatter Plot: df.plot.scatter(x='col1', y='col2')
• Line Plot: df.plot.line()
• Bar Chart: df['column'].value_counts().plot.bar()
6. Statistical Analysis
• Value Counts: df['column'].value_counts()
• Unique Values in Column: df['column'].unique()
• Number of Unique Values: df['column'].nunique()
7. Indexing and Selection
• Select Column: df['column']
• Select Multiple Columns: df[['col1', 'col2']]
• Select Rows by Position: df.iloc[0:5]
• Select Rows by Label: df.loc[0:5]
• Conditional Selection: df[df['column'] > value]
8. Data Formatting and Conversion
• Convert Data Types: df['column'].astype('type')
• String Operations: df['column'].str.lower()
• Datetime Conversion: pd.to_datetime(df['column'])
• Setting Index: df.set_index('column')
9. Handling Time Series Data
• Set Datetime Index: df.set_index(pd.to_datetime(df['date']))
• Resampling Data: df.resample('M').mean()
• Rolling Window Operations: df.rolling(window=5).mean()
10. File Export
• Write to CSV: df.to_csv('filename.csv')
• Write to Excel: df.to_excel('filename.xlsx')
• Write to SQL Database: df.to_sql('table_name', connection)
11. Advanced Data Queries
• Query Function: df.query('column > value')
• Filtering with isin: df[df['column'].isin([value1, value2])]
12. Memory Optimization
• Reducing Memory Usage: df.memory_usage(deep=True)
• Change Data Types to Save Memory: df['column'].astype('category')
13. Multi-Index Operations
• Creating MultiIndex: df.set_index(['col1', 'col2'])
• Slicing on MultiIndex: df.loc[(slice('index1_start', 'index1_end'),
• slice('index2_start', 'index2_end'))]
14. Data Merging Techniques
• Outer Join: pd.merge(df1, df2, on='column', how='outer')
• Inner Join: pd.merge(df1, df2, on='column', how='inner')
• Left Join: pd.merge(df1, df2, on='column', how='left')
• Right Join: pd.merge(df1, df2, on='column', how='right')
15. Dealing with Duplicates
• Finding Duplicates: df.duplicated()
• Removing Duplicates: df.drop_duplicates()
16. Specialized Data Types Handling
• Working with Categorical Data: df['column'].astype('category')
17. Advanced Grouping and Aggregation
• Group by Multiple Columns: df.groupby(['col1', 'col2']).mean()
• Aggregate with Multiple Functions: df.groupby('col').agg(['mean','sum'])
• Transform Function: df.groupby('col').transform(lambda x: x - x.mean())
18. Time Series Specific Operations
• Time-Based Grouping: df.groupby(pd.Grouper(key='date_col',freq='M')).sum()
• Resample Time Series Data: df.resample('M', on='date_col').mean()
19. Text Data Specific Operations
• String Contains: df[df['column'].str.contains('substring')]
• String Split: df['column'].str.split(' ', expand=True)
• Regular Expression Extraction: df['column'].str.extract(r'(regex)')
20. Working with JSON and XML
• Reading JSON: df = pd.read_json('filename.json')
• Reading XML: df = pd.read_xml('filename.xml')
21. Advanced File Handling
• Read CSV with Specific Delimiter: df = pd.read_csv('filename.csv', delimiter=';')
• Writing to JSON: df.to_json('filename.json')
22. Dealing with Missing Data
• Interpolate Missing Values: df['column'].interpolate()
• Forward Fill Missing Values: df['column'].ffill()
• Backward Fill Missing Values: df['column'].bfill()
23. Data Reshaping
• Wide to Long Format: pd.wide_to_long(df, ['col'], i='id_col', j='year')
• Long to Wide Format: df.pivot(index='id_col', columns='year', values='col')
24. Categorical Data Operations
• Convert Column to Categorical: df['column'] = df['column'].astype('category')
• Order Categories: df['column'].cat.set_categories(['cat1', 'cat2'], ordered=True)
25. Advanced Indexing
• Reset Index: df.reset_index(drop=True)
• Set Multiple Indexes: df.set_index(['col1', 'col2'])
• MultiIndex Slicing: df.xs(key='value', level='level_name')
26. Handling Large Data Efficiently
• Dask Integration for Large Data: import dask.dataframe as dd; ddf = dd.from_pandas(df,
npartitions=10)
• Sampling Data for Quick Insights: df.sample(n=1000)
27. Advanced Data Merging
• SQL-like Joins: pd.merge(df1, df2, how='left', on='col')
• Concatenating Along a Different Axis: pd.concat([df1, df2], axis=1)

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Norman G. Finkelstein - The Rise and Fall of Palestine - A Personal Account of The Intifada Years-University of Minnesota Press (1996)
67% (3)
Norman G. Finkelstein - The Rise and Fall of Palestine - A Personal Account of The Intifada Years-University of Minnesota Press (1996)
14 pages
EX200 Red Hat Certified System Administrator (RHCSA) Exam - 112016
No ratings yet
EX200 Red Hat Certified System Administrator (RHCSA) Exam - 112016
17 pages
Pandas Cheat Sheet PDF
67% (3)
Pandas Cheat Sheet PDF
1 page
Learning Pandas PDF
No ratings yet
Learning Pandas PDF
171 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
EDA with Pandas
No ratings yet
EDA with Pandas
8 pages
Important Pandas Operations 1697910759
No ratings yet
Important Pandas Operations 1697910759
6 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
EDA Python for Data Analsis
No ratings yet
EDA Python for Data Analsis
10 pages
Pandas_Dataframe_All_Operations_1735471870
No ratings yet
Pandas_Dataframe_All_Operations_1735471870
4 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
60 pages
What is pandas
No ratings yet
What is pandas
9 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
5 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
Introduction To Pandas
No ratings yet
Introduction To Pandas
27 pages
ELT Using Pandas
No ratings yet
ELT Using Pandas
5 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
Unit-2 Bda
No ratings yet
Unit-2 Bda
11 pages
Supermarket Sales Data analysis
No ratings yet
Supermarket Sales Data analysis
6 pages
Pandas_Notes_Design
No ratings yet
Pandas_Notes_Design
5 pages
Data Wrangling With Dask CheatSheet 1731972488
No ratings yet
Data Wrangling With Dask CheatSheet 1731972488
7 pages
pandas_notes
No ratings yet
pandas_notes
8 pages
Introduction to Pandas Programming 2
No ratings yet
Introduction to Pandas Programming 2
3 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
Pandas_Tutorial
No ratings yet
Pandas_Tutorial
9 pages
Introduction To Pandas in Data Analytics
No ratings yet
Introduction To Pandas in Data Analytics
12 pages
DAP writeups_merged
No ratings yet
DAP writeups_merged
33 pages
Comprehensive EDA Python Guide
No ratings yet
Comprehensive EDA Python Guide
13 pages
Data_Engineer_Interview__1740985064
No ratings yet
Data_Engineer_Interview__1740985064
14 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
Data Science Cheat Sheet: KEY Imports
100% (1)
Data Science Cheat Sheet: KEY Imports
1 page
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
14oct Pandas 2024
No ratings yet
14oct Pandas 2024
13 pages
Informatics Practices Practical File
No ratings yet
Informatics Practices Practical File
8 pages
FDS Module 2 Notes
No ratings yet
FDS Module 2 Notes
24 pages
Pandas
No ratings yet
Pandas
26 pages
2. advanced analytic techniques
No ratings yet
2. advanced analytic techniques
2 pages
pandas_Trick_ques
No ratings yet
pandas_Trick_ques
2 pages
Pandas Notes
No ratings yet
Pandas Notes
3 pages
DevOps Session 3 Pandas.pptx
No ratings yet
DevOps Session 3 Pandas.pptx
33 pages
Python Cheat Sheet Code Academy
100% (1)
Python Cheat Sheet Code Academy
1 page
dataframing_in_csv
No ratings yet
dataframing_in_csv
14 pages
Usage of NumPy for Numerical Data in Detail
No ratings yet
Usage of NumPy for Numerical Data in Detail
52 pages
exp3 python (1)
No ratings yet
exp3 python (1)
15 pages
Pandas 1702216043
No ratings yet
Pandas 1702216043
86 pages
Python Quick Notes
No ratings yet
Python Quick Notes
2 pages
Pandas CheatSheet
No ratings yet
Pandas CheatSheet
18 pages
a5
No ratings yet
a5
28 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
100 Puzzles to Learn Data Warehousing
From Everand
100 Puzzles to Learn Data Warehousing
Cristian Scutaru
No ratings yet
Learn C++
From Everand
Learn C++
Durgesh
4.5/5 (9)
Administering Microsoft Azure SQL Solutions DP 300
From Everand
Administering Microsoft Azure SQL Solutions DP 300
Manish Soni
No ratings yet
SQL Server Architecture
No ratings yet
SQL Server Architecture
20 pages
Data Science Assesment 1-2
No ratings yet
Data Science Assesment 1-2
6 pages
Nitish Steps To Install Hadoop
No ratings yet
Nitish Steps To Install Hadoop
3 pages
Project Proposal Form
No ratings yet
Project Proposal Form
2 pages
DBMS _PRESENTATIONS_SE_C_FH2025
No ratings yet
DBMS _PRESENTATIONS_SE_C_FH2025
14 pages
Application Controls
100% (1)
Application Controls
3 pages
Ocs352-Iot Book-69-71
No ratings yet
Ocs352-Iot Book-69-71
3 pages
Dbmsexperiment 5
No ratings yet
Dbmsexperiment 5
9 pages
Job Description
No ratings yet
Job Description
1 page
TP 3 REGLO
No ratings yet
TP 3 REGLO
7 pages
7.2. File Test Operators: Advanced Bash-Scripting Guide
No ratings yet
7.2. File Test Operators: Advanced Bash-Scripting Guide
4 pages
Installationof Hadoop 3
No ratings yet
Installationof Hadoop 3
6 pages
Database Management System 2008-4-4 0
No ratings yet
Database Management System 2008-4-4 0
3 pages
Data Analyst Roadmap New
No ratings yet
Data Analyst Roadmap New
9 pages
Power BI Interview Questions and Answers For 2020
No ratings yet
Power BI Interview Questions and Answers For 2020
10 pages
Md070-Pdh Rtods Interface 47782
No ratings yet
Md070-Pdh Rtods Interface 47782
49 pages
Module5 Database Management Sustems
No ratings yet
Module5 Database Management Sustems
5 pages
Logcat CSC Update Log
No ratings yet
Logcat CSC Update Log
1,789 pages
Bms DFD
No ratings yet
Bms DFD
21 pages
Advanced Excel - Power Pivot - Tutorialspoint
No ratings yet
Advanced Excel - Power Pivot - Tutorialspoint
9 pages
Cafe Management Project
No ratings yet
Cafe Management Project
3 pages
BSL SQL Training Part I
No ratings yet
BSL SQL Training Part I
127 pages
MT6763 Android Scatter
No ratings yet
MT6763 Android Scatter
11 pages
Database Concepts 6th Edition Edition David M. Kroenke - Quickly access the ebook and start reading today
100% (1)
Database Concepts 6th Edition Edition David M. Kroenke - Quickly access the ebook and start reading today
62 pages
Database Setup
No ratings yet
Database Setup
11 pages
Teradata Informatica Best Practices
100% (1)
Teradata Informatica Best Practices
22 pages
Project Report - (Editing Tool) : Ritu Munshi
No ratings yet
Project Report - (Editing Tool) : Ritu Munshi
73 pages
Q1. What Is Auto-Scaling
No ratings yet
Q1. What Is Auto-Scaling
38 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Pandas Fuction Notes

Uploaded by

Pandas Fuction Notes

Uploaded by

Exploratory Data Analysis (EDA) with Pandas

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.