0% found this document useful (0 votes)

8 views

Introduction To Pandas in Data Analytics

Introduction To Pandas In Data Analytics

Uploaded by

Wael Aly

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views

Introduction To Pandas in Data Analytics

Introduction To Pandas In Data Analytics

Uploaded by

Wael Aly

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 12

Introduction to

Pandas in Data
Analytics
Pandas DataFrame is an essential tool for data analysis in Python, offering
a powerful and flexible tabular data structure.

1 Labeled Axes
Pandas DataFrame provides a two-dimensional, size-mutable, and
potentially heterogeneous tabular data structure with labeled rows
and columns.

2 Data Analysis
Commonly used alongside NumPy and Matplotlib for
comprehensive data manipulation and visualization.

3 Essential for Python

Pandas DataFrame is a core component of the Python data analysis
ecosystem.

python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
Loading Data into a
DataFrame
Methods for loading data from various sources into a DataFrame. Code
Snippets:

From CSV
df_csv = pd.read_csv('file.csv')

From Excel
df_excel = pd.read_excel('file.xlsx', sheet_name='Sheet1')

From MySQL
import sqlalchemy engine =
sqlalchemy.create_engine('mysql://username:password@localhost/dbnam
e')

df_sql = pd.read_sql_table('table_name', engine)

DataFrame and Series Objects
DataFrame: A two-dimensional table with labeled axes. Series: A one-dimensional array with labels. Index objects:
Immutable array implementing an ordered, sliceable set.

Example DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

Example Series
s = pd.Series([1, 2, 3])
Working with Rows and
Columns
Content: Accessing and manipulating rows and columns. Selecting, adding, and deleting rows and columns.

Selecting a column

df['A']

Adding a new column

df['C'] = df['A'] + df['B']

Deleting a column

df.drop('C', axis=1, inplace=True)

Selecting rows

df.loc[0] # First row df.iloc[0] # First row by position

Indexing and Selecting Data

Content: Indexing with .loc, .iloc, and .ix. Vectorized arithmetic operations.

Using .loc

df.loc[0:1, ['A', 'B']]

Using .iloc

df.iloc[0:1, 0:2]

Vectorized operations

df['A'] + df['B']
Filtering and Filtering
Grouping filtered = df[df['A'] > 1]

Content:
Grouping
Filtering functions and grouping by row index.

grouped = df.groupby('A').sum()
Merging DataFrames Title: Merging
DataFrames
Merging DataFrames using pd.merge(). Types of joins: inner, outer, left, right. Code Snippets:

Creating two DataFrames

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})

df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

Inner join
inner_merge = pd.merge(df1, df2, on='key', how='inner')

Outer join
outer_merge = pd.merge(df1, df2, on='key', how='outer')

Left join
left_merge = pd.merge(df1, df2, on='key', how='left')

Right join
right_merge = pd.merge(df1, df2, on='key', how='right')

Concatenating DataFrames Title: Concatenating DataFrames

Concatenating DataFrames using pd.concat(). Concatenating along rows and columns. Code Snippets:

Concatenating along rows

concat_rows = pd.concat([df1, df2])

Concatenating along columns

concat_cols = pd.concat([df1, df2], axis=1)
Joining DataFrames Title: Joining
DataFrames
Joining DataFrames using df.join(). Different types of joins: inner, outer, left, right.

Code Snippets:

Creating two DataFrames with different

indexes
df1 = pd.DataFrame({'value1': [1, 2, 3]}, index=['A', 'B', 'C'])

df2 = pd.DataFrame({'value2': [4, 5, 6]}, index=['B', 'C', 'D'])

Joining DataFrames
joined_df = df1.join(df2, how='inner')

Grouping and Aggregating Data Title: Grouping and

Aggregating Data
Grouping data using df.groupby(). Aggregating data using sum, mean, count, etc.

Code Snippets:

Creating a DataFrame
df = pd.DataFrame({ 'Category': ['A', 'B', 'A', 'B'], 'Value': [10, 20, 30, 40] })

Grouping by 'Category' and calculating

sum
grouped_sum = df.groupby('Category').sum()

Grouping by 'Category' and calculating

multiple aggregations
grouped_agg = df.groupby('Category').agg({'Value': ['sum', 'mean', 'count']})
Filtering Data Title: Filtering Data
Filtering data using conditions. Using df.query() for SQL-like queries.

Code Snippets:

Filtering with conditions

filtered_df = df[df['Value'] > 20]

Using query
filtered_query = df.query('Value > 20')

Sorting Data Title: Sorting Data

Sorting data using df.sort_values() and df.sort_index().

Code Snippets:

Sorting by values
sorted_values = df.sort_values(by='Value')

Sorting by index
sorted_index = df.sort_index()

Handling Missing Data Title: Handling Missing Data

Handling missing data with df.isna(), df.dropna(), and df.fillna().

Code Snippets:

Creating a DataFrame with missing values

df_missing = pd.DataFrame({ 'A': [1, np.nan, 3], 'B': [4, 5, np.nan] })

Checking for missing values

missing_values = df_missing.isna()

Dropping missing values

dropped_na = df_missing.dropna()

Filling missing values

filled_na = df_missing.fillna(0)
Saving and Exporting
DataFrames
Content:

Saving DataFrames to various formats. Code Snippets:

To CSV
df.to_csv('output.csv')

To Excel
df.to_excel('output.xlsx', sheet_name='Sheet1')

To Python dictionary
df_dict = df.to_dict()

To string
df_str = df.to_string()

To MySQL
df.to_sql('table_name', engine)

DataFrame Attributes and

Methods
Non-indexing attributes. Utility methods. Code Snippets:

Non-indexing attributes
df.T

df.axes

df.dtypes

df.empty

df.ndim

df.shape

df.size

df.values

Utility methods
df_copy = df.copy()

df_ranked = df.rank()

df_sorted = df.sort_values(by='A')

df = df.astype({'A': 'float64'})
Iterating Over DataFrames Title: Iterating
Over DataFrames
Methods for iterating over DataFrames.

Iterating over columns

for label, content in df.iteritems():

print(label, content)

Iterating over rows

for index, row in df.iterrows():

print(index, row)

Working with Dates and Times Title: Working with

Dates and Time
Timestamps and Periods. Handling time zones, date ranges, and period frequencies. Code Snippets:

Timestamps
ts = pd.Timestamp('2023-01-01')

Periods
period = pd.Period('2023-01')

Date range
date_range = pd.date_range('2023-01-01', periods=10)

Period range
period_range = pd.period_range('2023-01', periods=10, freq='M')

Pivot Tables and Reshaping Data Title: Pivot Tables

and Reshaping Data
Pivoting, melting, and unstacking. Code Snippets:

Pivot table
pivot = df.pivot_table(values='A', index='B', columns='C')

Melting
melted = pd.melt(df, id_vars=['A'], value_vars=['B', 'C'])

Unstacking
unstacked = df.unstack()
Slide 13: Time Series Data Title: Time Series
Data
Handling time series data with DatetimeIndex and PeriodIndex. Upsampling, downsampling, and resampling. Code
Snippets:

DatetimeIndex
dt_index = pd.DatetimeIndex(['2023-01-01', '2023-01-02'])

PeriodIndex
period_index = pd.PeriodIndex(['2023-01', '2023-02'], freq='M')

Resampling
resampled = df.resample('M').mean()

Additional Tips and Tricks Title: Additional Tips and

Tricks
Miscellaneous tips for working with DataFrames. Code Snippets:

Value counts
value_counts = df['A'].value_counts()

Non-standard string to Timestamp

conversion
ts = pd.to_datetime('2023-01-01 12:34:56', format='%Y-%m-%d %H:%M:%S')
Conclusion

Content:

Key Points Summary:

Introduction to Pandas DataFrame: Understanding the basic structure and importance.

Loading Data: Methods to load data from various sources into DataFrames.
DataFrame and Series Objects: Differences and usage.
Working with Rows and Columns: Accessing, selecting, and modifying data.
Indexing and Selecting Data: Using .loc, .iloc, and vectorized operations.
Saving and Exporting: Exporting DataFrames to different formats.
Attributes and Methods: Key attributes and utility methods.
Iterating Over DataFrames: Methods to iterate through rows and columns.
Dates and Times: Handling date and time data.
Pivot Tables and Reshaping: Techniques for reshaping data.
Filtering and Grouping: Data filtering and aggregation.

Time Series Data: Managing and manipulating time series data.

SQL-like Operations: Merging, joining, concatenating, and advanced operations.
Handling Missing Data: Methods to detect and handle missing values.
Pandas is a powerful tool: Pandas provides versatile and efficient methods to handle, manipulate, and analyze
data, making it a cornerstone of data science and analysis in Python.

Snowflake Resume
No ratings yet
Snowflake Resume
4 pages
Chapter 1 Database Systems
No ratings yet
Chapter 1 Database Systems
41 pages
Official Practice Question Set
No ratings yet
Official Practice Question Set
32 pages
99c949c0-5910-425f-9ac5-155882800fa5
No ratings yet
99c949c0-5910-425f-9ac5-155882800fa5
36 pages
Loki Temp PPT Pandas 2
No ratings yet
Loki Temp PPT Pandas 2
31 pages
Pandas
No ratings yet
Pandas
94 pages
FDS Module 2 Notes
No ratings yet
FDS Module 2 Notes
24 pages
Pandas
No ratings yet
Pandas
13 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
What is pandas
No ratings yet
What is pandas
9 pages
Pandas
No ratings yet
Pandas
4 pages
DevOps Session 3 Pandas.pptx
No ratings yet
DevOps Session 3 Pandas.pptx
33 pages
Python Pandas Tutorial For Beginners
No ratings yet
Python Pandas Tutorial For Beginners
203 pages
Pandas Notes
No ratings yet
Pandas Notes
4 pages
Introduction To Pandas For Data Analysis
No ratings yet
Introduction To Pandas For Data Analysis
6 pages
Pandas
No ratings yet
Pandas
25 pages
python 2.1.2 (2)
No ratings yet
python 2.1.2 (2)
7 pages
Pandas
No ratings yet
Pandas
9 pages
Data Wrangling With Python and Pandas
No ratings yet
Data Wrangling With Python and Pandas
7 pages
Phan1_Pandas_Numpy_Matplotlib
No ratings yet
Phan1_Pandas_Numpy_Matplotlib
158 pages
Introduction to Pandas Programming 2
No ratings yet
Introduction to Pandas Programming 2
3 pages
python 2.1.3 (2)
No ratings yet
python 2.1.3 (2)
6 pages
python unit 3 4
No ratings yet
python unit 3 4
92 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
The Pandas Library
No ratings yet
The Pandas Library
39 pages
All Document Reader 1715619870900
No ratings yet
All Document Reader 1715619870900
6 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
60 pages
Lab-3 Pandas Library
No ratings yet
Lab-3 Pandas Library
14 pages
Pandas For Data Science
No ratings yet
Pandas For Data Science
42 pages
IV Unit Fds
No ratings yet
IV Unit Fds
16 pages
Pandas_Notes
No ratings yet
Pandas_Notes
6 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
13 pages
Chapter-2 Python Pandas
100% (2)
Chapter-2 Python Pandas
33 pages
Introduction To Pandas
No ratings yet
Introduction To Pandas
27 pages
Pandas
No ratings yet
Pandas
13 pages
Pandas_Notes_Design
No ratings yet
Pandas_Notes_Design
5 pages
Reference Guide - Pandas Tools For Structuring A Dataset
No ratings yet
Reference Guide - Pandas Tools For Structuring A Dataset
5 pages
pandas_merged
No ratings yet
pandas_merged
2 pages
Chapter 2 Python Pandas - II
No ratings yet
Chapter 2 Python Pandas - II
19 pages
On Data Handling Using Pandas-I
100% (2)
On Data Handling Using Pandas-I
63 pages
Pandas Data Structures: Sections
No ratings yet
Pandas Data Structures: Sections
13 pages
7 Days Analytics Course 3feiz7 4
No ratings yet
7 Days Analytics Course 3feiz7 4
8 pages
Pandas 1705297450
No ratings yet
Pandas 1705297450
21 pages
Python Pandas Demo PDF
100% (2)
Python Pandas Demo PDF
23 pages
Pandas: Import
100% (1)
Pandas: Import
13 pages
Pandas_Dataframe_All_Operations_1735471870
No ratings yet
Pandas_Dataframe_All_Operations_1735471870
4 pages
1501992967_1496666168_Pandas
No ratings yet
1501992967_1496666168_Pandas
63 pages
Pandas
No ratings yet
Pandas
5 pages
Pandas Dataframe Export The CSV File
No ratings yet
Pandas Dataframe Export The CSV File
9 pages
JOINS (1)
No ratings yet
JOINS (1)
10 pages
Pandas CheatSheet
No ratings yet
Pandas CheatSheet
18 pages
05Getting Started With Pandas
No ratings yet
05Getting Started With Pandas
44 pages
Python Pandas Presentation
No ratings yet
Python Pandas Presentation
32 pages
Introduction to pandas
No ratings yet
Introduction to pandas
14 pages
3Y3Z2Xzqn7 U Y%K : 2. How To Create A Data Frame Using A Dictionary of Pre-Existing Columns or Numpy 2D Arrays?
No ratings yet
3Y3Z2Xzqn7 U Y%K : 2. How To Create A Data Frame Using A Dictionary of Pre-Existing Columns or Numpy 2D Arrays?
8 pages
Pandas
No ratings yet
Pandas
44 pages
Pandas - Digitalocean
No ratings yet
Pandas - Digitalocean
15 pages
Pandas
No ratings yet
Pandas
29 pages
1 Data Handling Using Pandas 1
No ratings yet
1 Data Handling Using Pandas 1
63 pages
Python CSBS Bhavya Lab Manual
No ratings yet
Python CSBS Bhavya Lab Manual
14 pages
2_Pandas
No ratings yet
2_Pandas
22 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Case of Amazone PDF
No ratings yet
Case of Amazone PDF
27 pages
TOEFL
No ratings yet
TOEFL
96 pages
Facebook Inc PDF
100% (1)
Facebook Inc PDF
42 pages
Corporate Social Responsibility - Nestle
No ratings yet
Corporate Social Responsibility - Nestle
2 pages
Ford Comeback
No ratings yet
Ford Comeback
2 pages
PL Lab Manual-1
No ratings yet
PL Lab Manual-1
20 pages
Lab Sheet 3
No ratings yet
Lab Sheet 3
6 pages
Sagar Singh Rawat Resume
No ratings yet
Sagar Singh Rawat Resume
1 page
Excel Lengkap VIDEO
No ratings yet
Excel Lengkap VIDEO
7 pages
Automatic Pain Estimation From Facial Expressions A Comparative Analysis Using Off The Self CNN Architecture
No ratings yet
Automatic Pain Estimation From Facial Expressions A Comparative Analysis Using Off The Self CNN Architecture
13 pages
Platform Developer-2 SU18
No ratings yet
Platform Developer-2 SU18
42 pages
Business Analyst Interview Questions
No ratings yet
Business Analyst Interview Questions
4 pages
Oracle Transcender 1Z0-071 Vce Download V2019-Apr-13 by Barlow 66q Vce
No ratings yet
Oracle Transcender 1Z0-071 Vce Download V2019-Apr-13 by Barlow 66q Vce
8 pages
Data Analysis
No ratings yet
Data Analysis
2 pages
PACiS SMT Overview
0% (1)
PACiS SMT Overview
18 pages
Installation Setup and Backup Recovery
No ratings yet
Installation Setup and Backup Recovery
10 pages
Assignment of CS Class XII
No ratings yet
Assignment of CS Class XII
9 pages
Edpm Typing
No ratings yet
Edpm Typing
2 pages
Vishal-Sharma - Devops Resume - Feb 24
No ratings yet
Vishal-Sharma - Devops Resume - Feb 24
4 pages
Document 2539778.1Upgradeto19C NON CDB
No ratings yet
Document 2539778.1Upgradeto19C NON CDB
15 pages
FSLC Fiche GillesThomas
No ratings yet
FSLC Fiche GillesThomas
2 pages
When A Transport Request Is Released
No ratings yet
When A Transport Request Is Released
4 pages
CAP Classification System Final
No ratings yet
CAP Classification System Final
22 pages
Becoming a full-stack developer with Java involves mastering both front-en_20241230_120340_0000
No ratings yet
Becoming a full-stack developer with Java involves mastering both front-en_20241230_120340_0000
26 pages
AnilKumar Profile
No ratings yet
AnilKumar Profile
4 pages
Wytrt
No ratings yet
Wytrt
4 pages
Document 1380989-BLOB.1
No ratings yet
Document 1380989-BLOB.1
3 pages
SP Trace Setevent
No ratings yet
SP Trace Setevent
13 pages
Business Context PROJECT PDF
No ratings yet
Business Context PROJECT PDF
3 pages
DBA Sheet v5.8
No ratings yet
DBA Sheet v5.8
419 pages
Textile Shop Management System
100% (3)
Textile Shop Management System
51 pages
241ICS202Assignment-4 (1)
No ratings yet
241ICS202Assignment-4 (1)
3 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Introduction To Pandas in Data Analytics

Uploaded by

Introduction To Pandas in Data Analytics

Uploaded by

Introduction to

3 Essential for Python

df_sql = pd.read_sql_table('table_name', engine)

Adding a new column

df['C'] = df['A'] + df['B']

df.drop('C', axis=1, inplace=True)

df.loc[0] # First row df.iloc[0] # First row by position

Indexing and Selecting Data

df.loc[0:1, ['A', 'B']]

Creating two DataFrames

df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

Concatenating DataFrames Title: Concatenating DataFrames

Concatenating along rows

Concatenating along columns

Creating two DataFrames with different

df2 = pd.DataFrame({'value2': [4, 5, 6]}, index=['B', 'C', 'D'])

Grouping and Aggregating Data Title: Grouping and

Grouping by 'Category' and calculating

Grouping by 'Category' and calculating

Filtering with conditions

Sorting Data Title: Sorting Data

Handling Missing Data Title: Handling Missing Data

Creating a DataFrame with missing values

Checking for missing values

Dropping missing values

Filling missing values

Saving DataFrames to various formats. Code Snippets:

DataFrame Attributes and

Iterating over columns

Iterating over rows

Working with Dates and Times Title: Working with

Pivot Tables and Reshaping Data Title: Pivot Tables

Additional Tips and Tricks Title: Additional Tips and

Non-standard string to Timestamp

Key Points Summary:

Time Series Data: Managing and manipulating time series data.

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.