0% found this document useful (0 votes)

10 views

Introduction to Data Science

Data science is a rapidly growing field focused on data-driven decision-making, leveraging data availability, computational power, and advanced algorithms. It encompasses a life cycle that includes data collection, cleansing, analysis, and model deployment, requiring domain knowledge, programming skills, and mathematical understanding. Key processes like data extraction and cleaning are essential for ensuring high-quality data for accurate predictions and insights.

Uploaded by

Yasiru

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views

Introduction to Data Science

Uploaded by

Yasiru

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 23

Introduction to Data

Science
Introduction
• Data science is a buzz word
• One of trending and hot topic now a days
• Why?
• Data availability
• Computational power
• Newly implemented algorithms
• Mainly companies are focused on “Data Driven Decisions”
What is data
science
• It is a paradigm changing term
• Lot of definitions
• An overview,
• Collection of data sets
• Focused on many aspects such as data
cleansing, data wrangling
• A life cycle to get more clear data
• More advanced techniques involved
• Big Data
• Data Mining
More…

• To perform well on data science, you

will need
• Domain knowledge
• Programming skills
• Math/Statistics
• By using data science organizations
would,
• Improving decision marking
• Predictions
• Start with a problem / Define a hypothesis
Data science is hard
• Collect data
down to specific
• Clean data
flow. But general • Perform other relevant activities. (E.g. – Data
workflow can define imputation, Normalizing )
as below. • Analyze data ( Pattern mining, Data mining)
• Represent the result - Present the result with useful
insights in a way the "company" can understand.
• Take your data set to AI (Apply for an appropriate
algorithm for prediction, classification etc.)
What is data?

Will start
with What is information

data Structured
Common formats data
of data existence Unstructured
data
Image Credit - https://i1.wp.com/24pc.com.au/wp-content/uploads/2020/05/Structured-Data-Infographic.png?ssl=1
Steps required to follow for a
predictive analytical project
• Data extraction
• Data cleansing
• Exploratory Data Analysis Mostly focused on curating most acceptable dataset for the
• Data preprocessing problem
• Feature engineering
• Feature selection
• Data Analysis
• Model building Solve the problem using algorithms/techniques
• Model validation
• Model deployment
Maintain the model
• Monitoring the model
Data
Extraction
Introduction
• Data extraction is the process of
retrieving or "pulling out" data
from various sources and
converting it into a structured
format for analysis.
Extracting data

Interviews

Questionaries/Surveys

APIs

Cookies
Icebreaker
https://forms.gle/xCRDLrY4nuW7AvZZ9
Data Extraction
methods
Here are some common methods used for data extraction:
• Surveys: Surveys involve asking a set of questions to a sample
of individuals, either through face-to-face interviews, phone
calls, or online questionnaires.
• Interviews: Interviews involve one-on-one conversations with
individuals or groups, often in a structured or semi-structured
format.
• Observation: Observational methods involve observing and
recording the behavior of individuals or groups in a natural or
controlled setting.
More…
• Experiments: Experiments involve manipulating one or more variables and
observing the effect on other variables, often in a controlled laboratory setting.
• Case studies: Case studies involve in-depth analysis of a single individual, group,
or event, often using multiple sources of data.
• Secondary data sources: Secondary data sources involve using existing data that
has been collected for other purposes, such as government statistics, academic
research, or social media data.
• File parsing: File parsing involves extracting data from various file formats, such as
CSV, XML, or JSON, using programming languages or software tools.
• OCR (Optical Character Recognition): OCR involves converting scanned images or
PDF files into machine-readable text using software tools.
More…
• Sensor data: Sensor data involves collecting data from devices, such
as smartphones, wearables, or IoT devices, that record various types
of information, such as location, activity, or physiological signals.
• Manual data entry: Manual data entry involves manually extracting
data from paper documents or digital sources and entering it into a
structured format.
More…
• Web scraping: Web scraping involves automatically extracting data
from websites by writing programs that can navigate through web
pages, parse the HTML code, and extract the relevant data.
• Database queries: Database queries involve writing SQL (Structured
Query Language) queries to extract data from databases based on
specific criteria.
• APIs (Application Programming Interfaces): APIs are interfaces that
allow programs to interact with other software applications, such as
social media platforms, to extract data in a structured format.
Data cleaning
Introduction
• Data cleaning involves identifying and correcting errors,
inconsistencies, missing values, and other issues in the data
• Primary purpose is to improve its quality and reliability
• This phase is essential for making accurate predictions and
decisions making
• Removing duplicates: This involves identifying and
removing rows that contain duplicate data.
• Handling missing values: This involves identifying
missing data and either removing rows or filling in
the missing values using techniques such as mean
imputation, median imputation, or interpolation.
• Removing outliers: This involves identifying extreme
values that are far from the average and either
Techniques removing them or transforming them to be more in
line with the rest of the data.
• Standardizing data: This involves converting data into
a common format or scale so that it can be
compared and analyzed more easily.
• Encoding categorical variables: This involves
converting categorical data into numerical form so
that it can be used in machine learning algorithms.
• Data auditing: This involves examining the data to identify
potential issues, such as missing values, duplicates, outliers,
inconsistencies, and formatting errors.
• Data correction: This involves correcting errors and
inconsistencies in the data, such as fixing typos, standardizing
the format of data, and filling in missing values.
• Data transformation: This involves transforming the data into a
format that is suitable for analysis by applying techniques such
steps as feature scaling, normalization, encoding categorical
variables, and reducing dimensionality.
• Data integration: This involves combining data from multiple
sources to create a single dataset, which may involve resolving
differences in variable names, formats, and units of
measurement.
• Data verification: This involves verifying that the data has been
cleaned and transformed correctly and that there are no
remaining errors or inconsistencies.
Practical

RR 446 G
No ratings yet
RR 446 G
8 pages
Unit-2
No ratings yet
Unit-2
21 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
33 pages
Data Mining
No ratings yet
Data Mining
22 pages
Unit 3
No ratings yet
Unit 3
18 pages
Introduction to Data Science
No ratings yet
Introduction to Data Science
29 pages
CSC 3301-Lecture06 Introduction To Machine Learning
No ratings yet
CSC 3301-Lecture06 Introduction To Machine Learning
56 pages
22UCS303 DS-Unit II-N
No ratings yet
22UCS303 DS-Unit II-N
71 pages
Lecture 2 The data science process and tools for each step
No ratings yet
Lecture 2 The data science process and tools for each step
8 pages
Unit - III DW
No ratings yet
Unit - III DW
14 pages
Unit 2 Data Gathering
No ratings yet
Unit 2 Data Gathering
14 pages
Unit 1 - Exploratory Data Analysis Fundamentals
No ratings yet
Unit 1 - Exploratory Data Analysis Fundamentals
47 pages
Data Mining Basics
No ratings yet
Data Mining Basics
52 pages
UNIT _ Introduction_DataScience_new (1)
No ratings yet
UNIT _ Introduction_DataScience_new (1)
55 pages
Data Mining Basics
No ratings yet
Data Mining Basics
38 pages
Data Science 2
No ratings yet
Data Science 2
55 pages
Unit 2 PPT (BA)
No ratings yet
Unit 2 PPT (BA)
33 pages
Intro To Data Analytics - Cleanup & Transformation
No ratings yet
Intro To Data Analytics - Cleanup & Transformation
30 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
11 pages
Data Science S3mca
No ratings yet
Data Science S3mca
55 pages
L3
No ratings yet
L3
34 pages
Disruptive Technologies DA Lecture 8
No ratings yet
Disruptive Technologies DA Lecture 8
17 pages
Foundations of Data Science
No ratings yet
Foundations of Data Science
139 pages
Down 2
No ratings yet
Down 2
61 pages
1-Introduction to data cleaning
No ratings yet
1-Introduction to data cleaning
22 pages
Module 2
No ratings yet
Module 2
8 pages
SML Updated UNIT-2
No ratings yet
SML Updated UNIT-2
43 pages
Summary Business Analytics
No ratings yet
Summary Business Analytics
24 pages
2 Data Preprocessing
No ratings yet
2 Data Preprocessing
57 pages
21BCAD5C01 IDA Module 2 Notes
No ratings yet
21BCAD5C01 IDA Module 2 Notes
16 pages
Lecture 3 Unit 1
No ratings yet
Lecture 3 Unit 1
61 pages
Data Analytics 1
No ratings yet
Data Analytics 1
4 pages
Data Science PPT Module 1
100% (1)
Data Science PPT Module 1
24 pages
Unit - 1
No ratings yet
Unit - 1
25 pages
Kamlesh Mooc File
No ratings yet
Kamlesh Mooc File
15 pages
Data Preprocessing Unit 2
No ratings yet
Data Preprocessing Unit 2
3 pages
COS10022 - Lecture 03 - Data Preparation PDF
No ratings yet
COS10022 - Lecture 03 - Data Preparation PDF
61 pages
Unit I and unit ii dev (1)
No ratings yet
Unit I and unit ii dev (1)
36 pages
3 Data Preprocessing
No ratings yet
3 Data Preprocessing
25 pages
Bsd1313 Chapter 3
No ratings yet
Bsd1313 Chapter 3
74 pages
Approaches in data science [Slides]
No ratings yet
Approaches in data science [Slides]
13 pages
Data Preprocessing Techniques Cleaning Transformation and Integration
No ratings yet
Data Preprocessing Techniques Cleaning Transformation and Integration
6 pages
UNIT I - Introduction - DataScience - New
No ratings yet
UNIT I - Introduction - DataScience - New
34 pages
Mod1 DM Part2
No ratings yet
Mod1 DM Part2
34 pages
Data Mining
No ratings yet
Data Mining
40 pages
Data2 Science Process Am
No ratings yet
Data2 Science Process Am
33 pages
Lecture 4
No ratings yet
Lecture 4
20 pages
Fds Csheet and Read The Rule
No ratings yet
Fds Csheet and Read The Rule
4 pages
Introduction To Data Science: What Is Data Science? What Is A Data Science Pipeline?
No ratings yet
Introduction To Data Science: What Is Data Science? What Is A Data Science Pipeline?
3 pages
Data Mining
No ratings yet
Data Mining
34 pages
DMTN
No ratings yet
DMTN
17 pages
Data Mining: Concepts and Techniques: September 16, 2020 1
No ratings yet
Data Mining: Concepts and Techniques: September 16, 2020 1
46 pages
Overview of Data Preprocessing
No ratings yet
Overview of Data Preprocessing
4 pages
Data Science Process Stages Lecture 2
No ratings yet
Data Science Process Stages Lecture 2
4 pages
ADS-IMP-QNA-2025-15-04-06-06-35_copy
No ratings yet
ADS-IMP-QNA-2025-15-04-06-06-35_copy
33 pages
What Is Data Mining: Effective Data Collection Warehousing
No ratings yet
What Is Data Mining: Effective Data Collection Warehousing
21 pages
DS_UNIT_2
No ratings yet
DS_UNIT_2
23 pages
Unit 3 Dw&DM Notes Mr. Rohit Pratap Singh
No ratings yet
Unit 3 Dw&DM Notes Mr. Rohit Pratap Singh
22 pages
EXPLORATORY DATA ANALYSIS WITH PYTHON
No ratings yet
EXPLORATORY DATA ANALYSIS WITH PYTHON
24 pages
Mastering Data Mining Techniques
From Everand
Mastering Data Mining Techniques
Dhaanyalakshmi Ahuja
No ratings yet
Parts of Speech Worksheet - Parts of Speech Exercises - 7ESL
No ratings yet
Parts of Speech Worksheet - Parts of Speech Exercises - 7ESL
13 pages
MHZ 4256 Activity Schedule .xlsx - Google Drive
No ratings yet
MHZ 4256 Activity Schedule .xlsx - Google Drive
1 page
A Simple Guide To English Nouns - Useful Noun Examples - 7ESL
No ratings yet
A Simple Guide To English Nouns - Useful Noun Examples - 7ESL
28 pages
Mastering Adjectives in English With Examples - 7ESL
No ratings yet
Mastering Adjectives in English With Examples - 7ESL
27 pages
Mastering Interjections With Cool Interjection Examples - 7ESL
No ratings yet
Mastering Interjections With Cool Interjection Examples - 7ESL
31 pages
A Guide To Mastering English Pronouns With Helpful Pronoun Examples - 7ESL
No ratings yet
A Guide To Mastering English Pronouns With Helpful Pronoun Examples - 7ESL
28 pages
An Easy Guide To English Adverbs - Cool Adverb Examples - 7ESL
No ratings yet
An Easy Guide To English Adverbs - Cool Adverb Examples - 7ESL
21 pages
Jagan, 22-6-2016 Resume
No ratings yet
Jagan, 22-6-2016 Resume
7 pages
BL Ident - Modular RFID System
100% (1)
BL Ident - Modular RFID System
132 pages
BEB34303 S221 Final Project Assessment Brief
No ratings yet
BEB34303 S221 Final Project Assessment Brief
5 pages
Roles
No ratings yet
Roles
24 pages
Tổng Quan Về THACO
No ratings yet
Tổng Quan Về THACO
12 pages
Railway Depot Modelling
No ratings yet
Railway Depot Modelling
14 pages
BMC Remedy Action Request System 9.1.00 (PDFDrive)
No ratings yet
BMC Remedy Action Request System 9.1.00 (PDFDrive)
17 pages
Beginning Spring Boot 3: Build Dynamic Cloud-Native Java Applications and Microservices - Second Edition K. Siva Prasad Reddy 2024 Scribd Download
No ratings yet
Beginning Spring Boot 3: Build Dynamic Cloud-Native Java Applications and Microservices - Second Edition K. Siva Prasad Reddy 2024 Scribd Download
36 pages
Paxar 676
No ratings yet
Paxar 676
129 pages
User's Manual: Digital Camera
No ratings yet
User's Manual: Digital Camera
148 pages
Vectors
No ratings yet
Vectors
2 pages
Pivot Tables
No ratings yet
Pivot Tables
44 pages
5 Control Panel UI and Admin Exercise
No ratings yet
5 Control Panel UI and Admin Exercise
8 pages
Software engineering homework
No ratings yet
Software engineering homework
6 pages
Lab Activity 14
No ratings yet
Lab Activity 14
2 pages
Lesson Plan Debugging Programmable Toys
No ratings yet
Lesson Plan Debugging Programmable Toys
1 page
Examen Final Diego Ruesta Andrade
No ratings yet
Examen Final Diego Ruesta Andrade
13 pages
Nandini M Resume
No ratings yet
Nandini M Resume
1 page
HAEFELY - FRA5310 - Technical Solutions
No ratings yet
HAEFELY - FRA5310 - Technical Solutions
2 pages
X-Nav 550
No ratings yet
X-Nav 550
2 pages
TCGRX ATP Brochure 0
No ratings yet
TCGRX ATP Brochure 0
12 pages
MV Global - Crypto X AI Report 2024
No ratings yet
MV Global - Crypto X AI Report 2024
32 pages
Phs 8 Shapes
No ratings yet
Phs 8 Shapes
3 pages
SIT 2023 - 7 Tracks
No ratings yet
SIT 2023 - 7 Tracks
7 pages
QuickGuideforConnectionofCBM-M20A
No ratings yet
QuickGuideforConnectionofCBM-M20A
7 pages
OSCP Prep Ebook 1647278954
No ratings yet
OSCP Prep Ebook 1647278954
10 pages
Rakesh Gupta DevBA
No ratings yet
Rakesh Gupta DevBA
2 pages
Aryan Backend Dev Resume
No ratings yet
Aryan Backend Dev Resume
1 page
IP Services
100% (1)
IP Services
64 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Introduction to Data Science

Uploaded by

Introduction to Data Science

Uploaded by

Introduction to Data

• To perform well on data science, you

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.