Chapter 5
Chapter 5
Chapter 5
All rights reserved. This book or any portion thereof may not be re-
produced or used in any manner whatsoever without the publisher's
express written permission except for the use of brief quotations in a
book review or scholarly journal.
CHAPTER FIVE:
DATA SCIENCE DISCIPLINES
1
ENAMUL HAQUE
“Hiding within those mounds of data is knowledge that could change the
life of a patient, or change the world.” ... – Atul Butte, Stanford University
2
A BEGINNER’S GUIDE TO DATA SCIENCE
Data engineering
As the name implies, data engineering is concerned with data, name-
ly its delivery, storage and processing. Accordingly, the main task of engi-
neers is to provide a reliable infrastructure for data. With the advent of
big data, the area of responsibility has changed dramatically. Previously,
these experts wrote large SQL queries and distilled data using tools such
as Informatica ETL, Pentaho ETL, Talend, but now the requirements
for data engineers have increased. A data engineer understands pro-
gramming better than any data scientist, but the opposite is true when it
comes to statistics.
Scientific method
The Scientific Method is the science part of data science. According
to Wikipedia, the Scientific Method is a process for acquiring new
knowledge by applying the principles of reasoning on empirical evidence
derived from testing hypotheses through repeatable experiments. When a
scientist hears someone assertion about a fact, they naturally want to
know both the evidence and the standard of acceptance for that evidence.
3
ENAMUL HAQUE
Mathematics
Mathematics (along with statistics) is the cerebral part of Data Sci-
ence. We will look into this separately.
Statistics
Statistics is the study of the collection, organisation, analysis, and in-
terpretation of data. It involves exploring data, discovering patterns and
relationships, creating models, and making inferences about the future.
Statistics is the discipline that has the straightest-line pedigree to data sci-
ence. The statistician is responsible for understanding the analysis that
will be done on the data to be collected and organised appropriately.
Advanced computing
Advanced computing is the heavy lifting of data science. According
to Wikipedia, computer programming (often shortened to programming
or coding) is designing, writing, testing, debugging, and maintaining
computer programs' source code. This source code is written in one or
more programming languages. The purpose of programming is to create
a set of instructions that computers use to perform specific operations or
to exhibit desired behaviours. Writing source code often requires exper-
tise in many different subjects, including knowledge of the application
domain, specialised algorithms and formal logic.
Visualisation
Data visualisation helps you turn all that granular data into easily
understood, visually compelling—and valuable—business information.
By tapping into external data sources, today’s data visualisation tools
don’t simply let you see your KPIs more; clearly, they unify data and ap-
ply AI-driven analytics to reveal relationships between your KPIs, the
market, and the world.
4
A BEGINNER’S GUIDE TO DATA SCIENCE
Hacker mindset
A typical scientific mindset is building models, training, plot graphs,
and analysing the different attributes to come up with a solution. The
mindset of a hacker is very different from that of a scientist. They focus
more on finding Solutions using simple methods. While the data scien-
tists use so many various components to a problem, the hacker works at
eliminating complexity to come up with a solution.1 Therefore, the hack-
er mindset is more complimentary because the scientific mind's confines
do not bound them.
Domaine expertise
Domain expertise is the glue that holds data science together. Ac-
cording to Wikipedia, subject matter or domain expertise is proficiency,
special knowledge or skills, in a particular area or topic. Any domain of
knowledge can be subject to a data science inquiry, including but not
limited to medicine, politics, the physical and biological sciences, market-
ing, information security, demographics, and even literature. Every data
science team must include at least one person who is a subject matter ex-
pert on the problem being solved.
5
ENAMUL HAQUE
6
A BEGINNER’S GUIDE TO DATA SCIENCE
Statistics
This is what you need to know to grow as a data scientist. The im-
portance of a clear understanding of the basic concepts of statistics and
probability cannot be overstated in discussions about data science. Many
practitioners in the field refer to classical machine learning (not a neural
network) as nothing more than statistical learning. The topic is vast and
endless, and therefore focused planning is essential to cover as many core
concepts as possible.
• Summary and descriptive statistics, mean, variance, covari-
ance, correlation.
• Fundamentals of probability theory: basic ideas, expectation,
calculus of probability, Bayes' theorem, conditional proba-
bility.
7
ENAMUL HAQUE
Linear algebra
Facebook friends recommendation, Spotify song recommendation,
Salvador Dali-style effect of photography using deep neural network
transfer learning. What do they all have in common? Matrices and matrix
algebra are used everywhere. Matrix algebra is an important aspect of
mathematics that helps you understand how most machine learning algo-
rithms function in a data stream. The following are the most important
topics to explore:
• A matrix and vectors' main properties are dot product, linear
transformation, transposition, conjugation, rank, determi-
nant.
• Inner and outer product, matrix multiplication rule and var-
ious algorithms, inverse matrix.
• Spatial matrices - square, unit, triangular, sparse, dense,
symmetric, Hermitian, anti-Hermitian and unitary matrices,
unit vector.
8
A BEGINNER’S GUIDE TO DATA SCIENCE
Mathematical analysis
Whether you liked it at university or not, we encounter calculus in
many aspects of data science and machine learning. It is hidden behind a
seemingly simple analytical solution to a common problem with the least
value of a quadratic function in linear regression. It is also embedded in
every backpropagation method generated by the neural network for
training. Knowledge of mathematical analysis will prove to be very valu-
able for your work. The following are topics to explore:
• Single variable function, limit, continuity and differentiabil-
ity.
• The formula of finite increments, disclosure of uncertain-
ties, L'Hôpital's theorem.
• Maximum and minimum.
• Rules for the product and differentiation of a complex func-
tion.
• Taylor series, infinite series summation/integration concept.
• The main theorem and formula for finite increments of in-
tegral calculus, calculation of definite and improper inte-
grals.
9
ENAMUL HAQUE
Discrete math
Discrete mathematics is rarely touched upon when discussing a topic
such as "mathematics in data science." Nevertheless, modern data science
is built with the help of computing systems in which discrete mathemat-
ics is a key element. Discrete mathematics courses will help you master
important concepts for the daily use of algorithms and data structures
when working on analytical projects. Below are some of the topics to ex-
plore:
• Set, subset, boolean.
• Counting functions, combinatorics, countability.
• The main methods of proof are induction, proof by contra-
diction.
• Foundations of inductive, deductive and propositional logic.
• The main data structures are stacks, queues, graphs, arrays,
hash tables, trees.
• Graph invariants: connected components, vertex degree,
Ford - Fulkerson theorem, graph colouring.
• Recurrent formulas (equations, relations).
• Function growth, "O" notation is large.
Where they can be used? Graph invariants and fast algorithms are es-
sential when analysing any social networks. With any algorithm, you
10
A BEGINNER’S GUIDE TO DATA SCIENCE
need to understand the temporal and spatial complexity using the big O
notation. This is necessary, for example, when determining how the run
time and the required size increase with the increase in the amount of
input data.
11
ENAMUL HAQUE
Mathematical Analysis
A good data analyst without basic mathematics is nowhere (and the data
researcher is even more so). So, let’s understand areas to be at the interest
of data science.
12
A BEGINNER’S GUIDE TO DATA SCIENCE
Optimisation methods
• Optimising non-smooth functions (the problem of local
lows).
• The method of imitation of the ignition.
• Genetic algorithms. Algorithm of differential evolution.
• Ndder-Mead Method.
13
ENAMUL HAQUE
Statistical Modelling
Spatial models
Spatial dependency is the co-variation of properties within geo-
graphic space: characteristics at proximal locations appear to be correlat-
ed, either positively or negatively. Spatial dependency leads to the spatial
auto-correlation problem in statistics since, like temporal auto-
correlation, this violates standard statistical techniques that assume inde-
pendence among observations2
Time series
Methods for time series analyses may be divided into two classes:
frequency-domain methods and time-domain methods. The former in-
clude spectral analysis and recently wavelet analysis; the latter include au-
to-correlation and cross-correlation analysis. In the time domain, correla-
tion analyses can be made in a filter-like manner using scaled correlation,
thereby mitigating the need to operate in the frequency domain.
14
A BEGINNER’S GUIDE TO DATA SCIENCE
Survival analysis
Survival analysis is a branch of statistics for analysing the expected
duration of time until one or more events happen, such as a death in bio-
logical organisms and failure in mechanical systems. This topic is called
reliability theory or reliability analysis in engineering, duration analysis or
duration modelling in economics, and event history analysis in sociology.
Survival analysis attempts to answer questions such as: what is the pro-
portion of a population which will survive past a certain time? Of those
that survive, at what rate will they die or fail? Can multiple causes of
death or failure be taken into account? How do particular circumstances
or characteristics increase or decrease the probability of survival? Survival
models are used by actuaries and statisticians, and marketers designing
churn and user retention models.3
Survival models are also used to predict time-to-event (time from be-
coming radicalised to turning into a terrorist or when a gun is purchased
and used in a murder) or to model and predict decay.
15
ENAMUL HAQUE
Market segmentation
Market segmentation, also called customer profiling, is a marketing
strategy that involves dividing a broad target market into subsets of con-
sumers, businesses, or countries that have or are perceived to have com-
mon needs, interests, and priorities, and then designing and implement-
ing strategies to target them. Market segmentation strategies are generally
used to identify and further define the target customers and provide sup-
porting data for marketing plan elements such as positioning to achieve
certain marketing plan objectives. Businesses may develop product dif-
ferentiation strategies or an undifferentiated approach involving specific
products or product lines depending on the target segment's specific de-
mand and attributes.
Recommendation systems
Recommender systems or recommendation systems (sometimes re-
placing “system” with a synonym such as a platform or an engine) are a
subclass of information filtering system that seeks to predict the ‘rating’
or ‘preference’ that a user would give an item.
16
A BEGINNER’S GUIDE TO DATA SCIENCE
Attribution modelling
An attribution model is the rule or set of rules determining how
credit for sales and conversions is assigned to touchpoints in conversion
paths. For example, the Last Interaction model in Google Analytics as-
signs 100% credit to the final touchpoints (i.e., clicks) that immediately
precede sales or conversions. Macro-economic models use long-term, ag-
gregated historical data to assign an attribution weight to a number of
channels for each sale or conversion. These models are also used for ad-
vertising mix optimisation.
Scoring
The scoring model is a special kind of predictive models. Predictive
models can predict defaulting on loan payments, risk of accident, client
churn or attrition, or chance of buying a good. Scoring models typically
use a logarithmic scale (each additional 50 points in your score, reducing
the risk of defaulting by 50%). They are based on logistic regression and
decision trees or a combination of multiple algorithms. Scoring technol-
ogy is typically applied to transactional data, sometimes in real-time
(credit card fraud detection, click fraud).
Predictive Modelling
Predictive modelling leverages statistics to predict outcomes. Most
often, the event one wants to predict is in the future, but predictive mod-
elling can be applied to any type of unknown event, regardless of when it
occurred. For example, predictive models are often used to detect crimes
and identify suspects after the crime has taken place. They may also be
used for weather forecasting, to predict stock market prices, or to predict
sales, incorporating time series or spatial models. Neural networks, linear
regression, decision trees and naive Bayes are techniques used for predic-
tive modelling. They are associated with creating a training set, cross-
validation, and model fitting and selection.
17
ENAMUL HAQUE
Clustering
Cluster analysis or clustering is the task of grouping a set of objects
in such a way that objects in the same group (called a cluster) are more
similar (in some sense or another) to each other than to those in other
groups (clusters). It is the main task of exploratory data mining and a
common statistical data analysis technique used in many fields, including
machine learning, pattern recognition, image analysis, information re-
trieval, and bioinformatics.
Unlike supervised classification (below), clustering does not use
training sets. Though there are some hybrid implementations called semi-
supervised learning.
Supervised classification
Supervised classification, also called supervised learning, is the ma-
chine learning task of inferring a function from labelled training data.
The training data consist of a set of training examples. In supervised
learning, each example is a pair consisting of an input object (typically a
vector) and the desired output value (also called label, class or category).
A supervised learning algorithm analyses the training data and produces
an inferred function, which can be used for mapping new examples. An
optimal scenario will allow for the algorithm to correctly determine the
class labels for unseen instances.
18
A BEGINNER’S GUIDE TO DATA SCIENCE
Simulations
Monte-Carlo simulations are used in many contexts: to produce
high-quality pseudo-random numbers in complex settings such as multi-
layer Spatio-temporal hierarchical Bayesian models, to estimate parame-
ters to compute statistics associated with infrequent events, or even to
generate a large amount of data (for instance, cross and auto-correlated
time series) to test and compare various algorithms, especially for stock
trading or in engineering.
Churn analysis
Customer churn analysis helps you identify and focus on higher-
value customers, determine what actions typically precede a lost custom-
er or sale, and better understand what factors influence customer reten-
tion. Statistical techniques involved include survival analysis as well as
Markov chains with four states: brand new customer, returning custom-
er, inactive (lost) customer, and re-acquired customer, along with path
analysis (including root cause analysis) to understand how customers
move from one state to another, to maximise profit. Related topics: cus-
tomer lifetime value, cost of user acquisition, user retention.
Inventory management
Inventory management overseeing and controlling the ordering,
storage, and use of components that a company will use to produce the
items it will sell and oversee and control quantities of finished products
for sale. Inventory management is an operations research technique lev-
eraging analytics (time series, seasonality, regression), especially for sales
forecasting and optimum pricing — broken down per product category,
market segment, and geography. It is strongly related to pricing optimisa-
tion. This is not just for brick and mortar operations: inventory could
mean the amount of available banner ad slots on a publisher website in
the next 60 days, with estimates of how much traffic (and conversions)
19
ENAMUL HAQUE
Optimum bidding
This is an example of an automated, black-box, machine-to-machine
communication system, sometimes working in real-time via various
API’s. It is backed by statistical models. Applications include detecting
and purchasing the right keywords at the right price on Google Ad-
Words, based on expected conversion rates for millions of keywords,
most of them having no historical data; keywords are categorized using
an indexation algorithm (see item #18 in this article) and aggregated into
buckets (categories) to get some historical data with statistical signifi-
cance, at the bucket level. This is a real problem for companies such as
Amazon or eBay. Or it could be used as the core algorithm for automated
high-frequency stock trading.
Optimum pricing
While at first glance, it sounds like an econometric problem handled
with efficiency curves or even a pure business problem, it is highly statis-
tical in nature. Optimum pricing considers available and predicted inven-
tory, production costs, prices from competitors, and profit margins.
Price elasticity models are often used to determine how high prices can be
boosted before reaching strong resistance. Modern systems offer prices-
on-demand, in real-time, for instance, when booking a flight or a hotel
room. User-dependent pricing — a way to further optimise pricing, of-
fering different prices based on user segment — is a controversial issue. It
is accepted in the insurance industry: bad car drivers paying more than
good ones for the same coverage, or smokers/women / old people paying
20
A BEGINNER’S GUIDE TO DATA SCIENCE
a different fee for healthcare insurance (this is the only price discrimina-
tion allowed by Obamacare).
Indexation
Any system based on taxonomies uses an indexation algorithm cre-
ated to build and maintain the taxonomy. For instance, product reviews
(both products and reviewers must be categorised using an indexation
algorithm, then mapped onto each other), scoring algorithms to detect
the top people to follow in a specific domain, digital content manage-
ment, and of course, search engine technology. Indexation is a very effi-
cient clustering algorithm, and the time used to massive index amounts
of content grows linearly — that is very fast — with the size of your da-
taset. Basically, it relies on a few hundred categories manually selected
after parsing tons of documents, extracting billions of keywords, filtering
them, producing a keyword frequency table, and focusing on top key-
words.
Finally, an indexation algorithm can be used to automatically create
an index for any document — report, article, blog, website, data reposito-
ry, metadata, catalogue, or book. Indeed, that’s the origin of the word
indexation. Surprisingly, publishers still pay people today for indexing
jobs: you can find these jobs listed on the American Society for Indexing
website. This is an opportunity for data scientist entrepreneurs: offering
publishers software that does this job automatically, at a fraction of the
cost.
Search engines
Good search engine technology relies heavily on statistical model-
ling. Enterprise search engines help companies — for instance, Amazon
— sell their products by providing users with an easy way to find them.
The core algorithm used in any search engine is an indexation or auto-
mated tagging system. Google search could be improved as follows:
21
ENAMUL HAQUE
Cross-Selling
Usually, based on collaborative filtering algorithms, the idea is to
find — especially in retail — which products to sell to a client based on
recent purchases or interests. For instance, trying to sell engine oil to a
customer buying gasoline. In banking, a company might want to sell sev-
eral services: a checking account first, then a saving account, then a busi-
ness account, then a loan and so on, to a specific customer segment. The
challenge is to identify the correct order in which products must be pro-
moted, the right customer segments, and the optimum time lag between
the various promotions. Cross-selling is different from up-selling.
Clinical trials
Clinical trials are experiments done in clinical research, usually in-
volving small data. Such prospective biomedical or behavioural research
studies on human participants are designed to answer specific biomedical
or behavioural interventions, including new treatments and known in-
terventions that warrant further research and comparison. Clinical trials
generate data on safety and efficacy. Primary concerns include how to
22
A BEGINNER’S GUIDE TO DATA SCIENCE
Multivariate testing
Multivariate testing is a technique for testing a hypothesis in which
multiple variables are modified. The goal is to determine which combina-
tions of variations perform the best out of all possible combinations.
Websites and mobile apps are made of combinations of changeable ele-
ments that are optimised using multivariate testing. This involves careful
design-of-experiment, and the tiny, temporary difference (in yield or web
traffic) between two versions of a webpage might not have statistical sig-
nificance. While ANOVA4 and tests of hypotheses are used by industrial
or healthcare statisticians for multivariate testing, we have developed
model-free, data-driven systems based on data binning and model-free
confidence intervals. Stopping a multivariate testing experiment (they
23
ENAMUL HAQUE
usually last 14 days for web page optimisation) as soon as the winning
combination is identified helps save a lot of money. Note that external
events — for instance, a holiday or some server outage — can impact
multivariate testing results and need to be addressed.
Queuing systems
A queue management system is used to control queues. Queues of
people form in various situations and locations in a queue area, for in-
stance, in a call centre. The process of queue formation and propagation
is defined as queuing theory. People's arrival in a queue is typically mod-
elled using a Poisson method to serve a client modelled using an expo-
nential distribution. While being a statistical problem, it is considered to
be part of operations research.
24
A BEGINNER’S GUIDE TO DATA SCIENCE
প ঞ্চ ম অ ধ্ য া য় : ড ে ট া স া য য় ন্স ড ে ড স ড ি ন
(please note, that this is ma-
chine translation)
25
ENAMUL HAQUE
ডেটা ইডিডনয়াড িং
নাম ডথ্য ডিাঝা যা়ে, ডেটা ইডিডন়োডরিং ডেটার সাযথ্ সম্পড ি ত, যথ্া এর ডেডলভাডর,
ডটাযরি এিিং প্রযসডসিং। তদনুসাযর, প্রয ৌেলীযদর প্রধান াি হল তযথ্যর িনয এ টি ডনভি রযযাগ্য
অি াঠাযমা প্রদান রা। িড় তযথ্যর আডিভি াযির সাযথ্, দাড়েযের ডেত্রটি নাট ী়েভাযি পডরিডতি ত
হয়েযে। পূ যিি, এই ডিযেষজ্ঞরা ইনফরমযাটি া ইটিএল, ডপন্টাযহা ইটিএল, টযাযলযের মযতা সরিাম
িযিহার যর িড় এসড উএল প্রশ্ন এিিং পাডতত ডেটা ডলযখডেযলন, ড ন্তু এখন ডেটা ইডিডন়োরযদর
প্রয়োিনী়েতা ডিযড়যে। এ িন ডেটা ইডিডন়োর ডযয ান ডেটা সায়েডন্টযটর ডিয়ে ডপ্রাগ্রাডমিংয
ভাযলা ডিাযঝন, ড ন্তু পডরসিংখযাযনর ডেযত্র এর ডিপরীত সতয।
বৈজ্ঞাডনক পদ্ধডি
বিজ্ঞাডন পদ্ধডত হল ডেটা সায়েযের ডিজ্ঞান অিংে। উইড ডপডে়োর মযত, বিজ্ঞাডন পদ্ধডত
হল পু নরািৃ ডিযযাগ্য পরীোর মাধযযম অনুমান পরীো ডথ্য প্রাপ্ত অডভজ্ঞতাগ্ত প্রমাযণর উপর
যুডির নীডত প্রয়োগ্ যর নতুন জ্ঞান অিিযনর এ টি প্রডি়ো। যখন এ িন ডিজ্ঞানী ড ান সতয
সম্পয ি াযরা িিিয শুযনন, তখন তারা স্বাভাডি ভাযিই প্রমাণ এিিং গ্রহণযযাগ্যতার মান উভ়েই
িানযত িা়ে।
গডিি
গ্ডণত (পডরসিংখযান সহ) ডেটা সায়েযের ডসডরব্রাল অিংে। আমরা এটি আলাদাভাযি ডদখি।
26
A BEGINNER’S GUIDE TO DATA SCIENCE
পড সিংখ্যান
পডরসিংখযান হযলা তথ্য সিংগ্রহ, সিংগ্ঠন, ডিযেষণ এিিং িযাখযা অধয়েন। এযত ডেটা অযেষণ,
ডনদেিন এিিং সম্প ি আডিষ্কার, মযেল বতডর রা এিিং ভডিষযত সম্পয ি অনুমান রা িডড়ত।
পডরসিংখযান হযে এমন এ টি েৃ ঙ্খলা যার মযধয ডেটা সায়েযের িনয সরলযরখার িিংেধর রয়েযে।
পডরসিংখযানডিদ ডিযেষণ ডিাঝার িনয দা়েী যা তথ্য সিংগ্রহ রা হযি এিিং যথ্াযথ্ভাযি সিংগ্ঠিত হযি।
উন্নি কডিউটিং
উন্নত ডম্পউটিিং হযে ডেটা সায়েযের ভারী উযিালন। উইড ডপডে়োর মযত, ডম্পউটার
ডপ্রাগ্রাডমিং (প্রা়েেই ডপ্রাগ্রাডমিং িা ড াডেিংয়ের িনয সিংডেপ্ত রা হ়ে) হল ডম্পউটার ডপ্রাগ্রামগুডলর
ডসাসি ড াে ডেিাইন রা, ডলখা, পরীো রা, ডেিাগ্ রা এিিং িিা়ে রাখা। এই ডসাসি ড ােটি এ
িা এ াডধ ডপ্রাগ্রাডমিং ভাষা়ে ডলখা। ডপ্রাগ্রাডমিং এর উযেেয হল ডম্পউটারগুডল ডনডদি ষ্ট অপাযরেন
রযত িা পেন্দসই আিরণ প্রদেিন রার িনয ডনযদি োিলী বতডর যর। ডসাসি ড াে ডলখার িনয
প্রা়েেই অযাডিয েন ডোযমযনর জ্ঞান, ডিযেষ অযালগ্ডরদম এিিং আনুষ্ঠাডন যুডি সহ ডিডভন্ন ডিষয়ে
দেতার প্রয়োিন হ়ে।
ডিজ্য যয়ালাইযজ্শন
ডেটা ডভিু য়োলাইযিেন আপনায ডসই সমস্ত দানাদার ডেটা সহযিই ডিাঝা যা়ে,
িােুষভাযি আ ষিণী়ে — এিিং মূলযিান -িযিসাড়ে তযথ্য পডরণত যর। িাডহয ডেটা উত্সগুডলযত
টযাপ যর, আিয র ডেটা ডভিু য়োলাইযিেন সরিামগুডল আপনায ড িল আপনার ড ডপআই
ডদখযত ডদ়ে না; স্পষ্টতই, তারা আপনার ড ডপআই, িািার এিিং ডিযের মযধয সম্প ি প্র াে রযত
ডেটা এ ডত্রত যর এিিং এআই-িাডলত ডিযেষণ প্রয়োগ্ যর।
হ্যাকায মানডসকিা
এ টি সাধারণ বিজ্ঞাডন মানডস তা হল মযেল বতডর রা, প্রডেেণ ডদও়ো, িট গ্রাফ বতডর
রা এিিং ডিডভন্ন গুণািলী ডিযেষণ যর সমাধান রা। এ িন হযা াযরর মানডস তা এ িন ডিজ্ঞানীর
ডথ্য অযন আলাদা। তারা সহি পদ্ধডত িযিহার যর সমাধান ডখাোঁিার ডদয ডিডে মযনাডনযিে
যর। যডদও ডেটা ডিজ্ঞানীরা এ টি সমসযার িনয এতগুডল ডিডভন্ন উপাদান িযিহার যরন, হযা ার
এ টি সমাধান ডনয়ে আসযত িটিলতা দূর যর।5 অতএি, হযা ার মানডস তা আযরা প্রেিংসনী়ে ারণ
বিজ্ঞাডন মযনর সীমািদ্ধতা তাযদর আিদ্ধ যর না।
27
ENAMUL HAQUE
ডোযমইন দক্ষিা
ডোযমইন দেতা হল ডসই আঠাযলা যা োটা সায়েেয এ সাযথ্ ধযর রাযখ। উইড ডপডে়োর
মযত, ডিষ়েিস্তু িা ডোযমইন দেতা হল এ টি ডিযেষ ডেত্র িা ডিষয়ে দেতা, ডিযেষ জ্ঞান িা
দেতা। জ্ঞাযনর ডয ড ান ডেত্র এ টি োটা সায়েে অনুসন্ধাযনর ডিষ়ে হযত পাযর, যার মযধয med-
icineষধ, রািনীডত, ডভৌত ও বিডি ডিজ্ঞান, ডিপণন, তথ্য ডনরাপিা, িনসিংখযাতাডি , এমনড
সাডহতযও সীমািদ্ধ ন়ে। প্রডতটি ডেটা সায়েে টিযম মপযে এ িনয অন্তভুিি রযত হযি ডযডন
সমসযার সমাধাযনর ডিষয়ে এ িন ডিষ়ে ডিযেষজ্ঞ।
28
A BEGINNER’S GUIDE TO DATA SCIENCE
গ্ডণত ডযয াযনা আধু ডন বিজ্ঞাডন অনু োসযনর ডভডি। এিিং এটি
ারও াযে ডগ্াপন ন়ে ডয প্রা়ে সমস্ত আধু ডন ডেটা সায়েে
পদ্ধডত (ডমডেন লাডনিিং সহ) ড েু ধরযণর গ্াডণডত গ্ণনার উপর
ডভডি যর। খনও খনও, এ িন তথ্য ডিজ্ঞানী (অথ্িা এমনড
এ িন িু ডন়ের ডিযেষ ) ডহসাযি, আপনার পদ্ধডতগুডল সঠি ভাযি
প্রয়োগ্ রার িনয আপনায ডমৌডল গ্ডণত িানযত হযি। অনযানয
উযেযেয, আপডন API িা এ টি প্রস্তুত অযালগ্ডরদম িযিহার
রযত পাযরন।
ড ন্তু, এ ই সময়ে, নানাডম গ্ডণযতর ভাল দখল যার উপর আপনার অযালগ্ডরদম বতডর রযত
হযি যাযত পণয িযিহাযরর িনয সুপাডরে বতডর রা যা়ে। এটি আপনায আপনার প্রডতযযাগ্ীযদর
উপর এ টি প্রান্ত ডদযি এিিং আপনায আপনার জ্ঞাযনর উপর আস্থা িিা়ে রাখযত সহা়েতা রযি।
গ্াডড়র ডিষয়ে ড েু না ডিযন শুধু িা ার ডপেযন িযস থ্া ার ডিয়ে হুযের নীযি ী আযে তা িানা
সিসম়ে ভাল।
অিেযই, আপনার অনযানয জ্ঞান, ডপ্রাগ্রাডমিং দেতা, সামানয িযিসাড়ে দেতা, অননয
ডিযেষণাত্ম ডিন্তাভািনা এিিং ডেটা সম্পয ি ড ৌতূহল প্রয়োিন হযি, যা এ িন েীষিস্থানী়ে ডেটা
ডিজ্ঞানীর িনয খু ি প্রয়োিনী়ে। এই প্রিযন্ধ, আডম এই প্রযিষ্টা়ে আপনায সাহাযয রার িনয সিযিয়ে
গুরুেপূ ণি গ্াডণডত ধারণাগুডল সিংগ্রহ রার ডিষ্টা যরডে।
গ্ডণযতর মূল ডিষ়েগুডলর জ্ঞান এমন ডপোদারযদর িনয অপডরহাযি যারা এই অঞ্চযল অনয
ডিযেষা়েণ (হােিও়েযার ডেযভলপযমন্ট, ডেে, ড ডম যাল ইোডি, ডমডেডসন অযাে ডহলথ্য ়োর,
ডিিযনস মযাযনিযমন্ট ইতযাডদ) ডথ্য এই এলা া়ে ডযযত িান।
29
ENAMUL HAQUE
এিিং যখন তারা মযন রযত পাযর ডয তারা দীর্িডদন ধযর ডেেেীট, সিংখযাসূ ি গ্ণনা এিিং
ভডিষযদ্বাণী ডনয়ে াি যরযে, গ্ডণযতর দেতার প্রয়োিনী়েতা তাযদর ডেটা সায়েযে িতি মান
িা ডরর ডথ্য এয িাযরই আলাদা।
এখাযন ডিষ়েগুডলর ড েু হযােডপ ে পরামেি ডদও়ো হয়েযে যা ডেটা সায়েে ডগ্যমর েীযষি
থ্া ার িনয াযি আসযি।
পড সিংখ্যান
ডেটা সায়েডন্টট ডহযসযি ডিযড় ওঠার িনয আপনার এটাই িানা দর ার। পডরসিংখযান এিিং
সম্ভািনার ডমৌডল ধারণাগুডলর এ টি পডরষ্কার ডিাঝার গুরুে তথ্য ডিজ্ঞান সম্পয ি আযলািনা়ে
িাড়ািাডড় রা যাযি না। ডেযত্রর অযন অনুেীলন ারীরা ক্লাডস যাল ডমডেন লাডনিিংয (ডনউরাল
ডনটও়ো ি ন়ে) পডরসিংখযানগ্ত ডেোর ডিয়ে ডিডে ড েু িযল না। ডিষ়েটি ডিস্তৃত এিিং অডিরাম, এিিং
তাই যতটা সম্ভি মূল ধারণাগুডল ভার রার িনয ডনিদ্ধ পডর ল্পনা অপডরহাযি।
• সিংডেপ্তসার এিিং িণিনামূল পডরসিংখযান, গ্ড়, বিডিত্রয, সহিাস, পারস্পডর
সম্প ি ।
• সম্ভািয তযির ডমৌডল ডিষ়ে: ডমৌডল ধারণা, প্রতযাো, সম্ভািনার যালকুলাস,
িায়েযসর উপপাদয, েতি াধীন সম্ভািনা।
30
A BEGINNER’S GUIDE TO DATA SCIENCE
ব ডখ্ক ৈীজ্গডিি
ডফসিু িন্ধুযদর সু পাডরে, স্পটিফাই গ্াযনর সু পাডরে, সালভাদর োডল-টাইযলর প্রভাি গ্ভীর
স্না়েু ডনটও়ো ি োেফার লাডনিিং িযিহার যর ফযটাগ্রাডফর। তাযদর সিার ড ডমল আযে? মযাট্রিক্স এিিং
মযাট্রিক্স িীিগ্ডণত সিিত্র িযিহৃত হ়ে। মযাট্রিক্স িীিগ্ডণত হল গ্ডণযতর এ টি গুরুেপূ ণি ডদ যা
আপনায িু ঝযত সাহাযয যর ড ভাযি এ টি যন্ত্র প্রিাযহ অডধ ািংে ডমডেন লাডনিিং অযালগ্ডরদম াি
যর। অযেষযণর িনয সিযিয়ে গুরুেপূ ণি ডিষ়েগুডল হল:
• এ টি মযাট্রিক্স এিিং ডভক্টযরর প্রধান বিডেষ্টয হল েট ডপ্রাোক্ট, ডলডন়োর
োেফরযমেন, োেযপাডিেন, নিু যগ্েন, যিাঙ্ক, ডনধিার ।
• অভযন্তরীণ এিিং িাইযরর পণয, মযাট্রিক্স গুযণর ডন়েম এিিং ডিডভন্ন অযালগ্ডরদম,
ডিপরীত মযাট্রিক্স।
• স্থাডন মযাট্রিক্স - িগ্ি, এ , ডত্রভুিা ার, স্পাসি, র্ন, প্রডতসম, হাডমিডে়োন, অযাডন্ট
-হারডমটি়োন এিিং এ মযাট্রিক্স, ইউডনট ডভক্টর।
• মযাট্রিক্স পিযনর ধারণা
• ডভক্টর ডস্পস, ডিডসস, হুল, অরথ্যগ্ানাডলটি, ডলডন়োর নূযনতম ডকা়োর।
• মযাট্রিক্স eigenvalue, eigenvector, diagonalisation, singular
value decomposition (SVD)।
আপডন তাযদর ড াথ্া়ে িযিহার রযত পাযরন? যডদ আপডন মাডত্র তা হ্রাযসর িনয প্রধান
উপাদান ডিযেষণ (PCA) িযিহার যরন, আপডন সম্ভিত ম পযারাডমটার সহ আরও মপযাক্ট ডেটা
31
ENAMUL HAQUE
মাত্রার িনয এ িিন মান পিন িযিহার রযিন। সমস্ত ডনউরাল ডনটও়ো ি অযালগ্ডরদম ডনটও়ো ি
িা িার এিিং লাডনিিং অপাযরেনগুডলয প্রডতডনডধে এিিং প্রডি়ো রার িনয বরডখ িীিগ্ডণত
ড ৌেল িযিহার যর।
গাডিডিক ডৈযেষি
আপডন ডিেডিদযালয়ে এটি পেন্দ যরন িা না যরন, আমরা ডেটা সায়েে এিিং ডমডেন
লাডনিিংয়ের অযন ডেযত্র যালকুলাযসর মুযখামুডখ হই। এটি এ টি সাধারণ সমসযাটির এ টি
আপাতদৃডষ্টযত সহি ডিযেষণাত্ম সমাধাযনর ডপেযন লু ড য়ে আযে যা ডলডন়োর ডরযগ্রেযন এ টি
িতুভুিি ফািংেযনর নূযনতম মান ডদয়ে থ্ায । এটি প্রডেেযণর িনয ডনউরাল ডনটও়ো ি দ্বারা উত্পন্ন
প্রডতটি িযা যপ্রাপযাযগ্েন পদ্ধডতযতও অন্তভুিি। গ্াডণডত ডিযেষযণর জ্ঞান আপনার াযির িনয
খু িই মূলযিান প্রমাডণত হযি। অযেষণ রার িনয ডনম্নডলডখত ডিষ়েগুডল রয়েযে:
• এ পডরিতি নেীল ফািংেন, সীমা, ধারািাডহ তা এিিং ডভন্নতা।
• সীমািদ্ধ িৃ ডদ্ধর সূ ত্র, অডনশ্চ়েতা প্র াে, L'Hôpital এর উপপাদয।
• সযিিাচ্চ এিিং সিিডনম্ন।
• এ টি িটিল ফািংেযনর পণয এিিং ডভন্নতার ডন়েম।
• ডটলর ডসডরি, অসীম ডসডরি সিংযেপণ/ইডন্টযগ্রেন ধারণা।
• অডিযেদয যালকুলাযসর সীমািদ্ধ িৃ ডদ্ধর মূল উপপাদয এিিং সূ ত্র, ডনডদি ষ্ট এিিং
অনুপযুি ইডন্টগ্রাযলর গ্ণনা।
• ডিটা এিিং গ্ামা ফািংেন।
• ডভডরয়েিযলর এ টি ডসযটর াি, সীমা, ধারািাডহ তা এিিং আিংডে
ডেডরযভটিভস।
• সাধারণ ডেফাযরনডে়োল সমী রণ এিিং আিংডে ডেফাযরনডে়োল সমী রযণর
ডমৌডল ডিষ়েগুডল (সিযিয়ে ঠিন ন়ে)।
এগুডল ড াথ্া়ে িযিহার রযিন? আপডন সম্ভিত ভািযেন ড ভাযি লডিডট ডরযগ্রেন
অযালগ্ডরদম িযিহার রা হ়ে। সিিডনম্ন েডত ফািংেন খুোঁ যি ডপযত, ডগ্রডেয়েন্ট িিংেধর পদ্ধডতটি
প্রা়েেই িযিহৃত হ়ে। এটি ীভাযি াি যর তা ডিাঝার িনয, গ্াডণডত ডিযেষণ ধারণাগুডল িযিহার
রা প্রয়োিন: ডগ্রডেয়েন্ট, ডেডরযভটিভস, সীমা, এ টি িটিল ফািংেযনর পাথ্ি য।
32
A BEGINNER’S GUIDE TO DATA SCIENCE
আলাদা গডিি
"ডেটা সায়েযে গ্ডণত" এর মযতা এ টি ডিষ়ে ডনয়ে আযলািনা রার সম়ে আলাদা গ্ডণতয
খু ি মই স্পেি রা হ়ে। তিু ও, আধু ডন ডেটা সায়েে বতডর রা হ়ে ডম্পউটিিং ডসযটযমর সাহাযযয
ডযখাযন আলাদা গ্ডণত এ টি মূল উপাদান। পৃ থ্ গ্ডণত ড াসি আপনায ডিযেষণাত্ম প্র ল্পগুডলযত
াি রার সম়ে অযালগ্ডরদম এিিং ডেটা িা িাযরর বদনডন্দন িযিহাযরর িনয গুরুেপূ ণি ধারণাগুডল
আ়েি রযত সহা়েতা রযি। অযেষণ রার িনয ড েু ডিষ়ে ডনযি ডদও়ো হল:
• ডসট, উপযসট, িু ডল়োন।
• গ্ণনা ফািংেন, combinatorics, countability।
• প্রমাযণর প্রধান পদ্ধডত হল আন়েন, দ্বন্দ্ব দ্বারা প্রমাণ।
• প্রিতি নমূল , ডিয়োগ্মূল এিিং প্রস্তাডিত যুডির ডভডি।
• প্রধান ডেটা িা িার হল টযা , ড উ, গ্রাফ, অযাযর, হযাে ডটডিল, ট্রি।
• গ্রাফ ইনভাডরয়েন্টস: সিংযুি উপাদান, ভারযটক্স ডেগ্রী, ডফােি - ফু ল ারসন তি,
গ্রাফ ালাডরিং।
• পু নরািৃ ি সূ ত্র (সমী রণ, সম্প ি )।
• ফািংেন িৃ ডদ্ধ, "O" স্বরডলডপ িড়।
ডযয াযনা সামাডি ডনটও়ো ি ডিযেষণ রার সম়ে গ্রাফ ইনভাডরয়েন্টস এিিং দ্রুত
অযালগ্ডরদম অপডরহাযি। এগুযলা ড াথ্া়ে িযিহার রা যাযি? ডযয াযনা অযালগ্ডরদযমর সাযথ্,
আপনায িড় O স্বরডলডপ িযিহার যর সামড়ে এিিং স্থাডন িটিলতা িু ঝযত হযি। এটি প্রয়োিনী়ে,
উদাহরণস্বরূপ, ইনপু ট ডেটার পডরমাণ িৃ ডদ্ধর সাযথ্ সাযথ্ রান সম়ে এিিং প্রয়োিনী়ে আ ার ীভাযি
িৃ ডদ্ধ যর তা ডনধিারণ রার সম়ে।
33
ENAMUL HAQUE
34
A BEGINNER’S GUIDE TO DATA SCIENCE
গ্াডণডত ডিযেষণ
35
ENAMUL HAQUE
অডিমাইযজ্শন পদ্ধডি
• নন-স্মুথ্ ফািংেন অডিমাইি রা (স্থানী়ে ডনম্নগ্ডতর সমসযা)।
• ইগ্ডনেন অনু রণ পদ্ধডত।
• ডিযনটি আলযগ্াডরডদম. ডেফাযরনডে়োল ডিিতি যনর অযালগ্ডরদম।
• Ndder-Mead পদ্ধডত।
36
A BEGINNER’S GUIDE TO DATA SCIENCE
পডরসিংখযানগ্ত মযেডলিং
স্থাডনক মযেল
স্থাডন ডনভি রতা হল ডভৌগ্ডল স্থাযনর মযধয বিডেযষ্টযর সহ-বিডিত্রয: প্রডক্সমাল ডলায েযনর
বিডেষ্টযগুডল ইডতিাি িা ডনডতিাি ভাযি সম্প ি যুি িযল মযন হ়ে। স্থাডন ডনভি রতা
পডরসিংখযানগুডলযত স্থাডন অযটা-পারস্পডর সম্পয ি র সমসযার ডদয পডরিাডলত যর, ডযমন
সামড়ে অযটা-পারস্পডর সম্পয ি র মযতা, এটি মানসম্মত পডরসিংখযান ড ৌেলগুডলয লঙ্ঘন যর
যা পযিযিেযণর মযধয স্বাধীনতা অনুমান যর6
সময় ডসড জ্
সম়ে ডসডরি ডিযেষযণর পদ্ধডত দুটি ডেণীযত ডিভি রা ডযযত পাযর: ডিয ায়েডে-ডোযমন
পদ্ধডত এিিং সম়ে-ডোযমন পদ্ধডত। প্রািন িণিালী ডিযেষণ এিিং সম্প্রডত তরঙ্গা ৃ ডত ডিযেষণ
37
ENAMUL HAQUE
অন্তভুিি; পযররটির মযধয রয়েযে অযটা-পারস্পডর সম্প ি এিিং িস-পারস্পডর সম্প ি ডিযেষণ।
টাইম ডোযমইযন, পারস্পডর সম্প ি ডিযেষণগুডল ডকলযুি পারস্পডর সম্প ি িযিহার যর
ডফল্টাযরর মযতা পদ্ধডতযত বতডর রা ডযযত পাযর, যার ফযল ডিয ায়েডে ডোযমযন াি রার
প্রয়োিনী়েতা হ্রাস পা়ে।
উপরন্তু, সম়ে ডসডরি ডিযেষণ ড ৌেলগুডল পযারাযমট্রি এিিং নন-পযারাযমট্রি পদ্ধডতযত
ডিভি রা ডযযত পাযর। পযারাযমট্রি পদ্ধডতগুডল অনুমান যর ডয অন্তডনিডহত ডস্থর ডটা াডট
প্রডি়োটির এ টি ডনডদি ষ্ট াঠাযমা রয়েযে যা অল্প সিংখয পরাডমডত িযিহার যর িণিনা রা ডযযত
পাযর (উদাহরণস্বরূপ, এ টি অযটারযগ্রডসভ িা মুডভিং এভাযরি মযেল িযিহার যর)। এই পদ্ধডতর
মযধয, ািটি ডটা াডট প্রডি়ো িণিনা যর এমন মযেযলর পরাডমডতগুডল অনুমান রা। ডিপরীযত,
অ-পযারাযমট্রি পদ্ধডতগুডল স্পষ্টভাযি অনুমান যর ডয প্রডি়োটির ড ান ডিযেষ াঠাযমা আযে তা
না ধযর ড াভাডরয়েে িা প্রডি়োর িণিালী অনুমান যর। সম়ে ডসডরি ডিযেষযণর পদ্ধডতগুডলও ডলডন়োর
এিিং নন-ডলডন়োর, এিিং ইউডনভাডরয়েট এিিং মাডল্টভাডরয়েযট ডিভি হযত পাযর।
38
A BEGINNER’S GUIDE TO DATA SCIENCE
ৈাজ্া ডৈিাজ্ন
মায ি ট ডসগ্যমযন্টেন, যায াটমার ডপ্রাফাইডলিংও িলা হ়ে, এ টি মায ি টিিং িযাযটডি যা
এ টি ডিস্তৃত টাযগ্িট মায ি টয ডভািা, িযিসা, িা ডদেগুডলর উপযসটগুডলযত ডিভি যর থ্ায
যাযদর সাধারণ িাডহদা, আগ্রহ এিিং অগ্রাডধ ার আযে িা অনু ভূত হ়ে এিিং তারপর লেয ডনধিারযণর
ড ৌেলগুডল ডেিাইন এিিং িাস্তিা়েন যর তাযদর মায ি ট ডসগ্যমযন্টেন ড ৌেলগুডল সাধারণত
টাযগ্িট গ্রাহ যদর ডিডিত রযত এিিং আরও সিংজ্ঞাড়েত রযত এিিং ডিপণন পডর ল্পনার
উপাদানগুডলর িনয সহা়ে ডেটা সরিরাহ রযত িযিহৃত হ়ে ডযমন ডনডদি ষ্ট ডিপণন পডর ল্পনার লেয
অিিযনর িনয অিস্থান। টাযগ্িট ডসগ্যমযন্টর সু ডনডদি ষ্ট িাডহদা এিিং বিডেযষ্টযর উপর ডনভি র যর
িযিসাগুডল পণয ডিভািন ড ৌেল িা ডনডদি ষ্ট পণয িা পযণযর ডরখার সাযথ্ িডড়ত এ টি অডভন্ন পদ্ধডতর
ডি াে রযত পাযর।
সয পাড শ ডসযেম
ডর যমোর ডসযটম িা সু পাডরে ডসযটম ( খনও খনও িযাটফমি িা ইডিযনর মযতা প্রডতেব্দ
ডদয়ে "ডসযটম" প্রডতস্থাপন রা হ়ে) হল তথ্য ডফল্টাডরিং ডসযটযমর এ টি উপযেণী যা িযিহার ারী
এ টি আইযটময 'ডরটিিং' িা 'পেন্দ' সম্পয ি ভডিষযদ্বাণী রযত িা়ে।
অযাট্রিডৈউশন মযেডলিং
এ টি অযাট্রিডিউেন মযেল হল ডন়েম িা ডন়েযমর ডসট যা ডনধিারণ যর ড ভাযি ডিি়ে এিিং
রূপান্তযরর িনয ডিডেট রূপান্তর পযথ্র টািপয়েন্টগুডলযত িরাে রা হ়ে। উদাহরণস্বরূপ, গুগ্ল
39
ENAMUL HAQUE
ডকাড িং
ডকাডরিং মযেল এ টি ডিযেষ ধরযনর ভডিষযদ্বাণীমূল মযেল। ভডিষযদ্বাণীমূল মযেলগুডল
loanণ পডরযোধ, দুর্িটনার ঝুোঁ ড , ক্লায়েন্ট মন্থন িা অিনডত, িা ভাল ডিডনস ড নার সম্ভািনা সম্পয ি
ভডিষযদ্বাণী রযত পাযর। ডকাডরিং মযেলগুডল সাধারণত লগ্াডরদডম ডকল িযিহার যর (আপনার
ডকাযরর প্রডতটি অডতডরি 50 পয়েন্ট, ডেফল্ট হও়োর ঝুোঁ ড 50% ডময়ে ডদ়ে)। এগুডল লডিডট
ডরযগ্রেন এিিং ডেডসেন ট্রি িা এ াডধ অযালগ্ডরদযমর সিংডমেযণর উপর ডভডি যর। ডকাডরিং
ডট যনালডি সাধারণত ডলনযদযনর ডেটাযত প্রয়োগ্ রা হ়ে, খনও খনও ডরয়েল-টাইযম
(ডিডেট ােি িাডল়োডত সনাি রণ, ডক্ল িাডল়োডত)।
িডৈষযদ্বািীপূ িণ মযেডলিং
ভডিষযদ্বাণীমূল মযেডলিং ফলাফযলর পূ িিাভাস ডদও়োর িনয পডরসিংখযান িযিহার যর।
প্রা়েেই, ডয র্টনাটি ভডিষযদ্বাণী রযত িা়ে তা ভডিষযযত হ়ে, ড ন্তু ভডিষযদ্বাণীমূল মযেডলিং ডয
ড ান ধরযনর অিানা ইযভযন্ট প্রয়োগ্ রা ডযযত পাযর, তা খনই র্যট না ড ন। উদাহরণস্বরূপ,
ভডিষযদ্বাণীমূল মযেলগুডল প্রা়েই অপরাধ সনাি রযত এিিং অপরাধ সিংর্টিত হও়োর পর
সযন্দহভািনযদর ডিডিত রযত িযিহৃত হ়ে। এগুডল আিহাও়োর পূ িিাভাস, ট মায ি যটর দাযমর
পূ িিাভাস ডদও়োর িনয, িা ডিডির পূ িিাভাস ডদযত, সম়ে ডসডরি িা স্থাডন মযেল অন্তভুিি রার
িনযও িযিহার রা ডযযত পাযর। ডনউরাল ডনটও়ো ি , ডলডন়োর ডরযগ্রেন, ডেডসেন ট্রি এিিং সাদাডসধা
Bayes হল ভডিষযদ্বাণীমূল মযেডলিংয়ের িনয িযিহৃত ড ৌেল। তারা এ টি প্রডেেণ ডসট, িস-
বিধতা, এিিং মযেল ডফটিিং এিিং ডনিিািন বতডরর সাযথ্ যুি।
ক্লাোড িং
ক্লাটার ডিযেষণ িা ক্লাটাডরিং হল িস্তুর এ টি ডসটয এমনভাযি ডগ্াষ্ঠীভুি রার াি ডয
এ ই ডগ্াষ্ঠীর িস্তু (যায ক্লাটার িলা হ়ে) অনয ডগ্াষ্ঠীর (ক্লাটার) তুলনা়ে এয অপযরর সাযথ্
40
A BEGINNER’S GUIDE TO DATA SCIENCE
অযন ডিডে অনুরূপ (ড েু অযথ্ি িা অনযভাযি) । এটি অনুসন্ধানমূল ডেটা মাইডনিং এিিং ডমডেন
লাডনিিং, পযাটানি ডর গ্ডনেন, ইযমি এনালাইডসস, ইনফরযমেন ডরডিভাযলেন এিিং
িায়োইনফরমযাটিক্স সহ অযন ডেযত্র িযিহৃত এ টি সাধারণ পডরসিংখযানগ্ত ডেটা ডিযেষণ ড ৌেল।
তিািধাযন ডেণীডিনযাযসর ডিপরীযত (নীযি), ক্লাটাডরিং প্রডেেণ ডসট িযিহার যর না।
যাইযহা , ড েু সিং র িাস্তিা়েন আযে যায িলা হ়ে আধা-তিািধাযন ডেখা।
িত্ত্বাৈধ্াযন ডেিীডৈিাগ
তিািধাযন ডেণীডিনযাস, যায তিািধাযন ডেখাও িলা হ়ে, ডমডেন লাডনিিং ািটি ডলযিলযুি
প্রডেেণ ডেটা ডথ্য এ টি ফািংেন ডির রা। প্রডেেণ তথ্য প্রডেেণ উদাহরণ এ টি ডসট গ্ঠিত।
তিািধাযন ডেখার ডেযত্র, প্রডতটি উদাহরণ এ টি ইনপু ট িস্তু (সাধারণত এ টি ডভক্টর) এিিং
পেন্দসই আউটপু ট মান (যায ডলযিল, ক্লাস িা ডিভাগ্ও িলা হ়ে) সমডেত এ টি ডিাড়া। এ টি
তিািধাযন ডেখার অযালগ্ডরদম প্রডেেণ ডেটা ডিযেষণ যর এিিং এ টি অনুডমত ফািংেন বতডর
যর, যা নতুন উদাহরণ মযাডপিংয়ের িনয িযিহার রা ডযযত পাযর। এ টি অনুকূল দৃেয ল্প
অযালগ্ডরদময অযদখা দৃষ্টাযন্তর িনয ক্লাস ডলযিলগুডল সঠি ভাযি ডনধিারণ রার অনুমডত ডদযি।
ে ম মূ লয িত্ত্ব
িরম মূলয তি িা িরম মূলয ডিযেষণ (ইডভএ) পডরসিংখযাযনর এ টি োখা যা সম্ভািযতা
ডিতরযণর মধযমা ডথ্য িরম ডিিুযডত ডমা াযিলা যর। এটি এ টি প্রদি যিােম ডভডরয়েিযলর প্রদি
অেিার ৃ ত নমুনা ডথ্য মূলযা়েন রযত িা়ে, যা পূ যিি পযিযিেযণর ডিয়ে ডিডে িরম র্টনার সম্ভািনা।
উদাহরণস্বরূপ, প্রডত 10, 100 িা 500 িেযর এ িার িনযা হ়ে। এই মযেলগুডল সম্প্রডত ডিপযি়ে র
র্টনাগুডলর পূ িিাভাস ডদও়োর িনয খারাপভাযি াি রযে, যার ফযল িীমা ড াম্পাডনগুডলর িযাপ
েডত হয়েযে।
ডসময যলশন
মযন্ট- াযলিা ডসমুযলেনগুডল অযন প্রসযঙ্গ িযিহৃত হ়ে: িহু-স্তযরর স্পযাটিও-ডটযম্পারাল
হা়োরাড ি যাল ডিইডস়োন মযেযলর মযতা িটিল ডসটিিংযস উচ্চমাযনর েদ্ম-যিােম সিংখযা বতডর
রযত, ডিরল র্টনাগুডলর সাযথ্ সম্পড ি ত পডরসিংখযান গ্ণনা রার িনয পরাডমডতগুডল অনুমান
রযত, অথ্িা এমনড এ টি বতডর রযত ডিযেষ যর ট ডেডেিং িা ইডিডন়োডরিংয়ের িনয ডিডভন্ন
41
ENAMUL HAQUE
অযালগ্ডরদম পরীো এিিং তুলনা রার িনয প্রিুর পডরমাযণ ডেটা (উদাহরণস্বরূপ, িস এিিং অযটা-
সম্প ি যুি সম়ে ডসডরি)।
মন্থন ডৈযেষি
গ্রাহ মন্থন ডিযেষণ আপনায উচ্চ মূযলযর গ্রাহ যদর সনাি রযত এিিং তাযদর উপর
মযনাযযাগ্ ড ন্দ্রীভূত রযত, সাধারণত হারাযনা গ্রাহ িা ডিডির পূ যিি ড ান ািগুডল ডনধিারণ রযত
সাহাযয যর এিিং ড ান ডিষ়েগুডল গ্রাহ ধারণয প্রভাডিত যর তা আরও ভালভাযি িু ঝযত সাহাযয
যর। পডরসিংখযানগ্ত ড ৌেলগুডলর মযধয রয়েযে ডিোঁযি থ্া ার ডিযেষযণর পাোপাডে িারটি রাযিযর
মা ি ভ ডিইন: এয িাযর নতুন গ্রাহ , ডফরত আসা গ্রাহ , ডনডি়ে (হাডরয়ে যাও়ো) গ্রাহ এিিং
পু নরা়ে অডধগ্রহণ রা গ্রাহ , পথ্ ডিযেষণ সহ (মূল ারণ ডিযেষণ সহ) গ্রাহ রা ীভাযি িযল যান
তা ডিাঝার িনয। এ রািয ডথ্য অনয রাযিয, মুনাফা িাড়াযনার িনয। সম্পড ি ত ডিষ়ে: গ্রাহয র
আিীিন মূলয, িযিহার ারী অডধগ্রহযণর খরি, িযিহার ারী ধযর রাখা।
ইনযিন্টড মযাযনজ্যমন্ট
ইনযভন্টডর মযাযনিযমন্ট এ টি ড াম্পাডন ডয আইযটমগুডল ডিডি রযি তা ডিি়ে রার িনয
িযিহার রা সামগ্রীর অেিার, ডটাযরি এিিং িযিহার তিািধান এিিং ডন়েন্ত্রণ রযি এিিং ডিিয়ের িনয
সমাপ্ত পণযগুডলর তিািধান এিিং ডন়েন্ত্রণ রযি। ইনযভন্টডর মযাযনিযমন্ট হল এ টি অপাযরেন
ডরসািি ডট ডন যা অযানাডলটিক্স (টাইম ডসডরি, ডসিনাডলটি, ডরযগ্রেন) িযিহার যর, ডিযেষ যর
ডিি়ে পূ িিাভাস এিিং সযিিািম মূলয ডনধিারযণর িনয - প্রডত ডপ্রাোক্ট যাটাগ্ডর, মায ি ট ডসগ্যমন্ট এিিং
ভূযগ্াল ডভযঙ্গ। এটি প্রাইস অডিমাইযিেযনর সাযথ্ দৃ strongly়ভাযি সম্পড ি ত। এটি শুধু মাত্র
ইট-মটিার অপাযরেযনর িনয ন়ে: ইনযভন্টডরর অথ্ি হযত পাযর আগ্ামী 60 ডদযনর মযধয এ টি
প্র াে ওয়েিসাইযট উপলি িযানার ডিজ্ঞাপযনর স্লটগুডলর পডরমাণ, প্রডতটি িযানার ডিজ্ঞাপযনর স্লটটি
তটা োডফ (এিিং রূপান্তর) সরিরাহ রযি তা অনুমান যর সম্ভািয ডিজ্ঞাপনদাতার াযে। আপডন
এই ভািিু ়োল ইনযভন্টডরর অডতডরি ডিডি িা ম ডিডি রযত িান না। এভাযি,
42
A BEGINNER’S GUIDE TO DATA SCIENCE
ডভডিযত গুগ্ল অযােও়োযেি সঠি মূযলয সঠি ীও়োেিগুডল সনাি রা এিিং ড না;
ীও়োেিগুডলয এ টি সূ িী রণ অযালগ্ডরদম িযিহার যর ডেণীিদ্ধ রা হ়ে (এই ডনিযন্ধ আইযটম
#18 ডদখু ন) এিিং িালডত স্তযর পডরসিংখযানগ্ত তাত্পযি সহ ড েু historicalডতহাডস তথ্য ডপযত
িালডতযত (ডিভাগ্) এ ডত্রত রা হ়ে। এটি অযামািন িা ইযি এর মযতা সিংস্থার িনয এ টি িাস্তি
সমসযা। অথ্িা এটি স্ব়েিংডি়ে উচ্চ-ডিয ায়েডে ট ডেডেিংয়ের মূল অযালগ্ডরদম ডহসাযি িযিহার
রা ডযযত পাযর।
সযৈণ াত্তম মূ লয
প্রথ্ম নিযর ডদযখ মযন হযে এটি এ টি অথ্িননডত সমসযা যা দেতা িিতা িা এমনড
এ টি ডিশুদ্ধ িযিসাড়ে সমসযা দ্বারা পডরিাডলত হ়ে, এটি প্র ৃ ডতর অতযন্ত পডরসিংখযানগ্ত। সযিিািম
মূলয উপলি এিিং পূ িিাভাস ৃ ত ইনযভন্টডর, উৎপাদন খরি, প্রডতযযাগ্ীযদর াে ডথ্য মূলয এিিং
মুনাফা মাডিিন ডিযিিনা যর। দাযমর ডস্থডতস্থাপ তা মযেলগুডল প্রা়েই েডিোলী প্রডতযরাযধ
ডপৌোঁোযনার আযগ্ উচ্চ মূলয ীভাযি িাড়াযনা যা়ে তা ডনধিারণ রযত িযিহৃত হ়ে। আধু ডন
ডসযটমগুডল ডরয়েল-টাইযম িাডহদা অনুযা়েী দাম ডদ়ে, উদাহরণস্বরূপ, ফ্লাইট িা ডহাযটল রুম িু
রার সম়ে। িযিহার ারী-ডনভি র মূলয-মূলযয আরও অডিমাইি রার এ টি উপা়ে, িযিহার ারী
অিংযের উপর ডভডি যর ডিডভন্ন মূলয প্রদান-এ টি ডিতড ি ত সমসযা। এটি িীমা ডেযল্প গ্ৃ হীত হ়ে:
খারাপ গ্াডড় িাল রা এ ই ভাযরযির িনয ভালযদর ডিয়ে ডিডে অথ্ি প্রদান যর, অথ্িা
ধূ মপা়েী/মডহলা/ি়েক িযডিরা স্বাস্থযযসিা িীমার িনয আলাদা ডফ প্রদান যর।
ইনযেযেশন
ডেণীডিনযাযসর উপর ডভডি যর ডয ড ানও ডসযটম ডেণীডিনযাস বতডর এিিং িিা়ে রাখার িনয
বতডর এ টি সূ িী রণ অযালগ্ডরদম িযিহার যর। উদাহরণস্বরূপ, ডপ্রাোক্ট ডরডভউ (ডপ্রাোক্ট এিিং
ডরডভউ়োর উভ়েয ই এ টি ইনযে েন অযালগ্ডরদম িযিহার যর ডেণীভুি রযত হযি, তারপর
এয অপযরর সাযথ্ মযাপ রা হযি), এ টি ডনডদি ষ্ট ডোযমইন, ডেডিটাল যন্টন্ট মযাযনিযমন্ট এিিং
অিেযই সািি ইডিন ডট যনালডিযত অনুসরণ রার িনয েীষি িযডিযদর সনাি রযত অযালগ্ডরদম
ডকার রা । সূ িী রণ এ টি খু ি দে ক্লাটাডরিং অযালগ্ডরদম, এিিং সম়েসীমার িযাপ সূ িয িযিহৃত
সম়েগুডল বরডখ ভাযি িৃ ডদ্ধ পা়ে - এটি খু ি দ্রুত - আপনার ডেটাযসযটর আ াযরর সাযথ্। মূলত, এটি
টন েকুযমন্ট ডিযেষণ, ডিডল়েন ডিডল়েন ীও়োেি ডির রা, ডফল্টার রা, এ টি ীও়োেি
ডিয ায়েডে ডটডিল বতডর এিিং েীষি ীও়োেিগুডলযত ডফা াস রার পযর মযানু়োডল ডনিিাডিত
য়ে যো ডিভাযগ্র উপর ডনভি র যর।
43
ENAMUL HAQUE
সােণ ইডিন
ভাল সািি ইডিন প্রযুডি পডরসিংখযানগ্ত মযেডলিংয়ের উপর অযন ডিডে ডনভি র যর।
এন্টারপ্রাইি সািি ইডিন ড াম্পাডনয সাহাযয যর - উদাহরণস্বরূপ, অযামািন - িযিহার ারীযদর
তাযদর খুোঁযি ডির রার সহি উপা়ে ডদয়ে তাযদর পণয ডিডি যর। ডয ড ান সািি ইডিযন িযিহৃত
মূল অযালগ্ডরদম হল এ টি ইনযেযক্সেন িা স্ব়েিংডি়ে টযাডগ্িং ডসযটম। গুগ্ল অনুসন্ধান ডনম্নরূপ উন্নত
রা ডযযত পাযর:
• ডপি র্যাঙ্ক ডনমূিল রুন - এই অযালগ্ডরদমটি প্রতার যদর দ্বারা ডিা া িানাযনা
হয়েযে ডলঙ্ক খামার এিিং অনযানয ওয়েি স্পযাম,
• সািি ডরিাল্ট ম টযাটি , ম ডহমাড়েত রযত আপনার ইনযেযক্স র্ন র্ন নতুন
যন্টন্ট ডযাগ্ রুন,
• ভাল িযিহার ারী/অনুসন্ধান ীও়োেি/লযাডেিং পৃ ষ্ঠা ডমযল অযালগ্ডরদম িযিহার যর
আরও প্রাসডঙ্গ ডনিন্ধ ডদখান যা ডেষ পযিন্ত আরও ভাল সূ িী রণ ডসযটম এিিং
• ডনিযন্ধর উৎস ডদখাযনার িনয আযরা ভাযলা অযাট্রিডিউেন মযেল িযিহার রুন,
ডলঙ্কেইন িা অনয ড াথ্াও প্র াডেত ডপ ন়ে। (এটি ডোট প্র াে যদর উপর ডিডে
িাপ ডদও়ো এিিং এ টি ডনিযন্ধর প্রথ্ম র্টনা ডিডিত রার মযতা সহি হযত পাযর:
টাইমটযাম্প সনাি রণ এিিং িযিস্থাপনা)।
ক্রস ডসডলিং
িস-ডসডলিং আপ-ডসডলিং ডথ্য আলাদা। সাধারণত, সহযযাগ্ী ডফল্টাডরিং অযালগ্ডরদযমর উপর
ডভডি যর, ধারণাটি খুোঁযি ডির রা হ়ে - ডিযেষত খু িরাযত - সাম্প্রডত ি়ে িা আগ্রযহর ডভডিযত
ড ান পণয ক্লায়েন্টয ডিডি রযত হযি। উদাহরণস্বরূপ, ডপেল ড না গ্রাহয র াযে ইডিন ডতল
44
A BEGINNER’S GUIDE TO DATA SCIENCE
ডিডির ডিষ্টা রা। িযাডঙ্কিং -এ, এ টি ড াম্পাডন হ়েযতা ডিে ড েু পডরযষিা ডিডি রযত িা়ে: প্রথ্যম
এ টি ডিড িং অযা াউন্ট, তারপর এ টি ডসডভিং অযা াউন্ট, তারপর এ টি িযিসাড়ে অযা াউন্ট,
তারপর এ টি ডনডদি ষ্ট গ্রাহ ডিভাযগ্ loanণ ইতযাডদ। িযাযলি হল সঠি িম ডিডিত রা যাযত
ড ান পযণযর প্রিার রা উডিত, সঠি গ্রাহ ডিভাগ্ এিিং ডিডভন্ন প্রিাযরর মযধয সযিিািম সম়ে
িযিধান।
ডক্লডনকাল ট্রায়াল
ডক্লডন াল ো়োল হল ডক্লডন াল গ্যিষণা়ে রা পরীো, সাধারণত ডোট তথ্য িডড়ত। মানুযষর
অিংেগ্রহণ ারীযদর উপর এই ধরযনর সম্ভািয িায়োযমডে যাল িা আিরণগ্ত গ্যিষণা অধয়েনগুডল
ডনডদি ষ্ট িায়োযমডে যাল িা আিরণগ্ত হস্তযেযপর উির ডদও়োর িনয ডেিাইন রা হয়েযে, যার
মযধয রয়েযে নতুন ডিড ত্সা এিিং পডরডিত হস্তযেপ যা আরও গ্যিষণা এিিং তুলনার িনয
প্রয়োিনী়ে। ডক্লডন াল ো়োলগুডল ডনরাপিা এিিং াযি াডরতা সম্পড ি ত তথ্য বতডর যর। প্রাথ্ডম
উযদ্বযগ্র মযধয রয়েযে ড ভাযি ডরাগ্ীযদর নমুনা ডদও়ো হ়ে (প্রধানত যডদ তাযদর েডতপূ রণ ডদও়ো
হ়ে), এই গ্যিষণা়ে স্বাযথ্ির দ্বন্দ্ব এিিং পু নরুত্পাদনযযাগ্যতার অভাি।
45
ENAMUL HAQUE
ৈহুডৈধ্ প ীক্ষা
মাডল্টযভডরয়েট ডটডটিং এ টি হাইযপাডথ্ডসস পরীো রার এ টি ড ৌেল ডযখাযন এ াডধ
ডভডরয়েিল পডরিতি ন রা হ়ে। লেয হল সম্ভািয সিংডমেযণর মযধয ড ান বিডিযত্রর সিংডমেণ সিযিয়ে
ভাযলা যর তা ডনধিারণ রা। ওয়েিসাইট এিিং ডমািাইল অযাপগুডল পডরিতি নেীল উপাদানগুডলর
সিংডমেযণ গ্ঠিত যা িহুডিধ পরীোর মাধযযম অডিমাইি রা হ়ে। এর মযধয রয়েযে পরীোর যত্নেীল
ন ো, এিিং এ টি ওয়েিযপযির দুটি সিংকরযণর মযধয েুদ্র, অস্থা়েী পাথ্ি য (ফলন িা ওয়েি
োডফয র মযধয) পডরসিংখযানগ্ত তাত্পযি নাও থ্া যত পাযর। যখন ANOVA8এিিং হাইযপাডথ্ডসযসর
পরীোগুডল িহুডিধ পরীোর িনয ডেল্প িা স্বাস্থযযসিা পডরসিংখযানডিদরা িযিহার যরন, আমরা ডেটা
ডিডনিং এিিং মযেল-মুি আস্থা িযিধাযনর উপর ডভডি যর মযেল-মুি, ডেটা-িাডলত ডসযটম বতডর
যরডে। এ টি িহুমুখী পরীোর পরীো িন্ধ রা (তারা সাধারণত ওয়েি ডপি অডিমাইযিেযনর
িনয 14 ডদন স্থা়েী হ়ে) যত তাড়াতাডড় ডিি়েী সিংডমেণটি ডিডিত রা হ়ে তা প্রিুর অথ্ি সাে়ে
রযত সহা়েতা যর। মযন রাখযিন ডয িডহরাগ্ত র্টনা - উদাহরণস্বরূপ, েু টির ডদন িা ড েু সাভি ার
ডিভ্রাট - িহুডিধ পরীোর ফলাফলয প্রভাডিত রযত পাযর এিিং এর সমাধান রা প্রয়োিন।
46
A BEGINNER’S GUIDE TO DATA SCIENCE
47
ENAMUL HAQUE
48
A BEGINNER’S GUIDE TO DATA SCIENCE
49
ENAMUL HAQUE
50
A BEGINNER’S GUIDE TO DATA SCIENCE
51
ENAMUL HAQUE
52
A BEGINNER’S GUIDE TO DATA SCIENCE
53
ENAMUL HAQUE
1
Dan Radak - Data Science Security Hacks - https://data-science-
blog.com/blog/2020/06/04/data-science-security-hacks/
2
kirk86 - Statistical modeling summarization -
https://kirk86.github.io/2017/11/stats-modeling/
3
Smriti Srivastava - The 10 general applications of statistical models in data ana-
lytics - https://www.analyticsinsight.net/the-10-general-applications-of-statistical-
models-in-data-analytics/
4
ANOVA - Analysis of variance is a collection of statistical models and their asso-
ciated estimation procedures used to analyse the differences among means. ANOVA
was developed by the statistician Ronald Fisher.
5
েযান রাদা -ডেটা সায়েে ডসড উডরটি হযা স-https://data-science-
blog.com/blog/2020/06/04/data-science-security-hacks/
6
kirk86 - পডরসিংখযানগ্ত মযেডলিং সিংডেপ্ত রণ - https://kirk86.github.io/2017/11/stats-
modeling/
7
স্মৃডত শ্রীিাস্তি-তথ্য ডিযেষযণ পডরসিংখযানগ্ত মযেলগুডলর 10 টি সাধারণ অযাডিয েন-
https://www.analyticsinsight.net/the-10-general-applications-of-statistical-
models-in-data-analytics/
8
ANOVA - বি ডল্প ডিযেষণ হল পডরসিংখযানগ্ত মযেলগুডলর এ টি সিংগ্রহ এিিং তাযদর সাযথ্ সম্পড ি ত
অনু মান পদ্ধডত যা মাধযযমর মযধয পাথ্ি য ডিযেষণ রযত িযিহৃত হ়ে। ANOVA বতডর যরডেযলন পডরসিংখযানডিদ
ডরানাল্ড ডফোর।
54