Chapter 5

Download as pdf or txt
Download as pdf or txt
You are on page 1of 58

How to dive into the data ocean without drowning

All rights reserved. This book or any portion thereof may not be re-
produced or used in any manner whatsoever without the publisher's
express written permission except for the use of brief quotations in a
book review or scholarly journal.

COPYRIGHT © 2021 ENAMUL HAQUE


All rights reserved
Enel Publications
London, UK
Amazon Kindle Direct Publishing

First Printing Edition, April 2021


ISBN 9798731261074
A BEGINNER’S GUIDE TO DATA SCIENCE

CHAPTER FIVE:
DATA SCIENCE DISCIPLINES

1
ENAMUL HAQUE

“Hiding within those mounds of data is knowledge that could change the
life of a patient, or change the world.” ... – Atul Butte, Stanford University

2
A BEGINNER’S GUIDE TO DATA SCIENCE

Core Disciplines of Data Science

Many core branches of learning contribute to the data science disci-


pline. It suggests generic questions that data scientist should ask as they
work through solving problems.

Data engineering
As the name implies, data engineering is concerned with data, name-
ly its delivery, storage and processing. Accordingly, the main task of engi-
neers is to provide a reliable infrastructure for data. With the advent of
big data, the area of responsibility has changed dramatically. Previously,
these experts wrote large SQL queries and distilled data using tools such
as Informatica ETL, Pentaho ETL, Talend, but now the requirements
for data engineers have increased. A data engineer understands pro-
gramming better than any data scientist, but the opposite is true when it
comes to statistics.

Scientific method
The Scientific Method is the science part of data science. According
to Wikipedia, the Scientific Method is a process for acquiring new
knowledge by applying the principles of reasoning on empirical evidence
derived from testing hypotheses through repeatable experiments. When a
scientist hears someone assertion about a fact, they naturally want to
know both the evidence and the standard of acceptance for that evidence.

3
ENAMUL HAQUE

Mathematics
Mathematics (along with statistics) is the cerebral part of Data Sci-
ence. We will look into this separately.

Statistics
Statistics is the study of the collection, organisation, analysis, and in-
terpretation of data. It involves exploring data, discovering patterns and
relationships, creating models, and making inferences about the future.
Statistics is the discipline that has the straightest-line pedigree to data sci-
ence. The statistician is responsible for understanding the analysis that
will be done on the data to be collected and organised appropriately.

Advanced computing
Advanced computing is the heavy lifting of data science. According
to Wikipedia, computer programming (often shortened to programming
or coding) is designing, writing, testing, debugging, and maintaining
computer programs' source code. This source code is written in one or
more programming languages. The purpose of programming is to create
a set of instructions that computers use to perform specific operations or
to exhibit desired behaviours. Writing source code often requires exper-
tise in many different subjects, including knowledge of the application
domain, specialised algorithms and formal logic.

Visualisation
Data visualisation helps you turn all that granular data into easily
understood, visually compelling—and valuable—business information.
By tapping into external data sources, today’s data visualisation tools
don’t simply let you see your KPIs more; clearly, they unify data and ap-
ply AI-driven analytics to reveal relationships between your KPIs, the
market, and the world.

4
A BEGINNER’S GUIDE TO DATA SCIENCE

Hacker mindset
A typical scientific mindset is building models, training, plot graphs,
and analysing the different attributes to come up with a solution. The
mindset of a hacker is very different from that of a scientist. They focus
more on finding Solutions using simple methods. While the data scien-
tists use so many various components to a problem, the hacker works at
eliminating complexity to come up with a solution.1 Therefore, the hack-
er mindset is more complimentary because the scientific mind's confines
do not bound them.

Domaine expertise
Domain expertise is the glue that holds data science together. Ac-
cording to Wikipedia, subject matter or domain expertise is proficiency,
special knowledge or skills, in a particular area or topic. Any domain of
knowledge can be subject to a data science inquiry, including but not
limited to medicine, politics, the physical and biological sciences, market-
ing, information security, demographics, and even literature. Every data
science team must include at least one person who is a subject matter ex-
pert on the problem being solved.

5
ENAMUL HAQUE

Mathematics in Data Science

Mathematics is the foundation for any modern scientific discipline.


And it's not a secret to anyone that almost all modern data science meth-
ods (including machine learning) are based on some kind of mathemati-
cal calculations. Sometimes, as a data scientist (or even a junior analyst),
you need to know basic mathematics in order to correctly apply its meth-
ods. For other purposes, you can use the API or a ready-made algorithm.
But, at the same time, good possession of Nanami math on which to
build your algorithm to create recommendations for the use of the prod-
uct never hurt. This will give you an edge over your competitors and help
you maintain confidence in your knowledge. It's always good to know
what's under the hood rather than just sitting behind the wheel without
knowing anything about the car.
Of course, you will need other knowledge, programming skills, a lit-
tle business acumen, unique analytical thinking and curiosity about data,
which are so necessary for a leading data scientist. In this article, I have
tried to collect the most important mathematical concepts to help you in
this endeavour.
Knowledge of mathematics basics is essential for professionals who
want to move into this area from another specialisation (hardware devel-
opment, trade, chemical industry, medicine and healthcare, business
management, etc.).
And while they may think they've worked with spreadsheets, numer-
ic calculations, and predictions for a long time, the math skill require-
ments are vastly different from their current job in data science.
Here are some handpicked suggestions of topics that will come in
handy to stay at the top of the data science game.

6
A BEGINNER’S GUIDE TO DATA SCIENCE

Functions, variables, equations, graphs


Let's start with basic things like linear equations and end with New-
ton's binomial and its properties.
• Logarithm, exponential, polynomial functions, rational
numbers.
• Foundations of geometry and basic theorems, trigonometric
identities.
• Real and complex numbers, their basic properties.
• Series, Sums and Inequalities.
• Plotting, rectangular and polar coordinate systems, tapered
sections.
If you want to figure out how to quickly find something in a data-
base with a million sorted items, then you need the concept of binary
search. To understand dynamics, you first need to understand logarithms
and recurrence equations. Or, if you want to analyse time series, use con-
cepts like periodic functions and exponential law.

Statistics
This is what you need to know to grow as a data scientist. The im-
portance of a clear understanding of the basic concepts of statistics and
probability cannot be overstated in discussions about data science. Many
practitioners in the field refer to classical machine learning (not a neural
network) as nothing more than statistical learning. The topic is vast and
endless, and therefore focused planning is essential to cover as many core
concepts as possible.
• Summary and descriptive statistics, mean, variance, covari-
ance, correlation.
• Fundamentals of probability theory: basic ideas, expectation,
calculus of probability, Bayes' theorem, conditional proba-
bility.

7
ENAMUL HAQUE

• Probability distribution functions - uniform, normal, bino-


mial, chi-square, Student's t distribution, central limit theo-
rem.
• Sampling, measurement, error, random number generator.
• Hypothesis testing, A/B testing, confidence interval, P-
value.
• ANOVA, t-test.
• Linear regression, regularisation.
Where you can use them? During interviews. Trust me. As a for-
ward-looking data scientist, you can quickly make a good impression on
your future employer by mastering all of the above concepts. While
working, you will often have to deal with the need to use certain con-
cepts.

Linear algebra
Facebook friends recommendation, Spotify song recommendation,
Salvador Dali-style effect of photography using deep neural network
transfer learning. What do they all have in common? Matrices and matrix
algebra are used everywhere. Matrix algebra is an important aspect of
mathematics that helps you understand how most machine learning algo-
rithms function in a data stream. The following are the most important
topics to explore:
• A matrix and vectors' main properties are dot product, linear
transformation, transposition, conjugation, rank, determi-
nant.
• Inner and outer product, matrix multiplication rule and var-
ious algorithms, inverse matrix.
• Spatial matrices - square, unit, triangular, sparse, dense,
symmetric, Hermitian, anti-Hermitian and unitary matrices,
unit vector.

8
A BEGINNER’S GUIDE TO DATA SCIENCE

• The concept of matrix decomposition / LU-decomposition,


Gauss / Gauss-Jordan method, solution of systems of linear
algebraic equations of the form Ax = b.
• Vector space, basis, hull, orthogonality, linear least squares.
• Matrix eigenvalue, eigenvector, diagonalization, singular
value decomposition (SVD).
Where you can use them? If you are using principal component
analysis (PCA) for dimensionality reduction, you will most likely use sin-
gular value decomposition for a more compact data dimension with few-
er parameters. All neural network algorithms use linear algebra tech-
niques to represent and process network structures and learning opera-
tions.

Mathematical analysis
Whether you liked it at university or not, we encounter calculus in
many aspects of data science and machine learning. It is hidden behind a
seemingly simple analytical solution to a common problem with the least
value of a quadratic function in linear regression. It is also embedded in
every backpropagation method generated by the neural network for
training. Knowledge of mathematical analysis will prove to be very valu-
able for your work. The following are topics to explore:
• Single variable function, limit, continuity and differentiabil-
ity.
• The formula of finite increments, disclosure of uncertain-
ties, L'Hôpital's theorem.
• Maximum and minimum.
• Rules for the product and differentiation of a complex func-
tion.
• Taylor series, infinite series summation/integration concept.
• The main theorem and formula for finite increments of in-
tegral calculus, calculation of definite and improper inte-
grals.

9
ENAMUL HAQUE

• Beta and Gamma Functions.


• Functions of a set of variables, limit, continuity and partial
derivatives.
• Fundamentals of ordinary differential equations and partial
differential equations (not the most difficult).
Where to use them? You've probably wondered how the logistic re-
gression algorithm is used. To find the minimum loss function, the gra-
dient descent method is very often used. To understand how this works,
it is necessary to use mathematical analysis concepts: gradient, derivatives,
limits, differentiation of a complex function.

Discrete math
Discrete mathematics is rarely touched upon when discussing a topic
such as "mathematics in data science." Nevertheless, modern data science
is built with the help of computing systems in which discrete mathemat-
ics is a key element. Discrete mathematics courses will help you master
important concepts for the daily use of algorithms and data structures
when working on analytical projects. Below are some of the topics to ex-
plore:
• Set, subset, boolean.
• Counting functions, combinatorics, countability.
• The main methods of proof are induction, proof by contra-
diction.
• Foundations of inductive, deductive and propositional logic.
• The main data structures are stacks, queues, graphs, arrays,
hash tables, trees.
• Graph invariants: connected components, vertex degree,
Ford - Fulkerson theorem, graph colouring.
• Recurrent formulas (equations, relations).
• Function growth, "O" notation is large.
Where they can be used? Graph invariants and fast algorithms are es-
sential when analysing any social networks. With any algorithm, you

10
A BEGINNER’S GUIDE TO DATA SCIENCE

need to understand the temporal and spatial complexity using the big O
notation. This is necessary, for example, when determining how the run
time and the required size increase with the increase in the amount of
input data.

Optimisation, operations research topics


These topics are not much different from the traditional discourse
of applied mathematics since they are mainly important and most used in
specialised fields of study: in theoretical computer science, control theo-
ry, operations research. But a general understanding of these effective
methods can be instrumental in the field of machine learning. Almost
every machine learning algorithm/method aims to minimize some sort of
estimation error, given various constraints. This is the goal of optimisa-
tion. Study topics:
• Optimisation basics - how to formulate a problem.
• Maximum, minimum, convex function, global solution.
• Linear programming, simplex method.
• Integer programming.
• Constraint programming, knapsack problem.
• Randomised optimisation methods - search by ascent to the
top, simulated annealing algorithm, genetic algorithm.
Where they can be used? Simple linear regression problems, as op-
posed to logistic ones, using the least-squares loss function, often have an
exact analytical solution. To understand the reason, you need to know
about such a concept as convexity in optimisation. It will also explain
why we should have enough "rough" solutions for many machine learn-
ing problems. An optimisation is a powerful tool worth exploring in de-
tail.

11
ENAMUL HAQUE

Mathematical Analysis

A good data analyst without basic mathematics is nowhere (and the data
researcher is even more so). So, let’s understand areas to be at the interest
of data science.

The basics of mathematical analysis


• Functions and their properties.
• Function limit (basic views).
• Derivative function (its geometric and mechanical meaning).
• Derivative of a complex function.
• Extremes feature. The bulge function.
• Private derivatives and gradient.
• The gradient in optimization tasks.
• Derivative in the direction.
• Touching plane and linear approximation.

The basics of linear algebra


• Vector space.
• Linear independence.
• Norm and scalar work of vectors.
• Determining the matrix. Operations on the matrix.
• Rank and determiner of the matrix.
• Line equation systems.
• Matrix types.
• Own vectors and own values.

12
A BEGINNER’S GUIDE TO DATA SCIENCE

• Matrix decompositions (spectral, singular).


• Approaching the matrix of the lower rank.
• Singular decomposition and low-burn approximation.

Optimisation methods
• Optimising non-smooth functions (the problem of local
lows).
• The method of imitation of the ignition.
• Genetic algorithms. Algorithm of differential evolution.
• Ndder-Mead Method.

Probability theory and mathematical statistics


• Determining probability. Probability properties.
• Conditional probabilities. The formula of full probability.
Formula Bayes.
• Discreet random values.
• Continuous random values.
• Sample distribution estimate. Statistics.
• Distribution characteristics.
• Important statistics (selective average, median, fashion, vari-
ance, interquartile swing).
• The central limit of the theorem.
• Confidence intervals.

13
ENAMUL HAQUE

Statistical Modelling

A statistical model is a mathematical model that embodies statistical as-


sumptions concerning sample data generation (and similar data from a
larger population). A statistical model represents, often in considerably
idealised form, the data-generating process. A statistical model is usually
specified as a mathematical relationship between one or more random
variables and other non-random variables. Some of the useful statistical
modelling methods are described below:

Spatial models
Spatial dependency is the co-variation of properties within geo-
graphic space: characteristics at proximal locations appear to be correlat-
ed, either positively or negatively. Spatial dependency leads to the spatial
auto-correlation problem in statistics since, like temporal auto-
correlation, this violates standard statistical techniques that assume inde-
pendence among observations2

Time series
Methods for time series analyses may be divided into two classes:
frequency-domain methods and time-domain methods. The former in-
clude spectral analysis and recently wavelet analysis; the latter include au-
to-correlation and cross-correlation analysis. In the time domain, correla-
tion analyses can be made in a filter-like manner using scaled correlation,
thereby mitigating the need to operate in the frequency domain.

14
A BEGINNER’S GUIDE TO DATA SCIENCE

Additionally, time series analysis techniques may be divided into


parametric and non-parametric methods. The parametric approaches
assume that the underlying stationary stochastic process has a particular
structure that can be described using a small number of parameters (for
example, using an autoregressive or moving average model). In these ap-
proaches, the task is to estimate the model's parameters that describe the
stochastic process. By contrast, non-parametric approaches explicitly es-
timate the covariance or the spectrum of the process without assuming
that the process has any particular structure. Methods of time series anal-
ysis may also be divided into linear and non-linear, and univariate and
multivariate.

Survival analysis
Survival analysis is a branch of statistics for analysing the expected
duration of time until one or more events happen, such as a death in bio-
logical organisms and failure in mechanical systems. This topic is called
reliability theory or reliability analysis in engineering, duration analysis or
duration modelling in economics, and event history analysis in sociology.
Survival analysis attempts to answer questions such as: what is the pro-
portion of a population which will survive past a certain time? Of those
that survive, at what rate will they die or fail? Can multiple causes of
death or failure be taken into account? How do particular circumstances
or characteristics increase or decrease the probability of survival? Survival
models are used by actuaries and statisticians, and marketers designing
churn and user retention models.3
Survival models are also used to predict time-to-event (time from be-
coming radicalised to turning into a terrorist or when a gun is purchased
and used in a murder) or to model and predict decay.

15
ENAMUL HAQUE

Market segmentation
Market segmentation, also called customer profiling, is a marketing
strategy that involves dividing a broad target market into subsets of con-
sumers, businesses, or countries that have or are perceived to have com-
mon needs, interests, and priorities, and then designing and implement-
ing strategies to target them. Market segmentation strategies are generally
used to identify and further define the target customers and provide sup-
porting data for marketing plan elements such as positioning to achieve
certain marketing plan objectives. Businesses may develop product dif-
ferentiation strategies or an undifferentiated approach involving specific
products or product lines depending on the target segment's specific de-
mand and attributes.

Recommendation systems
Recommender systems or recommendation systems (sometimes re-
placing “system” with a synonym such as a platform or an engine) are a
subclass of information filtering system that seeks to predict the ‘rating’
or ‘preference’ that a user would give an item.

Association rule learning


Association rule learning is a method for discovering interesting rela-
tions between variables in large databases. For example, the rule { onions,
potatoes } ==> { burger } found in the sales data of a supermarket would
indicate that if a customer buys onions and potatoes together, they are
likely to also buy hamburger meat. In fraud detection, association rules
are used to detect patterns associated with the fraud. Linkage analysis is
performed to identify additional fraud cases: if a credit card transaction
from user A was used to make a fraudulent purchase at store B, by analys-
ing all transactions from store B, we might find another user C with
fraudulent activity.

16
A BEGINNER’S GUIDE TO DATA SCIENCE

Attribution modelling
An attribution model is the rule or set of rules determining how
credit for sales and conversions is assigned to touchpoints in conversion
paths. For example, the Last Interaction model in Google Analytics as-
signs 100% credit to the final touchpoints (i.e., clicks) that immediately
precede sales or conversions. Macro-economic models use long-term, ag-
gregated historical data to assign an attribution weight to a number of
channels for each sale or conversion. These models are also used for ad-
vertising mix optimisation.

Scoring
The scoring model is a special kind of predictive models. Predictive
models can predict defaulting on loan payments, risk of accident, client
churn or attrition, or chance of buying a good. Scoring models typically
use a logarithmic scale (each additional 50 points in your score, reducing
the risk of defaulting by 50%). They are based on logistic regression and
decision trees or a combination of multiple algorithms. Scoring technol-
ogy is typically applied to transactional data, sometimes in real-time
(credit card fraud detection, click fraud).

Predictive Modelling
Predictive modelling leverages statistics to predict outcomes. Most
often, the event one wants to predict is in the future, but predictive mod-
elling can be applied to any type of unknown event, regardless of when it
occurred. For example, predictive models are often used to detect crimes
and identify suspects after the crime has taken place. They may also be
used for weather forecasting, to predict stock market prices, or to predict
sales, incorporating time series or spatial models. Neural networks, linear
regression, decision trees and naive Bayes are techniques used for predic-
tive modelling. They are associated with creating a training set, cross-
validation, and model fitting and selection.

17
ENAMUL HAQUE

Clustering
Cluster analysis or clustering is the task of grouping a set of objects
in such a way that objects in the same group (called a cluster) are more
similar (in some sense or another) to each other than to those in other
groups (clusters). It is the main task of exploratory data mining and a
common statistical data analysis technique used in many fields, including
machine learning, pattern recognition, image analysis, information re-
trieval, and bioinformatics.
Unlike supervised classification (below), clustering does not use
training sets. Though there are some hybrid implementations called semi-
supervised learning.

Supervised classification
Supervised classification, also called supervised learning, is the ma-
chine learning task of inferring a function from labelled training data.
The training data consist of a set of training examples. In supervised
learning, each example is a pair consisting of an input object (typically a
vector) and the desired output value (also called label, class or category).
A supervised learning algorithm analyses the training data and produces
an inferred function, which can be used for mapping new examples. An
optimal scenario will allow for the algorithm to correctly determine the
class labels for unseen instances.

Extreme value theory


Extreme value theory or extreme value analysis (EVA) is a branch of
statistics dealing with the extreme deviations from the median of proba-
bility distributions. It seeks to assess, from a given ordered sample of a
given random variable, the probability of more extreme events than any
previously observed. For instance, floods occur once every 10, 100, or
500 years. These models have been performing poorly recently to predict
catastrophic events, resulting in massive losses for insurance companies.

18
A BEGINNER’S GUIDE TO DATA SCIENCE

Simulations
Monte-Carlo simulations are used in many contexts: to produce
high-quality pseudo-random numbers in complex settings such as multi-
layer Spatio-temporal hierarchical Bayesian models, to estimate parame-
ters to compute statistics associated with infrequent events, or even to
generate a large amount of data (for instance, cross and auto-correlated
time series) to test and compare various algorithms, especially for stock
trading or in engineering.

Churn analysis
Customer churn analysis helps you identify and focus on higher-
value customers, determine what actions typically precede a lost custom-
er or sale, and better understand what factors influence customer reten-
tion. Statistical techniques involved include survival analysis as well as
Markov chains with four states: brand new customer, returning custom-
er, inactive (lost) customer, and re-acquired customer, along with path
analysis (including root cause analysis) to understand how customers
move from one state to another, to maximise profit. Related topics: cus-
tomer lifetime value, cost of user acquisition, user retention.

Inventory management
Inventory management overseeing and controlling the ordering,
storage, and use of components that a company will use to produce the
items it will sell and oversee and control quantities of finished products
for sale. Inventory management is an operations research technique lev-
eraging analytics (time series, seasonality, regression), especially for sales
forecasting and optimum pricing — broken down per product category,
market segment, and geography. It is strongly related to pricing optimisa-
tion. This is not just for brick and mortar operations: inventory could
mean the amount of available banner ad slots on a publisher website in
the next 60 days, with estimates of how much traffic (and conversions)

19
ENAMUL HAQUE

each banner ad slot is expected to deliver to the potential advertiser. You


don’t want to over-sell or under-sell this virtual inventory. Thus you need
good statistical models to predict the web traffic and conversions (to pre-
sell the inventory) for each advertiser category.

Optimum bidding
This is an example of an automated, black-box, machine-to-machine
communication system, sometimes working in real-time via various
API’s. It is backed by statistical models. Applications include detecting
and purchasing the right keywords at the right price on Google Ad-
Words, based on expected conversion rates for millions of keywords,
most of them having no historical data; keywords are categorized using
an indexation algorithm (see item #18 in this article) and aggregated into
buckets (categories) to get some historical data with statistical signifi-
cance, at the bucket level. This is a real problem for companies such as
Amazon or eBay. Or it could be used as the core algorithm for automated
high-frequency stock trading.

Optimum pricing
While at first glance, it sounds like an econometric problem handled
with efficiency curves or even a pure business problem, it is highly statis-
tical in nature. Optimum pricing considers available and predicted inven-
tory, production costs, prices from competitors, and profit margins.
Price elasticity models are often used to determine how high prices can be
boosted before reaching strong resistance. Modern systems offer prices-
on-demand, in real-time, for instance, when booking a flight or a hotel
room. User-dependent pricing — a way to further optimise pricing, of-
fering different prices based on user segment — is a controversial issue. It
is accepted in the insurance industry: bad car drivers paying more than
good ones for the same coverage, or smokers/women / old people paying

20
A BEGINNER’S GUIDE TO DATA SCIENCE

a different fee for healthcare insurance (this is the only price discrimina-
tion allowed by Obamacare).

Indexation
Any system based on taxonomies uses an indexation algorithm cre-
ated to build and maintain the taxonomy. For instance, product reviews
(both products and reviewers must be categorised using an indexation
algorithm, then mapped onto each other), scoring algorithms to detect
the top people to follow in a specific domain, digital content manage-
ment, and of course, search engine technology. Indexation is a very effi-
cient clustering algorithm, and the time used to massive index amounts
of content grows linearly — that is very fast — with the size of your da-
taset. Basically, it relies on a few hundred categories manually selected
after parsing tons of documents, extracting billions of keywords, filtering
them, producing a keyword frequency table, and focusing on top key-
words.
Finally, an indexation algorithm can be used to automatically create
an index for any document — report, article, blog, website, data reposito-
ry, metadata, catalogue, or book. Indeed, that’s the origin of the word
indexation. Surprisingly, publishers still pay people today for indexing
jobs: you can find these jobs listed on the American Society for Indexing
website. This is an opportunity for data scientist entrepreneurs: offering
publishers software that does this job automatically, at a fraction of the
cost.

Search engines
Good search engine technology relies heavily on statistical model-
ling. Enterprise search engines help companies — for instance, Amazon
— sell their products by providing users with an easy way to find them.
The core algorithm used in any search engine is an indexation or auto-
mated tagging system. Google search could be improved as follows:

21
ENAMUL HAQUE

• Eliminate page rank — this algorithm has been fooled by


cheaters developing link farms and other web spam,
• Add new content more frequently in your index to make
search results less static, less frozen in time,
• Show more relevant articles using better user/search key-
word/landing page matching algorithms which ultimately
means better indexation systems, and
• Use better attribution models to show the article's source,
not copies published on LinkedIn or elsewhere. (this could
be as simple as putting more weights on small publishers and
identifying the first occurrence of an article: timestamp de-
tection and management).

Cross-Selling
Usually, based on collaborative filtering algorithms, the idea is to
find — especially in retail — which products to sell to a client based on
recent purchases or interests. For instance, trying to sell engine oil to a
customer buying gasoline. In banking, a company might want to sell sev-
eral services: a checking account first, then a saving account, then a busi-
ness account, then a loan and so on, to a specific customer segment. The
challenge is to identify the correct order in which products must be pro-
moted, the right customer segments, and the optimum time lag between
the various promotions. Cross-selling is different from up-selling.

Clinical trials
Clinical trials are experiments done in clinical research, usually in-
volving small data. Such prospective biomedical or behavioural research
studies on human participants are designed to answer specific biomedical
or behavioural interventions, including new treatments and known in-
terventions that warrant further research and comparison. Clinical trials
generate data on safety and efficacy. Primary concerns include how to

22
A BEGINNER’S GUIDE TO DATA SCIENCE

test patients are sampled (mainly if they are compensated), conflict of


interests in these studies, and the lack of reproducibility.

Figure 1 - The field of statistics affects all areas of life

Multivariate testing
Multivariate testing is a technique for testing a hypothesis in which
multiple variables are modified. The goal is to determine which combina-
tions of variations perform the best out of all possible combinations.
Websites and mobile apps are made of combinations of changeable ele-
ments that are optimised using multivariate testing. This involves careful
design-of-experiment, and the tiny, temporary difference (in yield or web
traffic) between two versions of a webpage might not have statistical sig-
nificance. While ANOVA4 and tests of hypotheses are used by industrial
or healthcare statisticians for multivariate testing, we have developed
model-free, data-driven systems based on data binning and model-free
confidence intervals. Stopping a multivariate testing experiment (they

23
ENAMUL HAQUE

usually last 14 days for web page optimisation) as soon as the winning
combination is identified helps save a lot of money. Note that external
events — for instance, a holiday or some server outage — can impact
multivariate testing results and need to be addressed.

Queuing systems
A queue management system is used to control queues. Queues of
people form in various situations and locations in a queue area, for in-
stance, in a call centre. The process of queue formation and propagation
is defined as queuing theory. People's arrival in a queue is typically mod-
elled using a Poisson method to serve a client modelled using an expo-
nential distribution. While being a statistical problem, it is considered to
be part of operations research.

Supply chain optimisation


Supply chain optimisation is applying processes and tools to ensure a
manufacturing and distribution supply chain's optimal operation. This
includes the optimal placement of inventory within the supply chain,
minimising operating costs (including manufacturing costs, transporta-
tion costs, and distribution costs). This often involves applying mathe-
matical modelling techniques such as graph theory to find optimum de-
livery routes (and optimum locations of warehouses), the simplex algo-
rithm, and Monte Carlo simulations.

24
A BEGINNER’S GUIDE TO DATA SCIENCE

প ঞ্চ ম অ ধ্ য া য় : ড ে ট া স া য য় ন্স ড ে ড স ড ি ন
(please note, that this is ma-
chine translation)

25
ENAMUL HAQUE

ডেটা সায়েযের ড ার ডেডসডিন

ডেখার অযন মূ ল োখা তথ্য ডিজ্ঞান েৃ ঙ্খলা়ে অিদান রাযখ। এটি


সাধারণ প্রশ্নগুডল প্রস্তাি যর যা ডেটা ডিজ্ঞানীযদর ডিজ্ঞাসা রা
উডিত ারণ তারা সমসযা সমাধাযনর মাধযযম াি যর।

ডেটা ইডিডনয়াড িং
নাম ডথ্য ডিাঝা যা়ে, ডেটা ইডিডন়োডরিং ডেটার সাযথ্ সম্পড ি ত, যথ্া এর ডেডলভাডর,
ডটাযরি এিিং প্রযসডসিং। তদনুসাযর, প্রয ৌেলীযদর প্রধান াি হল তযথ্যর িনয এ টি ডনভি রযযাগ্য
অি াঠাযমা প্রদান রা। িড় তযথ্যর আডিভি াযির সাযথ্, দাড়েযের ডেত্রটি নাট ী়েভাযি পডরিডতি ত
হয়েযে। পূ যিি, এই ডিযেষজ্ঞরা ইনফরমযাটি া ইটিএল, ডপন্টাযহা ইটিএল, টযাযলযের মযতা সরিাম
িযিহার যর িড় এসড উএল প্রশ্ন এিিং পাডতত ডেটা ডলযখডেযলন, ড ন্তু এখন ডেটা ইডিডন়োরযদর
প্রয়োিনী়েতা ডিযড়যে। এ িন ডেটা ইডিডন়োর ডযয ান ডেটা সায়েডন্টযটর ডিয়ে ডপ্রাগ্রাডমিংয
ভাযলা ডিাযঝন, ড ন্তু পডরসিংখযাযনর ডেযত্র এর ডিপরীত সতয।

বৈজ্ঞাডনক পদ্ধডি
বিজ্ঞাডন পদ্ধডত হল ডেটা সায়েযের ডিজ্ঞান অিংে। উইড ডপডে়োর মযত, বিজ্ঞাডন পদ্ধডত
হল পু নরািৃ ডিযযাগ্য পরীোর মাধযযম অনুমান পরীো ডথ্য প্রাপ্ত অডভজ্ঞতাগ্ত প্রমাযণর উপর
যুডির নীডত প্রয়োগ্ যর নতুন জ্ঞান অিিযনর এ টি প্রডি়ো। যখন এ িন ডিজ্ঞানী ড ান সতয
সম্পয ি াযরা িিিয শুযনন, তখন তারা স্বাভাডি ভাযিই প্রমাণ এিিং গ্রহণযযাগ্যতার মান উভ়েই
িানযত িা়ে।

গডিি
গ্ডণত (পডরসিংখযান সহ) ডেটা সায়েযের ডসডরব্রাল অিংে। আমরা এটি আলাদাভাযি ডদখি।

26
A BEGINNER’S GUIDE TO DATA SCIENCE

পড সিংখ্যান
পডরসিংখযান হযলা তথ্য সিংগ্রহ, সিংগ্ঠন, ডিযেষণ এিিং িযাখযা অধয়েন। এযত ডেটা অযেষণ,
ডনদেিন এিিং সম্প ি আডিষ্কার, মযেল বতডর রা এিিং ভডিষযত সম্পয ি অনুমান রা িডড়ত।
পডরসিংখযান হযে এমন এ টি েৃ ঙ্খলা যার মযধয ডেটা সায়েযের িনয সরলযরখার িিংেধর রয়েযে।
পডরসিংখযানডিদ ডিযেষণ ডিাঝার িনয দা়েী যা তথ্য সিংগ্রহ রা হযি এিিং যথ্াযথ্ভাযি সিংগ্ঠিত হযি।

উন্নি কডিউটিং
উন্নত ডম্পউটিিং হযে ডেটা সায়েযের ভারী উযিালন। উইড ডপডে়োর মযত, ডম্পউটার
ডপ্রাগ্রাডমিং (প্রা়েেই ডপ্রাগ্রাডমিং িা ড াডেিংয়ের িনয সিংডেপ্ত রা হ়ে) হল ডম্পউটার ডপ্রাগ্রামগুডলর
ডসাসি ড াে ডেিাইন রা, ডলখা, পরীো রা, ডেিাগ্ রা এিিং িিা়ে রাখা। এই ডসাসি ড ােটি এ
িা এ াডধ ডপ্রাগ্রাডমিং ভাষা়ে ডলখা। ডপ্রাগ্রাডমিং এর উযেেয হল ডম্পউটারগুডল ডনডদি ষ্ট অপাযরেন
রযত িা পেন্দসই আিরণ প্রদেিন রার িনয ডনযদি োিলী বতডর যর। ডসাসি ড াে ডলখার িনয
প্রা়েেই অযাডিয েন ডোযমযনর জ্ঞান, ডিযেষ অযালগ্ডরদম এিিং আনুষ্ঠাডন যুডি সহ ডিডভন্ন ডিষয়ে
দেতার প্রয়োিন হ়ে।

ডিজ্য যয়ালাইযজ্শন
ডেটা ডভিু য়োলাইযিেন আপনায ডসই সমস্ত দানাদার ডেটা সহযিই ডিাঝা যা়ে,
িােুষভাযি আ ষিণী়ে — এিিং মূলযিান -িযিসাড়ে তযথ্য পডরণত যর। িাডহয ডেটা উত্সগুডলযত
টযাপ যর, আিয র ডেটা ডভিু য়োলাইযিেন সরিামগুডল আপনায ড িল আপনার ড ডপআই
ডদখযত ডদ়ে না; স্পষ্টতই, তারা আপনার ড ডপআই, িািার এিিং ডিযের মযধয সম্প ি প্র াে রযত
ডেটা এ ডত্রত যর এিিং এআই-িাডলত ডিযেষণ প্রয়োগ্ যর।

হ্যাকায মানডসকিা
এ টি সাধারণ বিজ্ঞাডন মানডস তা হল মযেল বতডর রা, প্রডেেণ ডদও়ো, িট গ্রাফ বতডর
রা এিিং ডিডভন্ন গুণািলী ডিযেষণ যর সমাধান রা। এ িন হযা াযরর মানডস তা এ িন ডিজ্ঞানীর
ডথ্য অযন আলাদা। তারা সহি পদ্ধডত িযিহার যর সমাধান ডখাোঁিার ডদয ডিডে মযনাডনযিে
যর। যডদও ডেটা ডিজ্ঞানীরা এ টি সমসযার িনয এতগুডল ডিডভন্ন উপাদান িযিহার যরন, হযা ার
এ টি সমাধান ডনয়ে আসযত িটিলতা দূর যর।5 অতএি, হযা ার মানডস তা আযরা প্রেিংসনী়ে ারণ
বিজ্ঞাডন মযনর সীমািদ্ধতা তাযদর আিদ্ধ যর না।

27
ENAMUL HAQUE

ডোযমইন দক্ষিা
ডোযমইন দেতা হল ডসই আঠাযলা যা োটা সায়েেয এ সাযথ্ ধযর রাযখ। উইড ডপডে়োর
মযত, ডিষ়েিস্তু িা ডোযমইন দেতা হল এ টি ডিযেষ ডেত্র িা ডিষয়ে দেতা, ডিযেষ জ্ঞান িা
দেতা। জ্ঞাযনর ডয ড ান ডেত্র এ টি োটা সায়েে অনুসন্ধাযনর ডিষ়ে হযত পাযর, যার মযধয med-
icineষধ, রািনীডত, ডভৌত ও বিডি ডিজ্ঞান, ডিপণন, তথ্য ডনরাপিা, িনসিংখযাতাডি , এমনড
সাডহতযও সীমািদ্ধ ন়ে। প্রডতটি ডেটা সায়েে টিযম মপযে এ িনয অন্তভুিি রযত হযি ডযডন
সমসযার সমাধাযনর ডিষয়ে এ িন ডিষ়ে ডিযেষজ্ঞ।

28
A BEGINNER’S GUIDE TO DATA SCIENCE

ডেটা সায়েযে গ্ডণত

গ্ডণত ডযয াযনা আধু ডন বিজ্ঞাডন অনু োসযনর ডভডি। এিিং এটি
ারও াযে ডগ্াপন ন়ে ডয প্রা়ে সমস্ত আধু ডন ডেটা সায়েে
পদ্ধডত (ডমডেন লাডনিিং সহ) ড েু ধরযণর গ্াডণডত গ্ণনার উপর
ডভডি যর। খনও খনও, এ িন তথ্য ডিজ্ঞানী (অথ্িা এমনড
এ িন িু ডন়ের ডিযেষ ) ডহসাযি, আপনার পদ্ধডতগুডল সঠি ভাযি
প্রয়োগ্ রার িনয আপনায ডমৌডল গ্ডণত িানযত হযি। অনযানয
উযেযেয, আপডন API িা এ টি প্রস্তুত অযালগ্ডরদম িযিহার
রযত পাযরন।
ড ন্তু, এ ই সময়ে, নানাডম গ্ডণযতর ভাল দখল যার উপর আপনার অযালগ্ডরদম বতডর রযত
হযি যাযত পণয িযিহাযরর িনয সুপাডরে বতডর রা যা়ে। এটি আপনায আপনার প্রডতযযাগ্ীযদর
উপর এ টি প্রান্ত ডদযি এিিং আপনায আপনার জ্ঞাযনর উপর আস্থা িিা়ে রাখযত সহা়েতা রযি।
গ্াডড়র ডিষয়ে ড েু না ডিযন শুধু িা ার ডপেযন িযস থ্া ার ডিয়ে হুযের নীযি ী আযে তা িানা
সিসম়ে ভাল।
অিেযই, আপনার অনযানয জ্ঞান, ডপ্রাগ্রাডমিং দেতা, সামানয িযিসাড়ে দেতা, অননয
ডিযেষণাত্ম ডিন্তাভািনা এিিং ডেটা সম্পয ি ড ৌতূহল প্রয়োিন হযি, যা এ িন েীষিস্থানী়ে ডেটা
ডিজ্ঞানীর িনয খু ি প্রয়োিনী়ে। এই প্রিযন্ধ, আডম এই প্রযিষ্টা়ে আপনায সাহাযয রার িনয সিযিয়ে
গুরুেপূ ণি গ্াডণডত ধারণাগুডল সিংগ্রহ রার ডিষ্টা যরডে।
গ্ডণযতর মূল ডিষ়েগুডলর জ্ঞান এমন ডপোদারযদর িনয অপডরহাযি যারা এই অঞ্চযল অনয
ডিযেষা়েণ (হােিও়েযার ডেযভলপযমন্ট, ডেে, ড ডম যাল ইোডি, ডমডেডসন অযাে ডহলথ্য ়োর,
ডিিযনস মযাযনিযমন্ট ইতযাডদ) ডথ্য এই এলা া়ে ডযযত িান।

29
ENAMUL HAQUE

এিিং যখন তারা মযন রযত পাযর ডয তারা দীর্িডদন ধযর ডেেেীট, সিংখযাসূ ি গ্ণনা এিিং
ভডিষযদ্বাণী ডনয়ে াি যরযে, গ্ডণযতর দেতার প্রয়োিনী়েতা তাযদর ডেটা সায়েযে িতি মান
িা ডরর ডথ্য এয িাযরই আলাদা।
এখাযন ডিষ়েগুডলর ড েু হযােডপ ে পরামেি ডদও়ো হয়েযে যা ডেটা সায়েে ডগ্যমর েীযষি
থ্া ার িনয াযি আসযি।

ফািংশন, ডিড যয়ৈল, সমীক ি, গ্রাফ


আসু ন বরডখ সমী রযণর মযতা ডমৌডল ডিষ়েগুডল ডদয়ে শুরু ডর এিিং ডনউটযনর ডদ্বপদ এিিং
এর বিডেষ্টযগুডলর সাযথ্ ডেষ ডর।
• লগ্াডরদম, সূ ি ী়ে, িহুপদী ফািংেন, যুডিসঙ্গত সিংখযা।
• িযাডমডত এিিং ডমৌডল তযির ডভডি, ডত্রয াণডমডত পডরি়ে।
• িাস্তি এিিং িটিল সিংখযা, তাযদর ডমৌডল বিডেষ্টয।
• ডসডরি, ডযাগ্ফল এিিং অসমতা।
• িটিিং, আ়েতযেত্রা ার এিিং ডমরু সমে়ে িযিস্থা, ডটপারে ডিভাগ্।
আপডন যডদ লে লে সািাযনা আইযটযমর সাযথ্ এ টি োটাযিযস ীভাযি দ্রুত ড েু খুোঁযি
ডির রযত িান তা িানযত িান তযি আপনার িাইনাডর অনুসন্ধাযনর ধারণাটি প্রয়োিন। গ্ডতডিদযা
ডিাঝার িনয, আপনায প্রথ্যম লগ্াডরদম এিিং পু নরািৃ ডি সমী রণ িু ঝযত হযি। অথ্িা, যডদ আপডন
সম়ে ডসডরি ডিযেষণ রযত িান, পযিা়েিডম ফািংেন এিিং সূ ি ী়ে আইযনর মত ধারণা িযিহার
রুন।

পড সিংখ্যান
ডেটা সায়েডন্টট ডহযসযি ডিযড় ওঠার িনয আপনার এটাই িানা দর ার। পডরসিংখযান এিিং
সম্ভািনার ডমৌডল ধারণাগুডলর এ টি পডরষ্কার ডিাঝার গুরুে তথ্য ডিজ্ঞান সম্পয ি আযলািনা়ে
িাড়ািাডড় রা যাযি না। ডেযত্রর অযন অনুেীলন ারীরা ক্লাডস যাল ডমডেন লাডনিিংয (ডনউরাল
ডনটও়ো ি ন়ে) পডরসিংখযানগ্ত ডেোর ডিয়ে ডিডে ড েু িযল না। ডিষ়েটি ডিস্তৃত এিিং অডিরাম, এিিং
তাই যতটা সম্ভি মূল ধারণাগুডল ভার রার িনয ডনিদ্ধ পডর ল্পনা অপডরহাযি।
• সিংডেপ্তসার এিিং িণিনামূল পডরসিংখযান, গ্ড়, বিডিত্রয, সহিাস, পারস্পডর
সম্প ি ।
• সম্ভািয তযির ডমৌডল ডিষ়ে: ডমৌডল ধারণা, প্রতযাো, সম্ভািনার যালকুলাস,
িায়েযসর উপপাদয, েতি াধীন সম্ভািনা।

30
A BEGINNER’S GUIDE TO DATA SCIENCE

• সম্ভািযতা ডিতরণ ফািংেন - অডভন্ন, স্বাভাডি , ডদ্বপদ, ডি -িগ্ি, োত্রযদর t ডিতরণ,


ড ন্দ্রী়ে সীমা উপপাদয।
• নমুনা, পডরমাপ, ত্রুটি, এযলাযমযলা সিংখযা ডিনাযরটর।
• হাইযপাডথ্ডসস ডটডটিং, এ/ডি ডটডটিং, নডফযেে িযিধান, ডপ-ভযালু ।
• আযনাভা, টি-ডটট।
• ডলডন়োর ডরযগ্রেন, ডরগুলারাইযিেন।
আপডন তাযদর ড াথ্া়ে িযিহার রযত পাযরন? সাোৎ াযরর সম়ে। আমায ডিোস র.
এ িন দূরদেী ডেটা ডিজ্ঞানী ডহসাযি, আপডন উপযরর সমস্ত ধারণাগুডল আ়েি যর দ্রুত আপনার
ভডিষযযতর ডনয়োগ্ তি ার উপর এ টি ভাল োপ ডফলযত পাযরন। াি রার সম়ে, আপনায
প্রা়েেই ড েু ধারণা িযিহার রার প্রয়োিন ডমা াযিলা রযত হযি।

ব ডখ্ক ৈীজ্গডিি
ডফসিু িন্ধুযদর সু পাডরে, স্পটিফাই গ্াযনর সু পাডরে, সালভাদর োডল-টাইযলর প্রভাি গ্ভীর
স্না়েু ডনটও়ো ি োেফার লাডনিিং িযিহার যর ফযটাগ্রাডফর। তাযদর সিার ড ডমল আযে? মযাট্রিক্স এিিং
মযাট্রিক্স িীিগ্ডণত সিিত্র িযিহৃত হ়ে। মযাট্রিক্স িীিগ্ডণত হল গ্ডণযতর এ টি গুরুেপূ ণি ডদ যা
আপনায িু ঝযত সাহাযয যর ড ভাযি এ টি যন্ত্র প্রিাযহ অডধ ািংে ডমডেন লাডনিিং অযালগ্ডরদম াি
যর। অযেষযণর িনয সিযিয়ে গুরুেপূ ণি ডিষ়েগুডল হল:
• এ টি মযাট্রিক্স এিিং ডভক্টযরর প্রধান বিডেষ্টয হল েট ডপ্রাোক্ট, ডলডন়োর
োেফরযমেন, োেযপাডিেন, নিু যগ্েন, যিাঙ্ক, ডনধিার ।
• অভযন্তরীণ এিিং িাইযরর পণয, মযাট্রিক্স গুযণর ডন়েম এিিং ডিডভন্ন অযালগ্ডরদম,
ডিপরীত মযাট্রিক্স।
• স্থাডন মযাট্রিক্স - িগ্ি, এ , ডত্রভুিা ার, স্পাসি, র্ন, প্রডতসম, হাডমিডে়োন, অযাডন্ট
-হারডমটি়োন এিিং এ মযাট্রিক্স, ইউডনট ডভক্টর।
• মযাট্রিক্স পিযনর ধারণা
• ডভক্টর ডস্পস, ডিডসস, হুল, অরথ্যগ্ানাডলটি, ডলডন়োর নূযনতম ডকা়োর।
• মযাট্রিক্স eigenvalue, eigenvector, diagonalisation, singular
value decomposition (SVD)।
আপডন তাযদর ড াথ্া়ে িযিহার রযত পাযরন? যডদ আপডন মাডত্র তা হ্রাযসর িনয প্রধান
উপাদান ডিযেষণ (PCA) িযিহার যরন, আপডন সম্ভিত ম পযারাডমটার সহ আরও মপযাক্ট ডেটা

31
ENAMUL HAQUE

মাত্রার িনয এ িিন মান পিন িযিহার রযিন। সমস্ত ডনউরাল ডনটও়ো ি অযালগ্ডরদম ডনটও়ো ি
িা িার এিিং লাডনিিং অপাযরেনগুডলয প্রডতডনডধে এিিং প্রডি়ো রার িনয বরডখ িীিগ্ডণত
ড ৌেল িযিহার যর।

গাডিডিক ডৈযেষি
আপডন ডিেডিদযালয়ে এটি পেন্দ যরন িা না যরন, আমরা ডেটা সায়েে এিিং ডমডেন
লাডনিিংয়ের অযন ডেযত্র যালকুলাযসর মুযখামুডখ হই। এটি এ টি সাধারণ সমসযাটির এ টি
আপাতদৃডষ্টযত সহি ডিযেষণাত্ম সমাধাযনর ডপেযন লু ড য়ে আযে যা ডলডন়োর ডরযগ্রেযন এ টি
িতুভুিি ফািংেযনর নূযনতম মান ডদয়ে থ্ায । এটি প্রডেেযণর িনয ডনউরাল ডনটও়ো ি দ্বারা উত্পন্ন
প্রডতটি িযা যপ্রাপযাযগ্েন পদ্ধডতযতও অন্তভুিি। গ্াডণডত ডিযেষযণর জ্ঞান আপনার াযির িনয
খু িই মূলযিান প্রমাডণত হযি। অযেষণ রার িনয ডনম্নডলডখত ডিষ়েগুডল রয়েযে:
• এ পডরিতি নেীল ফািংেন, সীমা, ধারািাডহ তা এিিং ডভন্নতা।
• সীমািদ্ধ িৃ ডদ্ধর সূ ত্র, অডনশ্চ়েতা প্র াে, L'Hôpital এর উপপাদয।
• সযিিাচ্চ এিিং সিিডনম্ন।
• এ টি িটিল ফািংেযনর পণয এিিং ডভন্নতার ডন়েম।
• ডটলর ডসডরি, অসীম ডসডরি সিংযেপণ/ইডন্টযগ্রেন ধারণা।
• অডিযেদয যালকুলাযসর সীমািদ্ধ িৃ ডদ্ধর মূল উপপাদয এিিং সূ ত্র, ডনডদি ষ্ট এিিং
অনুপযুি ইডন্টগ্রাযলর গ্ণনা।
• ডিটা এিিং গ্ামা ফািংেন।
• ডভডরয়েিযলর এ টি ডসযটর াি, সীমা, ধারািাডহ তা এিিং আিংডে
ডেডরযভটিভস।
• সাধারণ ডেফাযরনডে়োল সমী রণ এিিং আিংডে ডেফাযরনডে়োল সমী রযণর
ডমৌডল ডিষ়েগুডল (সিযিয়ে ঠিন ন়ে)।
এগুডল ড াথ্া়ে িযিহার রযিন? আপডন সম্ভিত ভািযেন ড ভাযি লডিডট ডরযগ্রেন
অযালগ্ডরদম িযিহার রা হ়ে। সিিডনম্ন েডত ফািংেন খুোঁ যি ডপযত, ডগ্রডেয়েন্ট িিংেধর পদ্ধডতটি
প্রা়েেই িযিহৃত হ়ে। এটি ীভাযি াি যর তা ডিাঝার িনয, গ্াডণডত ডিযেষণ ধারণাগুডল িযিহার
রা প্রয়োিন: ডগ্রডেয়েন্ট, ডেডরযভটিভস, সীমা, এ টি িটিল ফািংেযনর পাথ্ি য।

32
A BEGINNER’S GUIDE TO DATA SCIENCE

আলাদা গডিি
"ডেটা সায়েযে গ্ডণত" এর মযতা এ টি ডিষ়ে ডনয়ে আযলািনা রার সম়ে আলাদা গ্ডণতয
খু ি মই স্পেি রা হ়ে। তিু ও, আধু ডন ডেটা সায়েে বতডর রা হ়ে ডম্পউটিিং ডসযটযমর সাহাযযয
ডযখাযন আলাদা গ্ডণত এ টি মূল উপাদান। পৃ থ্ গ্ডণত ড াসি আপনায ডিযেষণাত্ম প্র ল্পগুডলযত
াি রার সম়ে অযালগ্ডরদম এিিং ডেটা িা িাযরর বদনডন্দন িযিহাযরর িনয গুরুেপূ ণি ধারণাগুডল
আ়েি রযত সহা়েতা রযি। অযেষণ রার িনয ড েু ডিষ়ে ডনযি ডদও়ো হল:
• ডসট, উপযসট, িু ডল়োন।
• গ্ণনা ফািংেন, combinatorics, countability।
• প্রমাযণর প্রধান পদ্ধডত হল আন়েন, দ্বন্দ্ব দ্বারা প্রমাণ।
• প্রিতি নমূল , ডিয়োগ্মূল এিিং প্রস্তাডিত যুডির ডভডি।
• প্রধান ডেটা িা িার হল টযা , ড উ, গ্রাফ, অযাযর, হযাে ডটডিল, ট্রি।
• গ্রাফ ইনভাডরয়েন্টস: সিংযুি উপাদান, ভারযটক্স ডেগ্রী, ডফােি - ফু ল ারসন তি,
গ্রাফ ালাডরিং।
• পু নরািৃ ি সূ ত্র (সমী রণ, সম্প ি )।
• ফািংেন িৃ ডদ্ধ, "O" স্বরডলডপ িড়।
ডযয াযনা সামাডি ডনটও়ো ি ডিযেষণ রার সম়ে গ্রাফ ইনভাডরয়েন্টস এিিং দ্রুত
অযালগ্ডরদম অপডরহাযি। এগুযলা ড াথ্া়ে িযিহার রা যাযি? ডযয াযনা অযালগ্ডরদযমর সাযথ্,
আপনায িড় O স্বরডলডপ িযিহার যর সামড়ে এিিং স্থাডন িটিলতা িু ঝযত হযি। এটি প্রয়োিনী়ে,
উদাহরণস্বরূপ, ইনপু ট ডেটার পডরমাণ িৃ ডদ্ধর সাযথ্ সাযথ্ রান সম়ে এিিং প্রয়োিনী়ে আ ার ীভাযি
িৃ ডদ্ধ যর তা ডনধিারণ রার সম়ে।

অডিমাইযজ্শন, অপায শন গযৈষিা ডৈষয়


এই ডিষ়েগুডল প্রযযািয গ্ডণযতর প্রিডলত িিৃতা ডথ্য খু ি ডিডে আলাদা ন়ে ারণ এগুডল
প্রধানত গুরুেপূ ণি এিিং অধয়েযনর ডিযেষ ডেযত্র সিিাডধ িযিহৃত হ়ে: তাডি ডম্পউটার ডিজ্ঞান,
ডন়েন্ত্রণ তি, অপাযরেন গ্যিষণা়ে। ড ন্তু এই াযি রী পদ্ধডতর এ টি সাধারণ উপলডি ডমডেন লাডনিিং
এর ডেযত্র সহা়ে হযত পাযর। প্রা়ে প্রডতটি ডমডেন লাডনিিং অযালগ্ডরদম/পদ্ধডতর লেয ডিডভন্ন
সীমািদ্ধতার ারযণ অনুমাযনর ত্রুটিয ড েু টা মাযনা। এটি অডিমাইযিেযনর লেয। অধয়েযনর
ডিষ়ে:
• অডিমাইযিেযনর মূল ডিষ়েগুডল - ীভাযি এ টি সমসযা বতডর রা যা়ে।

33
ENAMUL HAQUE

• সযিিাচ্চ, সিিডনম্ন, উিল ফািংেন, বিডে সমাধান।


• ডলডন়োর ডপ্রাগ্রাডমিং, ডসমযিক্স পদ্ধডত।
• ইডন্টিার ডপ্রাগ্রাডমিং।
• সীমািদ্ধ ডপ্রাগ্রাডমিং, নযাপসযা সমসযা।
• যিােমাইিে অপটিমাইযিেন পদ্ধডত - উপযরর ডদয আযরাহণ দ্বারা অনুসন্ধান,
ডসমুযলযটে অযাডনডলিং অযালগ্ডরদম, ডিযনটি অযালগ্ডরদম।
এগুযলা ড াথ্া়ে িযিহার রা যাযি? লডিডট গুডলর ডিপরীযত, নূযনতম-িগ্ি েডতর ফািংেন
িযিহার যর সহি বরডখ প্রডতডি়ো সমসযা, প্রা়েই এ টি সঠি ডিযেষণাত্ম সমাধান থ্ায ।
ারণটি িু ঝযত, আপনায অডিমাইযিেযন উিলতার মযতা ধারণা সম্পয ি িানযত হযি। এটি
আরও িযাখযা রযি ড ন আমাযদর অযন ডমডেন লাডনিিং সমসযার িনয পযিাপ্ত "রুে" সমাধান থ্া া
উডিত। এ টি অডিমাইযিোন এ টি েডিোলী হাডত়োর যা ডিস্তাডরতভাযি অযেষণ রা যা়ে।

34
A BEGINNER’S GUIDE TO DATA SCIENCE

গ্াডণডত ডিযেষণ

ডমৌডল গ্ডণত োড়া এ িন ভাল ডেটা ডিযেষ ড াথ্াও ডনই


(এিিং ডেটা গ্যিষ আরও ডিডে)। সু তরািং, আসু ন ডেটা সায়েযের
স্বাযথ্ি ডেত্রগুডল িু ঝযত পাডর।

গাডিডিক ডৈযেষযি মূ ল ডৈষয়


• ফািংেন এিিং তাযদর বিডেষ্টয।
• ফািংেন সীমা (ডমৌডল মতামত)।
• ডেডরযভটিভ ফািংেন (এর িযাডমডত এিিং যাডন্ত্র অথ্ি)।
• এ টি িটিল ফািংেযনর ডেডরযভটিভ।
• িরম বিডেষ্টয। িু ল ফািংেন।
• িযডিগ্ত ডেডরযভটিভস এিিং ডগ্রডেয়েন্ট।
• অডিমাইযিোন াযির মযধয ডগ্রডেয়েন্ট।
• ডদ ডথ্য ডেডরযভটিভ।
• সমতল স্পেি এিিং বরডখ আনুমাডন তা।

ব ডখ্ক ৈীজ্গডিযি মূ ল ডৈষয়


• ডভক্টর ডস্পস।
• বরডখ স্বাধীনতা।
• ডভক্টরগুডলর আদেি এিিং ডকলার াি।
• মযাট্রিক্স ডনধিারণ। মযাট্রিযক্স অপাযরেন।
• যিািং এিিং মযাট্রিযক্সর ডনধিার ।

35
ENAMUL HAQUE

• লাইন সমী রণ ডসযটম।


• মযাট্রিক্স প্র ার।
• ডনিস্ব ডভক্টর এিিং ডনিস্ব মান।
• মযাট্রিক্স পিন (িণিালী, এ িিন)।
• ডনম্ন যিাযঙ্কর মযাট্রিযক্সর াযে।
• এ িিন পিন এিিং ম িানি আনুমাডন ।

অডিমাইযজ্শন পদ্ধডি
• নন-স্মুথ্ ফািংেন অডিমাইি রা (স্থানী়ে ডনম্নগ্ডতর সমসযা)।
• ইগ্ডনেন অনু রণ পদ্ধডত।
• ডিযনটি আলযগ্াডরডদম. ডেফাযরনডে়োল ডিিতি যনর অযালগ্ডরদম।
• Ndder-Mead পদ্ধডত।

সম্ভাৈযিা িত্ত্ব এৈিং গাডিডিক পড সিংখ্যান


• সম্ভািযতা ডনধিারণ। সম্ভািয বিডেষ্টয।
• েতি াধীন সম্ভািনা। পূ ণি সম্ভািনার সূ ত্র। ফমুিলা িায়েস।
• ডিিেণ এযলাযমযলা মান।
• িমাগ্ত এযলাযমযলা মান।
• নমুনা ডিতরযণর অনুমান। পডরসিংখযান।
• ডিতরযণর বিডেষ্টয।
• গুরুেপূ ণি পডরসিংখযান (ডনিিািনী গ্ড়, মধযমা, ফযােন, বিডিত্রয, অন্তিিতী সুইিং)।
• উপপাযদযর ড ন্দ্রী়ে সীমা।
• আস্থা অন্তর.

36
A BEGINNER’S GUIDE TO DATA SCIENCE

পডরসিংখযানগ্ত মযেডলিং

এ টি পডরসিংখযানগ্ত মযেল হল এ টি গ্াডণডত মযেল যা নমু না


ডেটা প্রিন্ম (এিিং িৃ হির িনসিংখযার অনু রূপ ডেটা) সম্পড ি ত
পডরসিংখযানগ্ত অনু মানয ধারণ যর। এ টি পডরসিংখযানগ্ত
মযেল প্রডতডনডধে যর, প্রা়েেই যযথ্ষ্ট আদেি আ াযর, ডেটা
বতডর রার প্রডি়ো। এ টি পডরসিংখযানগ্ত মযেল সাধারণত এ িা
এ াডধ এযলাযমযলা ডভডরয়েিল এিিং অনযানয নন-যিােম
ডভডরয়েিযলর মযধয গ্াডণডত সম্প ি ডহযসযি ডনডদি ষ্ট রা হ়ে। ড েু
উপ ারী পডরসিংখযানগ্ত মযেডলিং পদ্ধডত নীযি িডণিত হয়েযে:

স্থাডনক মযেল
স্থাডন ডনভি রতা হল ডভৌগ্ডল স্থাযনর মযধয বিডেযষ্টযর সহ-বিডিত্রয: প্রডক্সমাল ডলায েযনর
বিডেষ্টযগুডল ইডতিাি িা ডনডতিাি ভাযি সম্প ি যুি িযল মযন হ়ে। স্থাডন ডনভি রতা
পডরসিংখযানগুডলযত স্থাডন অযটা-পারস্পডর সম্পয ি র সমসযার ডদয পডরিাডলত যর, ডযমন
সামড়ে অযটা-পারস্পডর সম্পয ি র মযতা, এটি মানসম্মত পডরসিংখযান ড ৌেলগুডলয লঙ্ঘন যর
যা পযিযিেযণর মযধয স্বাধীনতা অনুমান যর6

সময় ডসড জ্
সম়ে ডসডরি ডিযেষযণর পদ্ধডত দুটি ডেণীযত ডিভি রা ডযযত পাযর: ডিয ায়েডে-ডোযমন
পদ্ধডত এিিং সম়ে-ডোযমন পদ্ধডত। প্রািন িণিালী ডিযেষণ এিিং সম্প্রডত তরঙ্গা ৃ ডত ডিযেষণ

37
ENAMUL HAQUE

অন্তভুিি; পযররটির মযধয রয়েযে অযটা-পারস্পডর সম্প ি এিিং িস-পারস্পডর সম্প ি ডিযেষণ।
টাইম ডোযমইযন, পারস্পডর সম্প ি ডিযেষণগুডল ডকলযুি পারস্পডর সম্প ি িযিহার যর
ডফল্টাযরর মযতা পদ্ধডতযত বতডর রা ডযযত পাযর, যার ফযল ডিয ায়েডে ডোযমযন াি রার
প্রয়োিনী়েতা হ্রাস পা়ে।
উপরন্তু, সম়ে ডসডরি ডিযেষণ ড ৌেলগুডল পযারাযমট্রি এিিং নন-পযারাযমট্রি পদ্ধডতযত
ডিভি রা ডযযত পাযর। পযারাযমট্রি পদ্ধডতগুডল অনুমান যর ডয অন্তডনিডহত ডস্থর ডটা াডট
প্রডি়োটির এ টি ডনডদি ষ্ট াঠাযমা রয়েযে যা অল্প সিংখয পরাডমডত িযিহার যর িণিনা রা ডযযত
পাযর (উদাহরণস্বরূপ, এ টি অযটারযগ্রডসভ িা মুডভিং এভাযরি মযেল িযিহার যর)। এই পদ্ধডতর
মযধয, ািটি ডটা াডট প্রডি়ো িণিনা যর এমন মযেযলর পরাডমডতগুডল অনুমান রা। ডিপরীযত,
অ-পযারাযমট্রি পদ্ধডতগুডল স্পষ্টভাযি অনুমান যর ডয প্রডি়োটির ড ান ডিযেষ াঠাযমা আযে তা
না ধযর ড াভাডরয়েে িা প্রডি়োর িণিালী অনুমান যর। সম়ে ডসডরি ডিযেষযণর পদ্ধডতগুডলও ডলডন়োর
এিিং নন-ডলডন়োর, এিিং ইউডনভাডরয়েট এিিং মাডল্টভাডরয়েযট ডিভি হযত পাযর।

ডৈেঁ যে থাকা ডৈযেষি


ডিোঁযি থ্া ার ডিযেষণ পডরসিংখযাযনর এ টি োখা যা এ িা এ াডধ র্টনা না হও়ো পযিন্ত
সময়ের প্রতযাডেত সম়ে াল ডিযেষণ যর, ডযমন বিডি প্রাণীর মৃ তুয এিিং যাডন্ত্র িযিস্থা়ে িযথ্িতা।
এই ডিষ়েটিয িলা হ়ে ডনভি রযযাগ্যতা তি িা ইডিডন়োডরিংয়ে ডনভি রযযাগ্যতা ডিযেষণ, অথ্িনীডতযত
সম়ে াল ডিযেষণ িা সম়ে াল মযেডলিং এিিং সমািডিজ্ঞাযন ইযভন্ট ইডতহাস ডিযেষণ। ডিোঁযি থ্া ার
ডিযেষণ প্রযশ্নর উির ডদও়োর ডিষ্টা যর ডযমন: এ টি ডনডদি ষ্ট সময়ের অতীত ডিোঁযি থ্া া
িনসিংখযার অনুপাত ত? যারা ডিোঁযি আযে, তারা ড ান হাযর মারা যাযি িা িযথ্ি হযি? মৃতুয িা
িযথ্িতার এ াডধ ারণ ড ডিযিিনা়ে ডনও়ো ডযযত পাযর? ডনডদি ষ্ট পডরডস্থডত িা বিডেষ্টযগুডল ীভাযি
ডিোঁযি থ্া ার সম্ভািনা িাড়া়ে িা হ্রাস যর? ডিোঁযি থ্া ার মযেলগুডল অযা িু়োরী এিিং
পডরসিংখযানডিদরা িযিহার যরন এিিং ডিপণন ারীরা মন্থন এিিং িযিহার ারী ধযর রাখার মযেলগুডল
ডেিাইন যরন।7
ডিোঁযি থ্া ার মযেলগুডল সম়ে-ডথ্য -ইযভযন্টর পূ িিাভাস ডদও়োর িনযও িযিহার রা হ়ে
(ডমৌলিাদী হও়ো ডথ্য সন্ত্রাসী হয়ে ওঠার সম়ে িা যখন িন্দু ড না হ়ে এিিং হতযা়ে িযিহৃত হ়ে)

38
A BEGINNER’S GUIDE TO DATA SCIENCE

ৈাজ্া ডৈিাজ্ন
মায ি ট ডসগ্যমযন্টেন, যায াটমার ডপ্রাফাইডলিংও িলা হ়ে, এ টি মায ি টিিং িযাযটডি যা
এ টি ডিস্তৃত টাযগ্িট মায ি টয ডভািা, িযিসা, িা ডদেগুডলর উপযসটগুডলযত ডিভি যর থ্ায
যাযদর সাধারণ িাডহদা, আগ্রহ এিিং অগ্রাডধ ার আযে িা অনু ভূত হ়ে এিিং তারপর লেয ডনধিারযণর
ড ৌেলগুডল ডেিাইন এিিং িাস্তিা়েন যর তাযদর মায ি ট ডসগ্যমযন্টেন ড ৌেলগুডল সাধারণত
টাযগ্িট গ্রাহ যদর ডিডিত রযত এিিং আরও সিংজ্ঞাড়েত রযত এিিং ডিপণন পডর ল্পনার
উপাদানগুডলর িনয সহা়ে ডেটা সরিরাহ রযত িযিহৃত হ়ে ডযমন ডনডদি ষ্ট ডিপণন পডর ল্পনার লেয
অিিযনর িনয অিস্থান। টাযগ্িট ডসগ্যমযন্টর সু ডনডদি ষ্ট িাডহদা এিিং বিডেযষ্টযর উপর ডনভি র যর
িযিসাগুডল পণয ডিভািন ড ৌেল িা ডনডদি ষ্ট পণয িা পযণযর ডরখার সাযথ্ িডড়ত এ টি অডভন্ন পদ্ধডতর
ডি াে রযত পাযর।

সয পাড শ ডসযেম
ডর যমোর ডসযটম িা সু পাডরে ডসযটম ( খনও খনও িযাটফমি িা ইডিযনর মযতা প্রডতেব্দ
ডদয়ে "ডসযটম" প্রডতস্থাপন রা হ়ে) হল তথ্য ডফল্টাডরিং ডসযটযমর এ টি উপযেণী যা িযিহার ারী
এ টি আইযটময 'ডরটিিং' িা 'পেন্দ' সম্পয ি ভডিষযদ্বাণী রযত িা়ে।

সডমডি ডনয়ম ডশখ্া


অযাযসাডসয়েেন রুল লাডনিিং িড় োটাযিযস ডভডরয়েিযলর মযধয আ ষিণী়ে সম্প ি আডিষ্কাযরর
এ টি পদ্ধডত। িাডল়োডত েনাি রযণর ডেযত্র, িাডল়োডতর সাযথ্ যুি ডনদেিন সনাি রযত
সডমডতর ডন়েম িযিহার রা হ়ে। উদাহরণস্বরূপ, এ টি সু পার মায ি যটর ডিি়ে তযথ্য পাও়ো
{{ডপোঁ়োি, আলু } ==> {িাগ্িার} ডন়েমটি ইডঙ্গত রযি ডয যডদ ড ান গ্রাহ ডপোঁ়োি এিিং আলু
এ সাযথ্ ড যন থ্ায তযি তারা হযামিাগ্িার মািংসও ড নযত পাযর। অডতডরি িাডল়োডতর র্টনা
েনাি রার িনয ডলিংয ি ডিযেষণ রা হ়ে: যডদ ডটার ডি ডথ্য সমস্ত ডলনযদন ডিযেষণ যর
ডটার ডি -ডত িাডল়োডতমূল ড না াটা রার িনয িযিহার ারীর ডিডেট ােি ডলনযদন িযিহার
রা হ়ে, তাহযল আমরা িাডল়োডতমূল াযি লাযপর সাযথ্ অনয িযিহার ারী ডস খুোঁযি ডপযত পাডর।

অযাট্রিডৈউশন মযেডলিং
এ টি অযাট্রিডিউেন মযেল হল ডন়েম িা ডন়েযমর ডসট যা ডনধিারণ যর ড ভাযি ডিি়ে এিিং
রূপান্তযরর িনয ডিডেট রূপান্তর পযথ্র টািপয়েন্টগুডলযত িরাে রা হ়ে। উদাহরণস্বরূপ, গুগ্ল

39
ENAMUL HAQUE

অযানাডলটিযক্সর লাট ইন্টারঅযা েন মযেলটি িূড়ান্ত টািপয়েন্টগুডলযত (অথ্িাৎ, ডক্ল ) 100%


ডিডেট িরাে যর যা অডিলযে ডিি়ে িা রূপান্তযরর আযগ্। মযাযিা-ইয ানডম মযেলগুডল
দীর্িযম়োদী, সমডষ্টগ্ত dataডতহাডস তথ্য িযিহার যর প্রডতটি ডিি়ে িা রূপান্তযরর িনয ডিে
য়ে টি িযাযনযল এ টি অযাট্রিডিউেন ওিন ডনধিারণ যর। এই মযেলগুডল ডিজ্ঞাপন ডমেণ
অডিমাইযিেযনর িনযও িযিহৃত হ়ে।

ডকাড িং
ডকাডরিং মযেল এ টি ডিযেষ ধরযনর ভডিষযদ্বাণীমূল মযেল। ভডিষযদ্বাণীমূল মযেলগুডল
loanণ পডরযোধ, দুর্িটনার ঝুোঁ ড , ক্লায়েন্ট মন্থন িা অিনডত, িা ভাল ডিডনস ড নার সম্ভািনা সম্পয ি
ভডিষযদ্বাণী রযত পাযর। ডকাডরিং মযেলগুডল সাধারণত লগ্াডরদডম ডকল িযিহার যর (আপনার
ডকাযরর প্রডতটি অডতডরি 50 পয়েন্ট, ডেফল্ট হও়োর ঝুোঁ ড 50% ডময়ে ডদ়ে)। এগুডল লডিডট
ডরযগ্রেন এিিং ডেডসেন ট্রি িা এ াডধ অযালগ্ডরদযমর সিংডমেযণর উপর ডভডি যর। ডকাডরিং
ডট যনালডি সাধারণত ডলনযদযনর ডেটাযত প্রয়োগ্ রা হ়ে, খনও খনও ডরয়েল-টাইযম
(ডিডেট ােি িাডল়োডত সনাি রণ, ডক্ল িাডল়োডত)।

িডৈষযদ্বািীপূ িণ মযেডলিং
ভডিষযদ্বাণীমূল মযেডলিং ফলাফযলর পূ িিাভাস ডদও়োর িনয পডরসিংখযান িযিহার যর।
প্রা়েেই, ডয র্টনাটি ভডিষযদ্বাণী রযত িা়ে তা ভডিষযযত হ়ে, ড ন্তু ভডিষযদ্বাণীমূল মযেডলিং ডয
ড ান ধরযনর অিানা ইযভযন্ট প্রয়োগ্ রা ডযযত পাযর, তা খনই র্যট না ড ন। উদাহরণস্বরূপ,
ভডিষযদ্বাণীমূল মযেলগুডল প্রা়েই অপরাধ সনাি রযত এিিং অপরাধ সিংর্টিত হও়োর পর
সযন্দহভািনযদর ডিডিত রযত িযিহৃত হ়ে। এগুডল আিহাও়োর পূ িিাভাস, ট মায ি যটর দাযমর
পূ িিাভাস ডদও়োর িনয, িা ডিডির পূ িিাভাস ডদযত, সম়ে ডসডরি িা স্থাডন মযেল অন্তভুিি রার
িনযও িযিহার রা ডযযত পাযর। ডনউরাল ডনটও়ো ি , ডলডন়োর ডরযগ্রেন, ডেডসেন ট্রি এিিং সাদাডসধা
Bayes হল ভডিষযদ্বাণীমূল মযেডলিংয়ের িনয িযিহৃত ড ৌেল। তারা এ টি প্রডেেণ ডসট, িস-
বিধতা, এিিং মযেল ডফটিিং এিিং ডনিিািন বতডরর সাযথ্ যুি।

ক্লাোড িং
ক্লাটার ডিযেষণ িা ক্লাটাডরিং হল িস্তুর এ টি ডসটয এমনভাযি ডগ্াষ্ঠীভুি রার াি ডয
এ ই ডগ্াষ্ঠীর িস্তু (যায ক্লাটার িলা হ়ে) অনয ডগ্াষ্ঠীর (ক্লাটার) তুলনা়ে এয অপযরর সাযথ্

40
A BEGINNER’S GUIDE TO DATA SCIENCE

অযন ডিডে অনুরূপ (ড েু অযথ্ি িা অনযভাযি) । এটি অনুসন্ধানমূল ডেটা মাইডনিং এিিং ডমডেন
লাডনিিং, পযাটানি ডর গ্ডনেন, ইযমি এনালাইডসস, ইনফরযমেন ডরডিভাযলেন এিিং
িায়োইনফরমযাটিক্স সহ অযন ডেযত্র িযিহৃত এ টি সাধারণ পডরসিংখযানগ্ত ডেটা ডিযেষণ ড ৌেল।
তিািধাযন ডেণীডিনযাযসর ডিপরীযত (নীযি), ক্লাটাডরিং প্রডেেণ ডসট িযিহার যর না।
যাইযহা , ড েু সিং র িাস্তিা়েন আযে যায িলা হ়ে আধা-তিািধাযন ডেখা।

িত্ত্বাৈধ্াযন ডেিীডৈিাগ
তিািধাযন ডেণীডিনযাস, যায তিািধাযন ডেখাও িলা হ়ে, ডমডেন লাডনিিং ািটি ডলযিলযুি
প্রডেেণ ডেটা ডথ্য এ টি ফািংেন ডির রা। প্রডেেণ তথ্য প্রডেেণ উদাহরণ এ টি ডসট গ্ঠিত।
তিািধাযন ডেখার ডেযত্র, প্রডতটি উদাহরণ এ টি ইনপু ট িস্তু (সাধারণত এ টি ডভক্টর) এিিং
পেন্দসই আউটপু ট মান (যায ডলযিল, ক্লাস িা ডিভাগ্ও িলা হ়ে) সমডেত এ টি ডিাড়া। এ টি
তিািধাযন ডেখার অযালগ্ডরদম প্রডেেণ ডেটা ডিযেষণ যর এিিং এ টি অনুডমত ফািংেন বতডর
যর, যা নতুন উদাহরণ মযাডপিংয়ের িনয িযিহার রা ডযযত পাযর। এ টি অনুকূল দৃেয ল্প
অযালগ্ডরদময অযদখা দৃষ্টাযন্তর িনয ক্লাস ডলযিলগুডল সঠি ভাযি ডনধিারণ রার অনুমডত ডদযি।

ে ম মূ লয িত্ত্ব
িরম মূলয তি িা িরম মূলয ডিযেষণ (ইডভএ) পডরসিংখযাযনর এ টি োখা যা সম্ভািযতা
ডিতরযণর মধযমা ডথ্য িরম ডিিুযডত ডমা াযিলা যর। এটি এ টি প্রদি যিােম ডভডরয়েিযলর প্রদি
অেিার ৃ ত নমুনা ডথ্য মূলযা়েন রযত িা়ে, যা পূ যিি পযিযিেযণর ডিয়ে ডিডে িরম র্টনার সম্ভািনা।
উদাহরণস্বরূপ, প্রডত 10, 100 িা 500 িেযর এ িার িনযা হ়ে। এই মযেলগুডল সম্প্রডত ডিপযি়ে র
র্টনাগুডলর পূ িিাভাস ডদও়োর িনয খারাপভাযি াি রযে, যার ফযল িীমা ড াম্পাডনগুডলর িযাপ
েডত হয়েযে।

ডসময যলশন
মযন্ট- াযলিা ডসমুযলেনগুডল অযন প্রসযঙ্গ িযিহৃত হ়ে: িহু-স্তযরর স্পযাটিও-ডটযম্পারাল
হা়োরাড ি যাল ডিইডস়োন মযেযলর মযতা িটিল ডসটিিংযস উচ্চমাযনর েদ্ম-যিােম সিংখযা বতডর
রযত, ডিরল র্টনাগুডলর সাযথ্ সম্পড ি ত পডরসিংখযান গ্ণনা রার িনয পরাডমডতগুডল অনুমান
রযত, অথ্িা এমনড এ টি বতডর রযত ডিযেষ যর ট ডেডেিং িা ইডিডন়োডরিংয়ের িনয ডিডভন্ন

41
ENAMUL HAQUE

অযালগ্ডরদম পরীো এিিং তুলনা রার িনয প্রিুর পডরমাযণ ডেটা (উদাহরণস্বরূপ, িস এিিং অযটা-
সম্প ি যুি সম়ে ডসডরি)।

মন্থন ডৈযেষি
গ্রাহ মন্থন ডিযেষণ আপনায উচ্চ মূযলযর গ্রাহ যদর সনাি রযত এিিং তাযদর উপর
মযনাযযাগ্ ড ন্দ্রীভূত রযত, সাধারণত হারাযনা গ্রাহ িা ডিডির পূ যিি ড ান ািগুডল ডনধিারণ রযত
সাহাযয যর এিিং ড ান ডিষ়েগুডল গ্রাহ ধারণয প্রভাডিত যর তা আরও ভালভাযি িু ঝযত সাহাযয
যর। পডরসিংখযানগ্ত ড ৌেলগুডলর মযধয রয়েযে ডিোঁযি থ্া ার ডিযেষযণর পাোপাডে িারটি রাযিযর
মা ি ভ ডিইন: এয িাযর নতুন গ্রাহ , ডফরত আসা গ্রাহ , ডনডি়ে (হাডরয়ে যাও়ো) গ্রাহ এিিং
পু নরা়ে অডধগ্রহণ রা গ্রাহ , পথ্ ডিযেষণ সহ (মূল ারণ ডিযেষণ সহ) গ্রাহ রা ীভাযি িযল যান
তা ডিাঝার িনয। এ রািয ডথ্য অনয রাযিয, মুনাফা িাড়াযনার িনয। সম্পড ি ত ডিষ়ে: গ্রাহয র
আিীিন মূলয, িযিহার ারী অডধগ্রহযণর খরি, িযিহার ারী ধযর রাখা।

ইনযিন্টড মযাযনজ্যমন্ট
ইনযভন্টডর মযাযনিযমন্ট এ টি ড াম্পাডন ডয আইযটমগুডল ডিডি রযি তা ডিি়ে রার িনয
িযিহার রা সামগ্রীর অেিার, ডটাযরি এিিং িযিহার তিািধান এিিং ডন়েন্ত্রণ রযি এিিং ডিিয়ের িনয
সমাপ্ত পণযগুডলর তিািধান এিিং ডন়েন্ত্রণ রযি। ইনযভন্টডর মযাযনিযমন্ট হল এ টি অপাযরেন
ডরসািি ডট ডন যা অযানাডলটিক্স (টাইম ডসডরি, ডসিনাডলটি, ডরযগ্রেন) িযিহার যর, ডিযেষ যর
ডিি়ে পূ িিাভাস এিিং সযিিািম মূলয ডনধিারযণর িনয - প্রডত ডপ্রাোক্ট যাটাগ্ডর, মায ি ট ডসগ্যমন্ট এিিং
ভূযগ্াল ডভযঙ্গ। এটি প্রাইস অডিমাইযিেযনর সাযথ্ দৃ strongly়ভাযি সম্পড ি ত। এটি শুধু মাত্র
ইট-মটিার অপাযরেযনর িনয ন়ে: ইনযভন্টডরর অথ্ি হযত পাযর আগ্ামী 60 ডদযনর মযধয এ টি
প্র াে ওয়েিসাইযট উপলি িযানার ডিজ্ঞাপযনর স্লটগুডলর পডরমাণ, প্রডতটি িযানার ডিজ্ঞাপযনর স্লটটি
তটা োডফ (এিিং রূপান্তর) সরিরাহ রযি তা অনুমান যর সম্ভািয ডিজ্ঞাপনদাতার াযে। আপডন
এই ভািিু ়োল ইনযভন্টডরর অডতডরি ডিডি িা ম ডিডি রযত িান না। এভাযি,

সযৈণ াত্তম ডৈডেিং


এটি এ টি স্ব়েিংডি়ে, ব্ল্যা -িক্স, ডমডেন-টু-ডমডেন ডযাগ্াযযাগ্ িযিস্থার এ টি উদাহরণ, খনও
খনও ডিডভন্ন API এর মাধযযম ডরয়েল-টাইযম াি যর। পডরসিংখযানগ্ত মযেলগুডল এটিয
সমথ্িন যর। অযাডিয েনগুডলর মযধয রয়েযে লে লে ীও়োযেির প্রতযাডেত রূপান্তর হাযরর

42
A BEGINNER’S GUIDE TO DATA SCIENCE

ডভডিযত গুগ্ল অযােও়োযেি সঠি মূযলয সঠি ীও়োেিগুডল সনাি রা এিিং ড না;
ীও়োেিগুডলয এ টি সূ িী রণ অযালগ্ডরদম িযিহার যর ডেণীিদ্ধ রা হ়ে (এই ডনিযন্ধ আইযটম
#18 ডদখু ন) এিিং িালডত স্তযর পডরসিংখযানগ্ত তাত্পযি সহ ড েু historicalডতহাডস তথ্য ডপযত
িালডতযত (ডিভাগ্) এ ডত্রত রা হ়ে। এটি অযামািন িা ইযি এর মযতা সিংস্থার িনয এ টি িাস্তি
সমসযা। অথ্িা এটি স্ব়েিংডি়ে উচ্চ-ডিয ায়েডে ট ডেডেিংয়ের মূল অযালগ্ডরদম ডহসাযি িযিহার
রা ডযযত পাযর।

সযৈণ াত্তম মূ লয
প্রথ্ম নিযর ডদযখ মযন হযে এটি এ টি অথ্িননডত সমসযা যা দেতা িিতা িা এমনড
এ টি ডিশুদ্ধ িযিসাড়ে সমসযা দ্বারা পডরিাডলত হ়ে, এটি প্র ৃ ডতর অতযন্ত পডরসিংখযানগ্ত। সযিিািম
মূলয উপলি এিিং পূ িিাভাস ৃ ত ইনযভন্টডর, উৎপাদন খরি, প্রডতযযাগ্ীযদর াে ডথ্য মূলয এিিং
মুনাফা মাডিিন ডিযিিনা যর। দাযমর ডস্থডতস্থাপ তা মযেলগুডল প্রা়েই েডিোলী প্রডতযরাযধ
ডপৌোঁোযনার আযগ্ উচ্চ মূলয ীভাযি িাড়াযনা যা়ে তা ডনধিারণ রযত িযিহৃত হ়ে। আধু ডন
ডসযটমগুডল ডরয়েল-টাইযম িাডহদা অনুযা়েী দাম ডদ়ে, উদাহরণস্বরূপ, ফ্লাইট িা ডহাযটল রুম িু
রার সম়ে। িযিহার ারী-ডনভি র মূলয-মূলযয আরও অডিমাইি রার এ টি উপা়ে, িযিহার ারী
অিংযের উপর ডভডি যর ডিডভন্ন মূলয প্রদান-এ টি ডিতড ি ত সমসযা। এটি িীমা ডেযল্প গ্ৃ হীত হ়ে:
খারাপ গ্াডড় িাল রা এ ই ভাযরযির িনয ভালযদর ডিয়ে ডিডে অথ্ি প্রদান যর, অথ্িা
ধূ মপা়েী/মডহলা/ি়েক িযডিরা স্বাস্থযযসিা িীমার িনয আলাদা ডফ প্রদান যর।

ইনযেযেশন
ডেণীডিনযাযসর উপর ডভডি যর ডয ড ানও ডসযটম ডেণীডিনযাস বতডর এিিং িিা়ে রাখার িনয
বতডর এ টি সূ িী রণ অযালগ্ডরদম িযিহার যর। উদাহরণস্বরূপ, ডপ্রাোক্ট ডরডভউ (ডপ্রাোক্ট এিিং
ডরডভউ়োর উভ়েয ই এ টি ইনযে েন অযালগ্ডরদম িযিহার যর ডেণীভুি রযত হযি, তারপর
এয অপযরর সাযথ্ মযাপ রা হযি), এ টি ডনডদি ষ্ট ডোযমইন, ডেডিটাল যন্টন্ট মযাযনিযমন্ট এিিং
অিেযই সািি ইডিন ডট যনালডিযত অনুসরণ রার িনয েীষি িযডিযদর সনাি রযত অযালগ্ডরদম
ডকার রা । সূ িী রণ এ টি খু ি দে ক্লাটাডরিং অযালগ্ডরদম, এিিং সম়েসীমার িযাপ সূ িয িযিহৃত
সম়েগুডল বরডখ ভাযি িৃ ডদ্ধ পা়ে - এটি খু ি দ্রুত - আপনার ডেটাযসযটর আ াযরর সাযথ্। মূলত, এটি
টন েকুযমন্ট ডিযেষণ, ডিডল়েন ডিডল়েন ীও়োেি ডির রা, ডফল্টার রা, এ টি ীও়োেি
ডিয ায়েডে ডটডিল বতডর এিিং েীষি ীও়োেিগুডলযত ডফা াস রার পযর মযানু়োডল ডনিিাডিত
য়ে যো ডিভাযগ্র উপর ডনভি র যর।

43
ENAMUL HAQUE

অিযেযষ, এ টি সূ িী রণ অযালগ্ডরদম স্ব়েিংডি়েভাযি ডয ড ানও নডথ্র িনয এ টি সূ ি


বতডর রযত িযিহার রা ডযযত পাযর - প্রডতযিদন, ডনিন্ধ, ব্ল্গ্, ওয়েিসাইট, ডেটা সিংগ্রহস্থল,
ডমটাযেটা, যাটালগ্ িা িই। প্র ৃ তপযে, এটি সূ ি েব্দটির উৎপডি। আশ্চযিিন ভাযি, প্র াে রা
এখনও িা ডরর সূিয র িনয মানুষয অথ্ি প্রদান যর: আপডন আযমডর ান ডসাসাইটি ফর
ইনযেডক্সিং ওয়েিসাইযট তাডল াভুি এই ািগুডল খুোঁযি ডপযত পাযরন। ডেটা ডিজ্ঞানী উযদযািাযদর
িনয এটি এ টি সু যযাগ্: প্র াে যদর সফটও়েযার ডদও়ো যা এই ািটি স্ব়েিংডি়েভাযি যর,
খরযির এ টি অিংযে।

সােণ ইডিন
ভাল সািি ইডিন প্রযুডি পডরসিংখযানগ্ত মযেডলিংয়ের উপর অযন ডিডে ডনভি র যর।
এন্টারপ্রাইি সািি ইডিন ড াম্পাডনয সাহাযয যর - উদাহরণস্বরূপ, অযামািন - িযিহার ারীযদর
তাযদর খুোঁযি ডির রার সহি উপা়ে ডদয়ে তাযদর পণয ডিডি যর। ডয ড ান সািি ইডিযন িযিহৃত
মূল অযালগ্ডরদম হল এ টি ইনযেযক্সেন িা স্ব়েিংডি়ে টযাডগ্িং ডসযটম। গুগ্ল অনুসন্ধান ডনম্নরূপ উন্নত
রা ডযযত পাযর:
• ডপি র‍্যাঙ্ক ডনমূিল রুন - এই অযালগ্ডরদমটি প্রতার যদর দ্বারা ডিা া িানাযনা
হয়েযে ডলঙ্ক খামার এিিং অনযানয ওয়েি স্পযাম,
• সািি ডরিাল্ট ম টযাটি , ম ডহমাড়েত রযত আপনার ইনযেযক্স র্ন র্ন নতুন
যন্টন্ট ডযাগ্ রুন,
• ভাল িযিহার ারী/অনুসন্ধান ীও়োেি/লযাডেিং পৃ ষ্ঠা ডমযল অযালগ্ডরদম িযিহার যর
আরও প্রাসডঙ্গ ডনিন্ধ ডদখান যা ডেষ পযিন্ত আরও ভাল সূ িী রণ ডসযটম এিিং
• ডনিযন্ধর উৎস ডদখাযনার িনয আযরা ভাযলা অযাট্রিডিউেন মযেল িযিহার রুন,
ডলঙ্কেইন িা অনয ড াথ্াও প্র াডেত ডপ ন়ে। (এটি ডোট প্র াে যদর উপর ডিডে
িাপ ডদও়ো এিিং এ টি ডনিযন্ধর প্রথ্ম র্টনা ডিডিত রার মযতা সহি হযত পাযর:
টাইমটযাম্প সনাি রণ এিিং িযিস্থাপনা)।

ক্রস ডসডলিং
িস-ডসডলিং আপ-ডসডলিং ডথ্য আলাদা। সাধারণত, সহযযাগ্ী ডফল্টাডরিং অযালগ্ডরদযমর উপর
ডভডি যর, ধারণাটি খুোঁযি ডির রা হ়ে - ডিযেষত খু িরাযত - সাম্প্রডত ি়ে িা আগ্রযহর ডভডিযত
ড ান পণয ক্লায়েন্টয ডিডি রযত হযি। উদাহরণস্বরূপ, ডপেল ড না গ্রাহয র াযে ইডিন ডতল

44
A BEGINNER’S GUIDE TO DATA SCIENCE

ডিডির ডিষ্টা রা। িযাডঙ্কিং -এ, এ টি ড াম্পাডন হ়েযতা ডিে ড েু পডরযষিা ডিডি রযত িা়ে: প্রথ্যম
এ টি ডিড িং অযা াউন্ট, তারপর এ টি ডসডভিং অযা াউন্ট, তারপর এ টি িযিসাড়ে অযা াউন্ট,
তারপর এ টি ডনডদি ষ্ট গ্রাহ ডিভাযগ্ loanণ ইতযাডদ। িযাযলি হল সঠি িম ডিডিত রা যাযত
ড ান পযণযর প্রিার রা উডিত, সঠি গ্রাহ ডিভাগ্ এিিং ডিডভন্ন প্রিাযরর মযধয সযিিািম সম়ে
িযিধান।

ডক্লডনকাল ট্রায়াল
ডক্লডন াল ো়োল হল ডক্লডন াল গ্যিষণা়ে রা পরীো, সাধারণত ডোট তথ্য িডড়ত। মানুযষর
অিংেগ্রহণ ারীযদর উপর এই ধরযনর সম্ভািয িায়োযমডে যাল িা আিরণগ্ত গ্যিষণা অধয়েনগুডল
ডনডদি ষ্ট িায়োযমডে যাল িা আিরণগ্ত হস্তযেযপর উির ডদও়োর িনয ডেিাইন রা হয়েযে, যার
মযধয রয়েযে নতুন ডিড ত্সা এিিং পডরডিত হস্তযেপ যা আরও গ্যিষণা এিিং তুলনার িনয
প্রয়োিনী়ে। ডক্লডন াল ো়োলগুডল ডনরাপিা এিিং াযি াডরতা সম্পড ি ত তথ্য বতডর যর। প্রাথ্ডম
উযদ্বযগ্র মযধয রয়েযে ড ভাযি ডরাগ্ীযদর নমুনা ডদও়ো হ়ে (প্রধানত যডদ তাযদর েডতপূ রণ ডদও়ো
হ়ে), এই গ্যিষণা়ে স্বাযথ্ির দ্বন্দ্ব এিিং পু নরুত্পাদনযযাগ্যতার অভাি।

ডিত্র 2 - পডরসিংখযাযনর ডেত্র িীিযনর স ল ডেত্রয প্রভাডিত যর

45
ENAMUL HAQUE

ৈহুডৈধ্ প ীক্ষা
মাডল্টযভডরয়েট ডটডটিং এ টি হাইযপাডথ্ডসস পরীো রার এ টি ড ৌেল ডযখাযন এ াডধ
ডভডরয়েিল পডরিতি ন রা হ়ে। লেয হল সম্ভািয সিংডমেযণর মযধয ড ান বিডিযত্রর সিংডমেণ সিযিয়ে
ভাযলা যর তা ডনধিারণ রা। ওয়েিসাইট এিিং ডমািাইল অযাপগুডল পডরিতি নেীল উপাদানগুডলর
সিংডমেযণ গ্ঠিত যা িহুডিধ পরীোর মাধযযম অডিমাইি রা হ়ে। এর মযধয রয়েযে পরীোর যত্নেীল
ন ো, এিিং এ টি ওয়েিযপযির দুটি সিংকরযণর মযধয েুদ্র, অস্থা়েী পাথ্ি য (ফলন িা ওয়েি
োডফয র মযধয) পডরসিংখযানগ্ত তাত্পযি নাও থ্া যত পাযর। যখন ANOVA8এিিং হাইযপাডথ্ডসযসর
পরীোগুডল িহুডিধ পরীোর িনয ডেল্প িা স্বাস্থযযসিা পডরসিংখযানডিদরা িযিহার যরন, আমরা ডেটা
ডিডনিং এিিং মযেল-মুি আস্থা িযিধাযনর উপর ডভডি যর মযেল-মুি, ডেটা-িাডলত ডসযটম বতডর
যরডে। এ টি িহুমুখী পরীোর পরীো িন্ধ রা (তারা সাধারণত ওয়েি ডপি অডিমাইযিেযনর
িনয 14 ডদন স্থা়েী হ়ে) যত তাড়াতাডড় ডিি়েী সিংডমেণটি ডিডিত রা হ়ে তা প্রিুর অথ্ি সাে়ে
রযত সহা়েতা যর। মযন রাখযিন ডয িডহরাগ্ত র্টনা - উদাহরণস্বরূপ, েু টির ডদন িা ড েু সাভি ার
ডিভ্রাট - িহুডিধ পরীোর ফলাফলয প্রভাডিত রযত পাযর এিিং এর সমাধান রা প্রয়োিন।

সাড ৈদ্ধ ৈযৈস্থা


সাডর ডন়েন্ত্রযণর িনয এ টি ড উ মযাযনিযমন্ট ডসযটম িযিহার রা হ়ে। এ টি সাডর এলা া়ে
ডিডভন্ন পডরডস্থডতযত এিিং অিস্থাযন মানুযষর সাডর বতডর হ়ে, উদাহরণস্বরূপ, এ টি ল ডসন্টাযর। সাডর
গ্ঠন ও িিংে ডিস্তাযরর প্রডি়োয সাডরিদ্ধ তি ডহযসযি সিংজ্ঞাড়েত রা হ়ে। এ টি সাডরযত মানুযষর
আগ্মন সাধারণত এ টি পয়েসন পদ্ধডত িযিহার যর এ টি ক্লায়েন্টয এ টি সূি ী়ে ডেডিডিউেন
িযিহার যর মযেল রা হ়ে। পডরসিংখযানগ্ত সমসযা হও়ো সযিও, এটি অপাযরেন গ্যিষণার অিংে
িযল মযন রা হ়ে।

সািাই ডেইন অপটমাইযজ্শন


সািাই ডিইন অপটিমাইযিেন এ টি উৎপাদন ও ডিতরণ সািাই ডিইযনর সযিিািম
ডি়ো লাপ ডনডশ্চত রার িনয প্রডি়ো এিিং সরিাম প্রয়োগ্ যর। এর মযধয রয়েযে সািাই ডিইযনর
মযধয অনুকূল ইনযভন্টডর ডিসযমন্ট, অপাযরটিিং খরি মাযনা (উৎপাদন খরি, পডরিহন খরি এিিং
ডিতরণ খরি সহ)। এটি প্রা়েেই গ্াডণডত মযেডলিং ড ৌেল ডযমন গ্রাফ তি প্রয়োগ্ যর অনুকূল
ডেডলভাডর রুট (এিিং গুদাযমর সযিিািম অিস্থান), ডসমযিক্স অযালগ্ডরদম এিিং মযন্ট াযলিা
ডসমুযলেন িযিহার যর।

46
A BEGINNER’S GUIDE TO DATA SCIENCE

47
ENAMUL HAQUE

48
A BEGINNER’S GUIDE TO DATA SCIENCE

Enamul Haque is an author, researcher, and managing consultant


best known for working with global companies such as Microsoft,
Capgemini, Nokia, HCL Technologies, and the United Nations High
Commissioner for Refugees (UNHCR) and International Telecommu-
nication Union (ITU). He has over 26 years of rich experience in IT
transformation and leading people for their professional growth and in-
crease contribution to the organisation. Out of which, he treasured 13
years of experience in remote working and leading virtual teams.
As a consultant, Enamul worked with many of the world's best-
known companies on their digital transformation and service integration

49
ENAMUL HAQUE

strategies for improving business performance and value creation, includ-


ing Alstom, Bayer AG, Bombardier, Britvic, Cadent, Carphone, Chanel,
Direct Line Group, Estee Lauder Companies, Heathrow Airport, Neste,
Rockwell Automation, Rogers, Sandvik, Shell, SJ Johnson, Terex, True-
Value, Unilever, Warner Brothers, among many others. He assists in re-
skilling technical workforces to stay modern and ensure business conti-
nuity and compliance.
Enamul shares his industry knowledge among the MBA students as
a guest lecturer at the University of Coventry, London campus. He
worked very extensively as contributing writer for various newspapers,
magazines, and other publications. Enamul is multilingual and lived and
worked in many countries, including the USA, Switzerland, Finland,
UAE, UK, India, and Germany.
Enamul Haque studied mathematics and analytics (Cours de
mathématiques spéciales) at the Swiss Federal Institute of Technology
(EPFL), Lausanne, and architecture and Technology of computer sci-
ence (license en science Informatique) at the University of Geneva. He
also has a diploma in Artificial Intelligence and Machine Learning from
the University of Helsinki. He is currently pursuing a Harvard and
Capgemini co-branded program on foundational behaviours of manage-
rial success (proximity, performance, and perspective). The program is
based on three key areas, such as understanding the importance of
Managerial behaviours and the impact they have on teams (including vir-
tual teams), the ability to demonstrate and apply new managerial practic-
es in a changing environment and to be equipped to enable a cultural
shift towards a more substantial employee experience and engagement.

AUTHOR OFFICIAL WEBSITE: https://www.enamulhaque.co.uk/


ALL BOOKS BY ENAMUL HAQUE: https://enamulhaque.co.uk/my-books
ENAMUL HAQUE BLOG: https://enamulhaque.co.uk/my-articles
GOODREADS AUTHOR PROFILE: https://www.goodreads.com/haquenam
AMAZON AUTHOR PROFILE: https://www.amazon.com/ author/enamulhaque
TWITTER HANDLE @HAQUENAM: https://twitter.com/haquenam
LINKEDIN PROFILE: https://www.linkedin.com/in/haquenam
YOUTUBE TUTORIAL: https://www.youtube.com/c/digitaldeepdive

50
A BEGINNER’S GUIDE TO DATA SCIENCE

FACEBOOK AUTHOR PAGE: https://www.facebook.com/authorenam

51
ENAMUL HAQUE

THE ULTIMATE MODERN GUIDE TO CLOUD COMPUTING


ISBN- 979-8666050637
This book has the most simplified explanation of Cloud Com-
puting, starting from understanding digital transformation,
enabling technologies to define essential characteristics, service
models, deployment models, etc., with a pragmatic approach.
It provides the path to digital transformation through the
adoption of Cloud Computing to help construct Intelligent
Enterprises.

THE ULTIMATE MODERN GUIDE TO ARTIFICIAL INTELLIGENCE


ISBN: 979-8691930768
This book has the most simplified explanation of Cloud Compu-
ting, starting from understanding digital transformation, ena-
bling technologies to define essential characteristics, service mod-
els, deployment models, etc., with a pragmatic approach. It pro-
vides the path to digital transformation through the adoption of
Cloud Computing to help construct Intelligent Enterprises.

THE ULTIMATE MODERN GUIDE TO THE INTERNET OF THINGS (IOT)


ISBN- 979-8691930768
The Internet of Things explained: Simply and Non-
Technically. IoT is a computing paradigm in which several
technologies that connect various devices based on wireless In-
ternet acquire environmental information through sensors and
control. This book provides a rigorous understanding of the IoT
framework, characteristics, architecture, applications, technolo-
gies etc. in plain English to improve your awareness A key objec-
tive of this book is to provide a systematic source of reference for all aspects of IoT.

52
A BEGINNER’S GUIDE TO DATA SCIENCE

THE ULTIMATE MODERN GUIDE TO DIGITAL TRANSFORMATION


ISBN- 979-8702899572
In this book, you’ll learn how new technologies disrupt businesses
and how to transform to survive with the convergence of cloud
computing, big data, artificial intelligence, the internet of
things, and many other emerging technologies and how they are
changing how we operate the 21st century. This book will give
you the digital practices needed to catapults your organisation
into next-level success.

SURVIVE AND THRIVE WORK FROM HOME


ISBN- 979-8580562872
The impact of Pandemic and the new shifting trends for work-
live balance. How we get there and it a success both for employ-
ees and employers. The fundamentals of remote working. Un-
derstanding the norms, teleworking history, benefits, challeng-
es, and a very high-level overview of technology and culture's
essential aspects. A collection of the best practices to do your work
from home work for you. This includes the very best tips and
tricks for working remotely by personality, job types etc. This has a selection of tops
tools for remote use.

CLOUD SERVICE MANAGEMENT AND GOVERNANCE


ISBN- 978-1716788352
Once an organisation adopts cloud computing, it quickly becomes apparent that
the traditional IT Service Management processes' traditional
approaches will need to undergo drastic changes to integrate
and run Bi-Modal IT Service Operations. This book is an al-
leyway to manage enterprise could services with a framework
that consists of progressive Service Management practices to
ensure practical, strategic, and modular methodology for the
positive transformation of ITSM for cloud delivery models is
followed.

53
ENAMUL HAQUE

1
Dan Radak - Data Science Security Hacks - https://data-science-
blog.com/blog/2020/06/04/data-science-security-hacks/
2
kirk86 - Statistical modeling summarization -
https://kirk86.github.io/2017/11/stats-modeling/
3
Smriti Srivastava - The 10 general applications of statistical models in data ana-
lytics - https://www.analyticsinsight.net/the-10-general-applications-of-statistical-
models-in-data-analytics/
4
ANOVA - Analysis of variance is a collection of statistical models and their asso-
ciated estimation procedures used to analyse the differences among means. ANOVA
was developed by the statistician Ronald Fisher.
5
েযান রাদা -ডেটা সায়েে ডসড উডরটি হযা স-https://data-science-
blog.com/blog/2020/06/04/data-science-security-hacks/
6
kirk86 - পডরসিংখযানগ্ত মযেডলিং সিংডেপ্ত রণ - https://kirk86.github.io/2017/11/stats-
modeling/
7
স্মৃডত শ্রীিাস্তি-তথ্য ডিযেষযণ পডরসিংখযানগ্ত মযেলগুডলর 10 টি সাধারণ অযাডিয েন-
https://www.analyticsinsight.net/the-10-general-applications-of-statistical-
models-in-data-analytics/
8
ANOVA - বি ডল্প ডিযেষণ হল পডরসিংখযানগ্ত মযেলগুডলর এ টি সিংগ্রহ এিিং তাযদর সাযথ্ সম্পড ি ত
অনু মান পদ্ধডত যা মাধযযমর মযধয পাথ্ি য ডিযেষণ রযত িযিহৃত হ়ে। ANOVA বতডর যরডেযলন পডরসিংখযানডিদ
ডরানাল্ড ডফোর।

54

You might also like

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy