0% found this document useful (0 votes)

1 views21 pages

Three Node Cluster in Hadoop

The document outlines the process of building a 3-node cluster for big data analytics using Cloudera, highlighting the importance of big data analytics and the challenges faced with Cloudera Quickstart VM. It details the objectives, methods, prerequisites, and procedures for setting up the cluster, including the configuration of Hadoop services and validation of the cluster. The conclusion emphasizes the benefits of using a Cloudera cluster for learning and small-scale analytics, along with suggestions for future scalability.

Uploaded by

jick alvin

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

1 views21 pages

Three Node Cluster in Hadoop

Uploaded by

jick alvin

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 21

Building a 3-Node Cluster for Big Data

Analytics in Cloudera

Molinge Lyonga Jr SC24P107

Ebai Jenniline Agbor SC24P118
Jik Alvin Comforter SC24P111

1
Presentation Outline

Introduction
objectives
methods
Results
conclusion

2
INTRODUCTION
What is big data analytics?
Big Data Analytics is all about crunching massive amounts of information to uncover hidden trends, patterns, and
relationships. It's like sifting through a giant mountain of data to ﬁnd the gold nuggets of insight.

Importance of big data analytics?

● Informed Decisions: In a store like Walmart. Big Data Analytics helps them make smart choices about
what products to stock. This not only reduces waste but also keeps customers happy and profits high.
● Enhanced Customer Experiences: Think about Amazon. Big Data Analytics is what makes those
product suggestions so accurate. It's like having a personal shopper who knows your taste and helps
you find what you want.
● Fraud Detection: Credit card companies, like MasterCard, use Big Data Analytics to catch and stop
fraudulent transactions. It's like having a guardian that watches over your money and keeps it safe.
● Optimized Logistics: FedEx, for example, uses Big Data Analytics to deliver your packages faster and
with less impact on the environment. It's like taking the fastest route to your destination while also
being kind to the planet.
3
Challenges of Cloudera Quickstart VM
As we know, cloudera quickstart provides us with all needed tools preconfigured. Although like this, it is not
production level, just for local development purposes. Configuring a cluster and adding nodes to it has shown to
be challenging. Some key points noted:
● Cloudera quickstart VM is old supporting CDH5.* and below and is no longer officially supported by
Cloudera
● It lacks support and compatibility issue with other OS. We attempted adding a node running on Ubuntu 24,
Ubuntu 14, and another Cloudera Quickstart VM. But all fails during cloudera agent installing part of
adding a node to the cluster.

4
OBJECTIVES

● Describe procedure for building a 3-node cluster for big data

analytics in the Cloudera platform.
● Build a 3-node cluster using cloudera-quickstart VM as master
and 2 Ubuntu machines as slaves.
● Case study

5
Why use Cloudera for big data processing?

● Cloudera is often used for big data processing because it offers a comprehensive platform
for managing and analyzing large datasets, including features like scalable storage, data
processing engines, and data security.

● It facilitates faster analysis and offers a ﬂexible environment for building complex
applications.

6
METHODS

Using Hadoop Cluster

● A Hadoop cluster is nothing but a group of computers connected together via LAN.
● We use it for storing and processing large data sets. Hadoop clusters have a number of
commodity hardware connected together.
● They communicate with a high-end machine which acts as a master.
● These master and slaves implement distributed computing over distributed data storage.
● It runs open-source software for providing distributed functionality.
7
Architecture of a Hadoop Cluster

8
Prerequisites for Cluster Setup

● Hardware Requirements
○ 3 physical/virtual machines (minimum specs: 8GB RAM, 4 CPU cores, 100GB storage per
node)
● Software Requirements
○ Linux OS (CentOS/RHEL 7/8, Ubuntu).
○ Cloudera Manager (for cluster management).
○ JDK (Java Development Kit).
● Network Requirements
○ Static IP addresses for all nodes.
○ SSH key-based authentication.
9
System Architecture Overview
● Cluster Roles
○ Master Node (1): Runs NameNode,
ResourceManager, Cloudera
Manager.
○ Worker Nodes (2): Run DataNode,
NodeManager.

10
Procedure for creating a cluster

● Setup cloudera-quickstart VM as master machine with Namenode.

● Setup 2 ubuntu VM as slave machines with Datanode.
● Setup ssh between slaves and master nodes and enable static IPs.
● Update /etc/hosts for each master/slaves so each one can see the other.
● Install Java on slave nodes.
● Download hadoop and setup on ubuntu1, then ssh-copy tar to ubuntu2 and setup.
● Add slave nodes to cluster and allow master node install all necessary components
like cloudera agent on slave nodes.

11
Adding Worker/slave Nodes via Cloudera Manager
1. Access Cloudera Manager Web UI (http://<master-node>:7180)
2. Navigate to Hosts > Add New Hosts
3. Enter worker node IPs/hostnames.
4. Install CDH (Cloudera Distribution for Hadoop).

12
Conﬁguring Hadoop Services

● Role Assignment
○ Master Node: NameNode, ResourceManager, Cloudera Manager.
○ Worker Nodes: DataNode, NodeManager
● Key Services to Install:
○ HDFS (Storage).
○ YARN (Resource Management).
○ ZooKeeper (Coordination).

13
Conﬁguring Hadoop Services

● Conﬁgure Cloudera manager using Proof-of-Concept Installation Guide

(https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/poc_ins
tallation.html)
● Use Vagrant to provision CentOS VMs automatically with Cloudera CDH

14
Screenshot for adding new hosts a cluster

Fig: Adding new slave nodes to cluster 15

Validating the Cluster

● Commands to Verify:
○ hdfs dfsadmin -report (Check HDFS health)
○ yarn node -list (Check YARN nodes)
○ Run a sample MapReduce job (e.g., WordCount).

● Expected Output
○ All nodes should show as "Live" in HDFS/YARN.

16
Best Practices
● Cluster Maintenance:
○ Regularly back up NameNode metadata.
○ Monitor via Cloudera Manager alerts.

● Security:
○ Enable Kerberos for production clusters.
○ Use ﬁrewall rules for network security.

17
Troubleshooting Common Issues
● SSH Failures: Fix:
○ Verify ~/.ssh/authorized_keys permissions
● Service Startup Errors:
○ Fix: Check /var/log/cloudera-scm-server/ logs.
● Resource Constraints:
○ Fix: Increase RAM/CPU allocation.

18
Case Study:Real World Implementation

Example: A retail Nodes Results

company using a ● Customer behavior ● 30% faster data
3-node Cloudera analytics. processing.
cluster for: ● Inventory optimization.
● Cost savings
compared to
● Sales forecasting cloud-based
solutions.

19
Conclusion
➔ Summary
◆ A 3-node Cloudera cluster is ideal for learning and
small-scale analytics.
◆ Cloudera Manager simpliﬁes deployment and
management.
➔ Next Steps

◆ Scale to more nodes for production workloads.

◆ Integrate Spark, Kafka, or Hive.

➔ Simple
Provide a simple unifying message for what is to come

20
The End
Thank you

Admin Cloudera
100% (3)
Admin Cloudera
637 pages
Cloudera Administration
No ratings yet
Cloudera Administration
694 pages
Cloudera Developer Training Slides
No ratings yet
Cloudera Developer Training Slides
784 pages
CN Chapter 5
No ratings yet
CN Chapter 5
130 pages
CT Consoles Components All Models
No ratings yet
CT Consoles Components All Models
16 pages
Cloudera Administrator Training Slides PDF
No ratings yet
Cloudera Administrator Training Slides PDF
601 pages
Admin 1
No ratings yet
Admin 1
856 pages
UARTFinalreport
No ratings yet
UARTFinalreport
49 pages
Hadoop Architecture and HDFS: Chapter 3
No ratings yet
Hadoop Architecture and HDFS: Chapter 3
51 pages
Big Data Analytics and Visualization Lab
No ratings yet
Big Data Analytics and Visualization Lab
193 pages
Cloudera Administration PDF
No ratings yet
Cloudera Administration PDF
478 pages
11.integrating SAP HANA and Hadoop PDF
No ratings yet
11.integrating SAP HANA and Hadoop PDF
99 pages
Chat Rest
No ratings yet
Chat Rest
65 pages
Cloud Era Csu La 11122012
No ratings yet
Cloud Era Csu La 11122012
50 pages
Big Data Analytics Laboratory
No ratings yet
Big Data Analytics Laboratory
57 pages
FAO-ICLARM Stock Assessment Tools (FISAT) User's Manual: January 1996
No ratings yet
FAO-ICLARM Stock Assessment Tools (FISAT) User's Manual: January 1996
181 pages
Cloudera Administrator Training
100% (6)
Cloudera Administrator Training
373 pages
Big Data - Tomas Iglesias IV
No ratings yet
Big Data - Tomas Iglesias IV
37 pages
Cloudera Data Platform
No ratings yet
Cloudera Data Platform
69 pages
Cloudera Ref Arch Generic Cloud
No ratings yet
Cloudera Ref Arch Generic Cloud
35 pages
BigData Theory
No ratings yet
BigData Theory
65 pages
IIM Cal Big Data Course Slides
No ratings yet
IIM Cal Big Data Course Slides
131 pages
Module III
No ratings yet
Module III
33 pages
E-Bites - Integrating SAP HANA and Hadoop - wwwERPExamsCom
No ratings yet
E-Bites - Integrating SAP HANA and Hadoop - wwwERPExamsCom
99 pages
CEG5101 Aug 2023 Tutorial 2
No ratings yet
CEG5101 Aug 2023 Tutorial 2
27 pages
Control Statements (Looping) While-Do While and For
No ratings yet
Control Statements (Looping) While-Do While and For
27 pages
601 C G Answers - Final
No ratings yet
601 C G Answers - Final
43 pages
DSCI 5350 - Lecture 2 PDF
No ratings yet
DSCI 5350 - Lecture 2 PDF
54 pages
Cloudera Ref Arch Metal
No ratings yet
Cloudera Ref Arch Metal
50 pages
Chapter 1 Typical Configuration of Computer System
No ratings yet
Chapter 1 Typical Configuration of Computer System
29 pages
Lights Out Management (Lom) : Administration Guide
No ratings yet
Lights Out Management (Lom) : Administration Guide
37 pages
Big Data Hadoop Infrastructure Using Hitachi Compute Rack and Cloudera Hadoop
No ratings yet
Big Data Hadoop Infrastructure Using Hitachi Compute Rack and Cloudera Hadoop
34 pages
Revit24 NewFeaturesPresentation WD
100% (1)
Revit24 NewFeaturesPresentation WD
15 pages
Seekright Presentation - Alan Gonsalves
No ratings yet
Seekright Presentation - Alan Gonsalves
15 pages
Hadoop Operations Managing Big Data Clusters
No ratings yet
Hadoop Operations Managing Big Data Clusters
59 pages
An Introduction To Hadoop Presentation PDF
100% (1)
An Introduction To Hadoop Presentation PDF
91 pages
Cloudera User Manual
No ratings yet
Cloudera User Manual
44 pages
Cloudera Ref Arch Azure
No ratings yet
Cloudera Ref Arch Azure
13 pages
Cloudera Apache Hadoop 101
100% (1)
Cloudera Apache Hadoop 101
51 pages
Slides PDF
No ratings yet
Slides PDF
30 pages
Big Data Specialisation
No ratings yet
Big Data Specialisation
8 pages
Unit IV
No ratings yet
Unit IV
10 pages
Cloudera Quickstart cdh5 User Guide
No ratings yet
Cloudera Quickstart cdh5 User Guide
30 pages
Cloudera Ref Arch Aws
No ratings yet
Cloudera Ref Arch Aws
24 pages
Release Notes Windows SDK
No ratings yet
Release Notes Windows SDK
10 pages
Cloudera Lab Preparation
No ratings yet
Cloudera Lab Preparation
3 pages
Cloudera Administration
No ratings yet
Cloudera Administration
481 pages
Assignment Algorithms
No ratings yet
Assignment Algorithms
12 pages
Doubly Linked List
No ratings yet
Doubly Linked List
18 pages
Strengthening Civilian Capacities To Protect Civilians Unarmed Civilian Protection PTP202014E
No ratings yet
Strengthening Civilian Capacities To Protect Civilians Unarmed Civilian Protection PTP202014E
4 pages
ClouderaManager ExerciseInstructions
No ratings yet
ClouderaManager ExerciseInstructions
25 pages
4.b-cdh Installation Via Cloudera Manager
No ratings yet
4.b-cdh Installation Via Cloudera Manager
17 pages
Cloudera Hadoop Introduction PDF
100% (1)
Cloudera Hadoop Introduction PDF
50 pages
Notice Board
No ratings yet
Notice Board
8 pages
21BLC1206 Experiment3
No ratings yet
21BLC1206 Experiment3
4 pages
Cloudera Ref Arch Generic Cloud
No ratings yet
Cloudera Ref Arch Generic Cloud
35 pages
Cloudera Enterprise Ready Hadoop 82821208
No ratings yet
Cloudera Enterprise Ready Hadoop 82821208
12 pages
Introduction To The Theory of Computation-L1
No ratings yet
Introduction To The Theory of Computation-L1
5 pages
Carrier Sense Multiple Access With Collision Detection1
No ratings yet
Carrier Sense Multiple Access With Collision Detection1
5 pages
Pagcor EDH Deployment Architecture
No ratings yet
Pagcor EDH Deployment Architecture
11 pages
Tutorial NX
No ratings yet
Tutorial NX
11 pages
Batch Processing in The Client:: OCLC Connexion Client Guides
No ratings yet
Batch Processing in The Client:: OCLC Connexion Client Guides
11 pages
Cloudera Distributed Hadoop (CDH) Installation and Configuration On Virtual Box
No ratings yet
Cloudera Distributed Hadoop (CDH) Installation and Configuration On Virtual Box
44 pages
BDA Unit-4
No ratings yet
BDA Unit-4
38 pages
BDA Unit-4
No ratings yet
BDA Unit-4
38 pages
Cloudera Quickstart
No ratings yet
Cloudera Quickstart
32 pages
Part2 HDFS
No ratings yet
Part2 HDFS
33 pages
Cloudera Developer Training
100% (1)
Cloudera Developer Training
483 pages
Transport Phenomena Fundamentals PDF
0% (2)
Transport Phenomena Fundamentals PDF
2 pages
Sap Install Instructions PDF
No ratings yet
Sap Install Instructions PDF
2 pages
NARS Technical Specification
No ratings yet
NARS Technical Specification
15 pages
Practical List
No ratings yet
Practical List
2 pages
BISetup Tables List
No ratings yet
BISetup Tables List
4 pages
Hitachi Data Systems Hadoop Solution
No ratings yet
Hitachi Data Systems Hadoop Solution
3 pages
HTML Code
No ratings yet
HTML Code
1 page
Adabas Basics
100% (1)
Adabas Basics
52 pages
Cloudera Enterprise: The Ultimate Data Engine
No ratings yet
Cloudera Enterprise: The Ultimate Data Engine
2 pages
Origins and Overview of ArgoUML
No ratings yet
Origins and Overview of ArgoUML
2 pages
Clouderas Distribution Including Apache Hadoop Version 3 Update 3
No ratings yet
Clouderas Distribution Including Apache Hadoop Version 3 Update 3
2 pages
Cloudera Nokia Case Study Final
No ratings yet
Cloudera Nokia Case Study Final
2 pages
Cloudera Quickstart PDF
No ratings yet
Cloudera Quickstart PDF
28 pages
(XXXX) Syllabus - Big Data Administration Training For Apache Hadoop - 280715
No ratings yet
(XXXX) Syllabus - Big Data Administration Training For Apache Hadoop - 280715
1 page
Kubernetes Made Easy
From Everand
Kubernetes Made Easy
Pankaj Joshi
No ratings yet
The Beginner’s Guide to Node.js
From Everand
The Beginner’s Guide to Node.js
Steven Mcananey
No ratings yet
Advanced Penetration Testing for Highly-Secured Environments: The Ultimate Security Guide
From Everand
Advanced Penetration Testing for Highly-Secured Environments: The Ultimate Security Guide
Allen Lee
4.5/5 (6)
Deploy any website on google cloud platform
From Everand
Deploy any website on google cloud platform
AJ Books
No ratings yet
vSphere High Performance Cookbook
From Everand
vSphere High Performance Cookbook
Prasenjit Sarkar
No ratings yet
CUDA Programming with C++: From Basics to Expert Proficiency
From Everand
CUDA Programming with C++: From Basics to Expert Proficiency
William Smith
No ratings yet
OpenNebula 3 Cloud Computing
From Everand
OpenNebula 3 Cloud Computing
Giovanni Toraldo
No ratings yet
Mastering Apache Cassandra - Second Edition
From Everand
Mastering Apache Cassandra - Second Edition
Nishant Neeraj
No ratings yet

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Three Node Cluster in Hadoop

Uploaded by

Three Node Cluster in Hadoop

Uploaded by

Building a 3-Node Cluster for Big Data

Molinge Lyonga Jr SC24P107

Importance of big data analytics?

● Describe procedure for building a 3-node cluster for big data

Using Hadoop Cluster

● Setup cloudera-quickstart VM as master machine with Namenode.

● Conﬁgure Cloudera manager using Proof-of-Concept Installation Guide

Fig: Adding new slave nodes to cluster 15

Example: A retail Nodes Results

◆ Scale to more nodes for production workloads.

◆ Integrate Spark, Kafka, or Hive.

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.