0% found this document useful (0 votes)

7 views

Assignment 4 (Big Data)

The document discusses Hadoop architecture including JobTracker, TaskTracker, and YARN. It also covers limitations of Hadoop 1.0 and improvements in Hadoop 2.0 such as YARN framework. Types of NoSQL databases including key-value stores, document stores, column-family stores, graph databases and time-series databases are also explained.

Uploaded by

Vishal Shah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views

Assignment 4 (Big Data)

Uploaded by

Vishal Shah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Assignment - 4 (Big Data)

Q1. Explain Job Tracker and Task Tracker in Hadoop.

Ans. JobTracker:

Role: The JobTracker is the master node responsible for managing and coordinating MapReduce jobs
submitted to the Hadoop cluster. It is typically run on the master node of the cluster.

Functionality:

Job Scheduling: It schedules MapReduce tasks, allocates resources, and monitors the progress of each
job.

Task Assignment: It assigns tasks to available TaskTracker nodes based on data locality and resource
availability.

TaskTracker:

Role: The TaskTracker is a slave node component responsible for executing tasks assigned by the
JobTracker. Each worker node in the Hadoop cluster runs a TaskTracker daemon.

Functionality:

Task Execution: It executes Map and Reduce tasks assigned by the JobTracker, processing data stored
locally on the node.

Heartbeat: It sends periodic heartbeat signals to the JobTracker to indicate its availability and report task
status updates.

Q2. List and explain limitations and solutions of Hadoop for Big Data Analytics.

Ans. limitations of Hadoop for Big Data Analytics along with potential solutions:

Limitations:

1. High Latency for Interactive Queries: Hadoop's batch processing model can result in high latency for
interactive queries and real-time analytics.

2. Complexity in Programming: Developing MapReduce programs requires expertise in Java or other

programming languages, making it challenging for non-programmers.

Solutions:

1. In-Memory Processing with Apache Spark: Apache Spark offers in-memory processing capabilities,
reducing latency for interactive queries and real-time analytics compared to Hadoop's disk-based processing
model.

2. Higher-Level Abstractions with Apache Hive and Pig: Tools like Apache Hive and Pig provide higher-level
abstractions and SQL-like languages, enabling easier development of analytics workflows without extensive
programming knowledge.

Q3. Compare Hadoop 1.0 and Hadoop 2.0 with the help of its architecture and features.
Ans.
Hadoop 1.0:

1. Architecture:

Single Resource Manager: Hadoop 1.0 architecture consists of a single JobTracker, which acts as the
central resource manager and scheduler for all MapReduce jobs.

TaskTrackers: Multiple TaskTracker nodes are responsible for executing Map and Reduce tasks on
individual nodes in the cluster.

2. Features:

Assignment - 4 (Big Data) 1

Basic HDFS: Hadoop 1.0 includes the Hadoop Distributed File System (HDFS) for distributed storage,
providing fault tolerance and scalability for storing large datasets.

MapReduce Framework: Provides the MapReduce processing framework for distributed computation of
large datasets, enabling parallel processing of tasks across the cluster

Hadoop 2.0:

1. Architecture:

YARN (Yet Another Resource Negotiator): Hadoop 2.0 introduces YARN, a new resource management
framework that decouples resource management and job scheduling from MapReduce, allowing for more
diverse workloads and improved scalability.

ResourceManager and NodeManager: YARN architecture includes ResourceManager, which manages

cluster resources, and multiple NodeManagers.

2. Features:

YARN: YARN provides a more flexible and scalable resource management framework, supporting multiple
processing paradigms beyond MapReduce, such as Apache Spark, Apache Tez, and others.

Enhanced HDFS: Hadoop 2.0 includes enhancements to HDFS, such as support for high availability (HA)
Namenode and HDFS federation, improving reliability and scalability.

Overall, Hadoop 2.0 represents a significant evolution of the Hadoop ecosystem, addressing limitations of
Hadoop 1.0 and introducing new features and capabilities to meet the growing demands of Big Data processing.

Q4. Explain Hadoop YARN architecture. How does it works?

Ans.Hadoop YARN (Yet Another Resource Negotiator) is a resource management and job scheduling framework
introduced in Hadoop 2.0. It separates the resource management and job scheduling functions from the
MapReduce framework, allowing for more flexible and scalable data processing in Hadoop clusters.

Architecture:

1. ResourceManager (RM):

The ResourceManager is the master daemon responsible for managing cluster resources

2. NodeManager (NM):

The NodeManager is a per-node daemon responsible for managing resources on individual cluster nodes.

3. ApplicationMaster (AM):

The ApplicationMaster is a framework-specific master daemon responsible for managing the execution of
a single application.

How it Works:

1. Job Submission:

A client submits a job to the ResourceManager by providing details such as the type of application,
resource requirements, and input data location.

2. Resource Allocation:

Resources are allocated in the form of containers, which represent a fixed amount of CPU, memory, and
other resources on a cluster node.

3. Task Execution:

The ApplicationMaster, once launched, is responsible for coordinating the execution of tasks for the
application

Q5. Explain the types of NoSql Databases.

Assignment - 4 (Big Data) 2

Ans. NoSQL databases, also known as "Not Only SQL" databases, are a diverse set of database management
systems that differ from traditional relational databases in their data model, scalability, and flexibility.

1. Key-Value Stores:

Data Model: Stores data as a collection of key-value pairs

2. Document Stores:

Data Model: Stores semi-structured data as documents, typically in JSON or BSON format.

3. Column-Family Stores (Wide Column Stores):

Data Model: Stores data in columns rather than rows, organized into column families

4. Graph Databases:

Data Model: Stores data as nodes, edges, and properties, representing relationships between entities.

5. Time-Series Databases:

Data Model: Stores data points indexed by time, typically used for tracking and analyzing time-stamped
data.

Assignment - 4 (Big Data) 3

Big Data Analytics in Healthcare
100% (3)
Big Data Analytics in Healthcare
193 pages
Huawei ICT Competition Lap 2019-2020
No ratings yet
Huawei ICT Competition Lap 2019-2020
16 pages
Unit_2
No ratings yet
Unit_2
73 pages
BDA UNIT 2 (1)
No ratings yet
BDA UNIT 2 (1)
16 pages
bda final sem 7
No ratings yet
bda final sem 7
120 pages
Unit 1 Notes
No ratings yet
Unit 1 Notes
11 pages
1 Bda Chapter1 Answer
No ratings yet
1 Bda Chapter1 Answer
7 pages
BDA Unit 2 Q&A
No ratings yet
BDA Unit 2 Q&A
14 pages
10 - Big Data Architecture and Tools (1)
No ratings yet
10 - Big Data Architecture and Tools (1)
31 pages
Bda 201070046 01
No ratings yet
Bda 201070046 01
24 pages
Jenny Blog
No ratings yet
Jenny Blog
12 pages
Bda Summer 2022 Solution
No ratings yet
Bda Summer 2022 Solution
30 pages
Hadoop 2full Mod2
No ratings yet
Hadoop 2full Mod2
10 pages
Slide 2 GFS and Hadoop
No ratings yet
Slide 2 GFS and Hadoop
95 pages
Bda Assignment
No ratings yet
Bda Assignment
7 pages
Introduction to Hadoop
No ratings yet
Introduction to Hadoop
56 pages
BigData Unit-4 Complete
No ratings yet
BigData Unit-4 Complete
97 pages
Unit 2 Notes BDA
No ratings yet
Unit 2 Notes BDA
10 pages
BDA-2
No ratings yet
BDA-2
6 pages
Super 25 Unit 3 Notes
No ratings yet
Super 25 Unit 3 Notes
8 pages
24th August Afternoon Yarn (1)
No ratings yet
24th August Afternoon Yarn (1)
16 pages
Big Data Quiz1.1
No ratings yet
Big Data Quiz1.1
4 pages
Framework For Processing Data in Hadoop - : Yarn and Mapreduce
No ratings yet
Framework For Processing Data in Hadoop - : Yarn and Mapreduce
31 pages
Lecture 06 - Data Analytics For IoT A Primer
No ratings yet
Lecture 06 - Data Analytics For IoT A Primer
31 pages
BDA viva
No ratings yet
BDA viva
26 pages
CH 4 BDA
No ratings yet
CH 4 BDA
7 pages
Big Data-Week 3 - 1
No ratings yet
Big Data-Week 3 - 1
22 pages
2- YARN
No ratings yet
2- YARN
59 pages
Chapter 2 Introduction To Hadoop
No ratings yet
Chapter 2 Introduction To Hadoop
31 pages
Chapter 10
No ratings yet
Chapter 10
45 pages
BDA Unit-3
No ratings yet
BDA Unit-3
47 pages
Basic Concepts of Hadoop: Karthick Selvam
No ratings yet
Basic Concepts of Hadoop: Karthick Selvam
42 pages
Top 50 Hadoop Interview Questions for 2019
No ratings yet
Top 50 Hadoop Interview Questions for 2019
42 pages
BDA Final Notes
No ratings yet
BDA Final Notes
53 pages
Nptel Assignment 1
No ratings yet
Nptel Assignment 1
4 pages
Bda Module 2
No ratings yet
Bda Module 2
12 pages
Important Questions and Answers of Big Data Course
No ratings yet
Important Questions and Answers of Big Data Course
4 pages
Big Data QB
No ratings yet
Big Data QB
37 pages
Unit 2 Hadoop
No ratings yet
Unit 2 Hadoop
60 pages
Hadoop Interview1
No ratings yet
Hadoop Interview1
27 pages
Bda QB Soln
No ratings yet
Bda QB Soln
22 pages
Unit 2 (1)
No ratings yet
Unit 2 (1)
22 pages
Adobe Scan 05-Nov-2023
No ratings yet
Adobe Scan 05-Nov-2023
9 pages
DS_QCM_BigData_2021 (1)
No ratings yet
DS_QCM_BigData_2021 (1)
6 pages
unit1.1.1 rthfgbcv trhbgfv tdhngfb
No ratings yet
unit1.1.1 rthfgbcv trhbgfv tdhngfb
26 pages
DSBDA ORAL Question Bank
100% (1)
DSBDA ORAL Question Bank
6 pages
IMTC634_Data Science_Chapter 13
No ratings yet
IMTC634_Data Science_Chapter 13
16 pages
500+ Data Engineering Interview_Questions
No ratings yet
500+ Data Engineering Interview_Questions
118 pages
Hadoop Big Data: Follow This Link To Know About Features of Hadoop
No ratings yet
Hadoop Big Data: Follow This Link To Know About Features of Hadoop
85 pages
Shortnotes For Cloud
No ratings yet
Shortnotes For Cloud
22 pages
BDA Unit-4 Part-1 HDFS,MapReduce
No ratings yet
BDA Unit-4 Part-1 HDFS,MapReduce
76 pages
Unit-2 - Introduction To Hadoop and Hadoop Architecture
No ratings yet
Unit-2 - Introduction To Hadoop and Hadoop Architecture
46 pages
HADOOP
No ratings yet
HADOOP
19 pages
Hadoop Architecture and Its Functionality
No ratings yet
Hadoop Architecture and Its Functionality
7 pages
L02-Hadoop Framework
No ratings yet
L02-Hadoop Framework
40 pages
Unit 5 - Introduction To Hadoop
No ratings yet
Unit 5 - Introduction To Hadoop
50 pages
CC unit5
No ratings yet
CC unit5
27 pages
Lecture-1 - 3 Hadoop - HDFS - Mapreduce (Self Study)
No ratings yet
Lecture-1 - 3 Hadoop - HDFS - Mapreduce (Self Study)
25 pages
Chapter 2 - 大数据生态系统
No ratings yet
Chapter 2 - 大数据生态系统
31 pages
Report Title: Wasit University
No ratings yet
Report Title: Wasit University
8 pages
Advanced Hadoop Techniques: A Comprehensive Guide to Mastery
From Everand
Advanced Hadoop Techniques: A Comprehensive Guide to Mastery
Adam Jones
No ratings yet
Mastering Data Engineering: Advanced Techniques with Apache Hadoop and Hive
From Everand
Mastering Data Engineering: Advanced Techniques with Apache Hadoop and Hive
Peter Jones
No ratings yet
OpenPDC DM Tools Examples
No ratings yet
OpenPDC DM Tools Examples
5 pages
Pig Hive
No ratings yet
Pig Hive
72 pages
HaLoop - Efficient Iterative Data Processing On Large Clusters
No ratings yet
HaLoop - Efficient Iterative Data Processing On Large Clusters
12 pages
01 Intro PDF
No ratings yet
01 Intro PDF
69 pages
Hadoop Mapreduce in Eucalyptus Private Cloud: Johan Nilsson
No ratings yet
Hadoop Mapreduce in Eucalyptus Private Cloud: Johan Nilsson
59 pages
CS8091 Bigdata Analytics Lessonplan With Date
No ratings yet
CS8091 Bigdata Analytics Lessonplan With Date
11 pages
### Cloud Computing - Bullet Points
No ratings yet
### Cloud Computing - Bullet Points
3 pages
Anatomy of A MapReduce Job
No ratings yet
Anatomy of A MapReduce Job
5 pages
Bigtable: A Distributed Storage System For Structured Data
No ratings yet
Bigtable: A Distributed Storage System For Structured Data
23 pages
Big Data Analytics
No ratings yet
Big Data Analytics
124 pages
62-BigData Hadoop Course
No ratings yet
62-BigData Hadoop Course
3 pages
Map Reduce
No ratings yet
Map Reduce
30 pages
BDA Notes
No ratings yet
BDA Notes
96 pages
Optimization Techniques in Data Warehousing
No ratings yet
Optimization Techniques in Data Warehousing
16 pages
GCC Lab Manual
100% (1)
GCC Lab Manual
50 pages
Hadoop Interview Questions
No ratings yet
Hadoop Interview Questions
28 pages
Mrjob Documentation: Release 0.6.0.dev0
No ratings yet
Mrjob Documentation: Release 0.6.0.dev0
150 pages
Predictive Analysis For Diabetes Using Tableau: Dhanamma Jagli Siddhanth Kotian
No ratings yet
Predictive Analysis For Diabetes Using Tableau: Dhanamma Jagli Siddhanth Kotian
3 pages
Untitled
100% (1)
Untitled
371 pages
A Formal Definition of Big Data Based On Its Essential Features
No ratings yet
A Formal Definition of Big Data Based On Its Essential Features
12 pages
239700a5-6c7a-43c1-810e-687c652d046e
No ratings yet
239700a5-6c7a-43c1-810e-687c652d046e
14 pages
Hadoop Questions
No ratings yet
Hadoop Questions
41 pages
Case 11 - Big Data and The Elephant 2022 Valacich IS Today
No ratings yet
Case 11 - Big Data and The Elephant 2022 Valacich IS Today
1 page
PPT3-W3-Big Data Foundation
No ratings yet
PPT3-W3-Big Data Foundation
63 pages
Learning Big Data With Amazon Elastic Mapreduce Amarkant Singh Vijay Rayapati Singh download
100% (2)
Learning Big Data With Amazon Elastic Mapreduce Amarkant Singh Vijay Rayapati Singh download
91 pages
ChiragMangla - Hadoop Architecture
No ratings yet
ChiragMangla - Hadoop Architecture
24 pages
Getting Started With Hazelcast - Second Edition - Sample Chapter
0% (1)
Getting Started With Hazelcast - Second Edition - Sample Chapter
14 pages
Big Data Mahout
No ratings yet
Big Data Mahout
10 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Assignment 4 (Big Data)

Uploaded by

Assignment 4 (Big Data)

Uploaded by

Assignment - 4 (Big Data)

Q1. Explain Job Tracker and Task Tracker in Hadoop.

2. Complexity in Programming: Developing MapReduce programs requires expertise in Java or other

Assignment - 4 (Big Data) 1

ResourceManager and NodeManager: YARN architecture includes ResourceManager, which manages

Q4. Explain Hadoop YARN architecture. How does it works?

Q5. Explain the types of NoSql Databases.

Assignment - 4 (Big Data) 2

Data Model: Stores data as a collection of key-value pairs

3. Column-Family Stores (Wide Column Stores):

Assignment - 4 (Big Data) 3

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.