Направо към съдържанието

Apache Hadoop

от Уикипедия, свободната енциклопедия
Apache Hadoop
Информация
АвторДъг Кътинг, Майк Кафарела
РазработчикФондация Апачи софтуер
Програмен езикJava
Операционна системамеждуплатформен софтуер
ЛицензApache License 2.0
Уебсайтhadoop.apache.org
Apache Hadoop в Общомедия

Apache Hadoop е набор от инструменти с отворен код, които улесняват използването на мрежа от много компютри за разрешаването на проблеми, включващи огромно количество данни и изчисления. Предоставя софтуерна рамка за разпределено съхранение и обработване на big data чрез програмния модел MapReduce. Hadoop първоначално е проектиран през 2006 г. за работа с компютърни клъстери, съставени от хардуер за широкото потребление,[1] но по-късно започва да се използва и сред по-високопроизводителните системи.[2][3] Всичките модули в Hadoop са проектирани с презумпцията, че хардуерните повреди са често срещано явление и фреймуъркът следва да се справя с тях автоматично.[4]

Ядрото на Apache Hadoop е съставено от част за съхранение (Hadoop Distributed File System – HDFS) и част за обработка (MapReduce). Софтуерът разделя файловете на големи блокове и ги разпределя по членовете на клъстера. След това прехвърля пакетиран код (JAR) по членовете, който да обработва паралелно данните. Този подход се възползва от референтната локалност,[5] при която машините работят върху данните, до които имат достъп. Това позволява наборът от данни да бъде обработен по-бързо и по-ефикасно, отколкото иначе би било възможно с конвенционалната архитектура на суперкомпютрите, която разчита на паралелната файлова система, където изчисленията и данните се разпределят чрез високоскоростна мрежова инфраструктура.[6][7]

Софтуерната рамка на Hadoop е написана главно на Java с някои части на C.

  1. Judge, Peter. Doug Cutting: Big Data Is No Bubble // 22 октомври 2012. Посетен на 11 март 2018.
  2. Woodie, Alex. Why Hadoop on IBM Power // Datanami, 12 май 2014. Посетен на 11 март 2018.
  3. Hemsoth, Nicole. Cray Launches Hadoop into HPC Airspace // 15 октомври 2014. Посетен на 11 март 2018.
  4. Welcome to Apache Hadoop! // Посетен на 25 август 2016.
  5. What is the Hadoop Distributed File System (HDFS)? // IBM. Посетен на 12 април 2021.
  6. Data Locality: HPC vs. Hadoop vs. Spark // Data Science Association, 19 септември 2014. Посетен на 30 октомври 2014.
  7. Characterization and Optimization of Memory-Resident MapReduce on HPC Systems // 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE, октомври 2014. ISBN 978-1-4799-3800-1. DOI:10.1109/IPDPS.2014.87. с. 799 – 808.
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy