MapReduce-ról bővebben..

2014.03.12.

A MapReduce egy keretrendszer nagy mennyiségű adat feldolgozására képes alkalmazások készítéséhez. A MapReduce a Hadoop fájlrendszerrel (HDFS™) és a YARN keretrendszerrel alkotja a Hadoop rendszerek központi magját. Képes strukturált és strukturálatlan adatok párhuzamos feldolgozására sok száz vagy ezer számítógépből álló klaszteren, nagyfokú hibatűréssel, megbízhatóan.

Egy MapReduce job az adatokat egymástól független darabokra osztja szét és kulcs-érték párokba rendezi azokat a párhuzamos feldolgozás érdekében. A MapReduce egy "összetett szó", és összetett technika, a Map és a Reduce funkciók házasítása. A program Map része az inputot (a job-okat) kisebb egységekre bontja, és azokat szétosztja az egyes node-ok között a klaszterben. A job-okat a node-ok elvégzik, azok eredményét visszajuttatják a master node-nak, ami a visszakapott válaszokat egységesíti, és a kívánt kimeneti formába hozza a Reduce eljárás keretében. Ez a megoldás biztosítja, hogy a master node-on megfogalmazott "nagyobb" probléma megoldásán egyszerre a klaszter több tagja is dolgozzon, úgy hogy minden "dolgozó" node csak egy kis szeletét kapja meg a feladatnak, ami ráadásul a saját területén tárolt adatból, vélhetően gyorsan meg is oldható, így biztosítva a kiemelkedő teljesítményt a nagy adatmennyiség által okozott kihívás ellenére.

mapreduce-e1269190940722[1].png

Ezek alapján elmondható, hogy egy Hadoop klaszter kizárólag feldolgozási szempontból tekintve, szinte korlát nélkül skálázható, petabyte-os klaszterméretekben is percek vagy órák alatt tud olyan kérdésekre választ adni, amikre más technikával végzett feldolgozás során akár napokat kell várni. A MapReduce logikájából következően minimális az adattranszfer, mivel a kalkulációk minden node-on a helyben tárolt adatokon futnak. A MapReduce a számítást viszi az adatokhoz és nem az adatokat a számítókapacitáshoz. Ennek hasznát leginkább a hálózati I/O terhelés csökkenésében láthatjuk.

A MapReduce eljárás nagy hibatűrő képességgel bír, amit egyrészt a JobTracker funkciónak másrészt a HDFS tulajdonságainak köszönhet. Mivel az HDFS az adatokat redundánsan tárolja, a hiba miatt kieső node-on tárolt adatok nem válnak elérhetetlenné az alkalmazások számára, mivel azok más node-okon egészen biztosan megtalálhatók. A MapReduce kihasználja ezt az igen jó tulajdonságát az HDFS-nek, mivel ilyen esetben a JobTracker az adott feladatot átirányítja a kieső node-ról arra a még működőre, amely rendelkezik a feladat elvégzéséhez szükséges adattal.

(via & via)

Facebook Tumblr Tweet Pinterest Tetszik

-->

Címkék: hadoop MapReduce

A bejegyzés trackback címe:

https://nagyadat.blog.hu/api/trackback/id/tr335851615

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

nagy;adat;blog;

Keresés

Címkék

Bejegyzések

2014.03.12.

nagyadatblog