2014.03.09.

nagyadatblog

Hadoop otthonra

Hortonworks Sandbox

Hiszem, hogy habár az átfogó kép ismerete nélkül sokkal nehezebben érthető meg egy technológiai megoldás, azonban a legtöbbet úgy lehet tanulni egy ilyen eszközről, ha azt testközelből tudjuk vizsgálni. Ezt szerencsére rajtam kivül más is így gondolta, ezért változó mértékben, de egyre jellemzőbb, hogy a szoftvergyártók biztosítanak olyan környezetet (online demo, letölthető image), ahol a konkrét eszközt ki lehet próbálni, ne adj isten, még valamiféle használati útmutatót, oktatóanyagot is készítenek hozzá. Ha az ember szán időt ezekre, telepíti, beállítja, próbálgatja az adott eszközt, végigrágja magát az oktatóanyagokon, az a korlátozott lehetőségekhez képest is megalapozhatja az eszközzel kapcsolatos ismereteit. Ettől természetesen nem lesz senkiből szakértő, viszont egy lépéssel egészen biztosan közelebb kerül ehhez a céljához. (Már ha egyáltalán van ilyen célja.)

Mivel az Apache Hadoop és a hozzá kapcsolódó kiegészítő alkalmazások is nyílt forráskódú szoftver(gyűjtemény)ek, kézenfekvő lépés az eszköz megismerésében, ha fogjuk magunkat, és letöltjük azokat az alkalmazások honlapjáról. Ezek olyan telepítőcsomagok, amik segítségével tökéletesen üzembe helyezhető egy teljes értékű Hadoop klaszter. Aki járatos üzemeltetésben, és otthonosan mozog UNIX környezetben, annak mindenképp ez az út a javasolt. Egyébként a közösség készített leírásokat, útmutatókat az üzembe helyezés és konfiguráció folyamatáról, amit érdemes áttanulmányozni, viszont ezek nem step-by-step típusú leírások, tehát nem hozzáértők csak nagy elszántság esetén kezdjenek ebbe bele.

Szerencsére azoknak sem kell elszomorodniuk, akik ezek után is szeretnének elmélyedni a Hadoop-ban, viszont nem ennyire elszántak, és/vagy nem érzik magukban azt a képességet, hogy belátható időn belül eredményesen be tudnának egy ilyen környezetet állítani, ugyanis néhány disztribúció megoldja ezt a problémájukat.

Hortonworks Sandbox

A Hortonworks csapata már a második oktatási célú környezetét osztotta meg a nagyérdeművel. A cég honlapjáról le lehet tölteni egy image fájlt (több formátumban is: VirtualBox, VMware, HyperV), ami lényegében a saját disztribúciójuk (Hortonworks Data Platform, HDP) szinte teljes értékű változata, feltelepítve és megfelelően konfigurálva egy Linux oprendszerre (CentOS). A Sandbox olyan mértékben előkészített, hogy a letöltés után perceken belül egy működő (és használható) Hadoop single-node-ot futtató számítógép felhasználói lehetünk. A honlap leírása szerint a Sandbox 15 percen belül testközelbe hozza a Big Data "élményt", de tapasztalatom szerint ehhez még 15 percre sincs szükség. Szükségünk van hozzá viszont egy erősebb hardverre, ugyanis legalább 4GB memóriát érdemes a virtuális géphez (VM) rendelni. Egy erősebb laptop viszont már tökéletes host tud számára lenni. A honlapon nagyon részletesen, lépésről lépésre leírják a Sandbox telepítésének és használatának módját, valamint a oktatóanyagok is nagyon jól használhatók. 

A VM kiválóan alkalmas arra, hogy kipróbáljunk alapvető Hadoop (és persze Hortonworks) funkciókat. Egy tutorial vezet végig a Sandbox tartalmán, érdemes végigcsinálni a benne szereplő leckéket, hiszen rajta keresztül megismerhetjük a Hortonworks Hadoop UI-t (HUE). Ez egy webes felület, amin elérhetjük az izgalmasabb funkciókat: a Beeswax-et (Hive UI), amiben SQL parancsokkal tudunk lekérdezéseket futtatni a minta, vagy általunk betöltött, adatokon; a Pig-et, amin keresztül megismerkedhetünk a Pig Latin nyelvvel; az HCatalog metaadatkezelőt; valamint az Oozie-t, ahol kipróbálhatjuk a HDP által biztosított eszköz-menedzsment lehetőségeket is.

23888519.jpg

(kép forrása: Hortonworks Sandbox tutorial)

A tutorial tartalma jelenleg (időnként ez bővül, a Sandboxban egy gomb megnyomásával ellenőrizhető, hogy a legfrissebb verzió van-e a számítógépünkön, ha nem, akkor azt a Sandbox a gomb megnyomásának hatására letölti):

  • Hello World - Using the Hortonworks Sandbox with Hive and Pig
  • Data Processing with Pig - Processing Baseball Stats With Pig
  • Data Processing With Hive - Processing Baseball Stats With Hive
  • HCatalog, Basic Pig & Hive Commands
  • Using Basic Pig Commands
  • Loading Data into the Hortonworks Sandbox
  • Installing and Configuring the Hortonworks ODBC driver on Windows 7
  • Using Excel 2013 to Access Sandbox Data
  • Using Excel 2013 to Analyze Sandbox Data
  • Visualizing Website Clickstream Data
  • Installing and Configuring the Hortonworks ODBC driver on Mac OS X
  • Refining and Visualizing Server Log Data
  • Analyzing Machine and Sensor Data

A tutorialt, személyes tapasztalatom szerint, egy hétvége alatt végig lehet csinálni, kényelmes tempóval haladva. Mindenkinek ajánlom!

 

-->

Címkék: apache sandbox hadoop hortonworks

A bejegyzés trackback címe:

https://nagyadat.blog.hu/api/trackback/id/tr535848701

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása