Az Apache Pig segítségével komplex MapReduce transzformációs szkripteket lehet készíteni, egy relatíve egyszerű nyelven. A szkriptnyelvet "Pig Latin"-nak hívják, ami tartalmaz egy halom előre definiált transzformációs függvényt, plusz lehetőséget biztosít saját függvények (User Defined Funcions, UDF) definiálására is. A Pig a Pig Latinban írt szkripteket lefordítja MapReduce eljárásokra, amik így futtathatóvá válnak a Hadoop klaszteren.
A Pig arra lett tervezve, hogy műveletek nagy sorozatú végrehajtását végezze el nagy adathalmazon, ami ideálissá teszi például ETL folyamatok futtatására, nyers adatok elemzésére és iteratív feldolgozására. De bármi is legyen a felhasználási cél, a Pig funkcionalitása jelentősen bővíthető UDF-ek segítségével. A Pig Latin egyébként egy nem túl bonyolult (procedurális) nyelv, könnyen megtanulható, és szerencsére a megírt szkriptek végrehajtását a rendszer automatikusan optimalizája, így ezzel nekünk felhasználóknak nem kell foglalkoznunk.
A Pig Latin referencia elérhető az Apache projekt weboldalán, például az alábbi site-okon:
További segédanyagok és a legaktuálisabb információk itt elérhetők. Aki tantermi oktatáshoz hasonló, vonalvezetett tanulást kedveli, annak a Pig alapjairól egy egészen jó kurzust kínál a Big Data University itt.
PS.: tervben van, hogy a közeljövőben egy rövid, magyarnyelvű oktatóanyag is felkerüljön a blogra egy poszt formájában.