Úthengerként tör előre a big data

CloudKaliforniában a korábbi bűnesetek vizsgálata alapján már számítógép becsüli meg, mikor és hol kerül sor a következő gaztettekre. A big data (BD-) ágazat az év végére 3 milliós szakemberhiánnyal küzdhet, miközben nagyságrendje átlépi a 30 milliárd dollárt. Magyar siker is akad e téren, méghozzá egy amerikai cég felé történt Jeremie-exit.

Az epilepsziás betegeknél már olyan vizsgálatokat is végeznek, amelyek során egy teljes hétig kamerákkal, mozgásérzékelőkkel és agyi tevékenységet figyelő elektródákkal monitorozzák a pácienst. Egyetlen esetnél akár 1 terabyte-nyi adat is összejöhet, ez több mint 106 darab DVD-n tárolt mozifilmnek felel meg. Természetesen ekkora információmennyiséget már csak a nagy adatok valós idejű elemzésére kialakított BD-megoldásokkal lehet kezelni, ám a távközlési s az informatikai területtel szemben az orvoslásnál – pláne a mi régiónkban – a hasonló fejlesztések még nem igazán tudták megvetni a lábukat. Mégis, a Magyar Tudományos Akadémia és a Teradata jelenleg effélén dolgozik. Ha a terveik beérnek, akkor a jövőben nemcsak a neurológiai betegségek analizálása lesz könnyebb, de ahogy a közös projekt egyik vezetője, dr. Fabó Dániel fogalmaz, az eredmények akár az agy működésére is ablakot nyithatnak.

A példán is jól látszik: idő kérdése és a BD minden területen felüti a fejét. Mára lassan a köztudatba is beépült a tény, hogy a hasonló megoldásokkal a böngészési, illetve vásárlási adatok alapján olyan mélyreható elemzéseket lehet összeállítani, amelyekkel a potenciális vevőnek elképesztő módon személyre szabott hirdetéseket is lehet megjeleníteni asztali gépén vagy akár mobilján, megnézve azt is, hol van éppen a telefon, elhalad-e mondjuk egy étterem, egy áruház, egy hotel vagy épp egy turisztikai régió közelében.

Mindez már évekkel ezelőtt arra a szintre jutott, hogy a tengerentúlon előfordult, egy szülőnek egy üzletlánc marketingleveléből kellett megtudnia, hogy a lánya terhes. A Target nevű áruház ugyanis többek közt abból a tényből, hogy a hölgy elkezdett ásványi anyaggal dúsított élelmiszereket s illatosítókat nem tartalmazó testápolókat venni, nagy valószínűséggel megállapította: a vásárlójuk gyermeket vár. De mindez ma már csak a jéghegy csúcsa.

Jó példa erre, hogy a nagy adatfeldolgozó fejlesztéseket Kalifornia államban már a bűnmegelőzésben is bevetették: kidolgoztak egy rendszert, amely a korábbi esetek vizsgálata alapján megbecsüli, mikor és hol kerül sor a következő bűnesetekre. Már-már megidézve ezzel a Különvélemény című sci-fi filmet, ahol előbb tartóztatták le a gyilkosokat, mint hogy azok bárkit is megöltek volna. Igaz, ott különleges képességű emberi lények látták még előre a jövőt, a filmkészítők nem szerverekre bízták e feladatot.

Önálló gépi nyelvtanulás

De a tény, hogy egy ember személyiségének a feltérképezéséhez már a netezési szokásaira sincs szükség, még ennél is ijesztőbb utópiákat idéz. Egy a Natureban megjelent kutatás szerint a mobiltelefonok lokációs adataiból a felhasználók 95 százalékánál már nemcsak azt lehet megjósolni, hogy melyik napszakban hol tűnnek fel, de akár az életstílusukra vonatkozó információkat is le lehet szűrni. „A technológia odáig jutott, hogy lassan a »kézi« analitika (emberi beavatkozással működő számítógépes elemzés – a szerk.) napjai is meg vannak számlálva. Az automatizmusok olyan összefüggéseket és egyszerűsítési lehetőségeket találnak, amelyek eddig elképzelhetetlen lehetőségeket nyitnak meg előttünk” – jegyzi meg Balog Zsolt, az IT Services vezető enterprise architectje, azaz vállalati BD-szakértője. Példának a Google fordítót említi, amely ma már olyan nyelveken is működik – hellyel-közel legalábbis –, amelyeket a rendszer egyetlen fejlesztője sem ért. Mindez egy olyan gépi tanulási (deep learning) módszernek köszönhető, amely képes szinonimákat találni a korábbi internetes keresések alapján.

A klasszikus nagy adatmennyiséget kezelő megoldások alapját egyébként ma már többnyire a nyílt forráskódú Hadoop keretrendszer adja, amely ezen a területen afféle de facto szabvánnyá vált. A technológia épp napjainkban döntögeti a konkurens termékek piacait azzal, hogy az elefánt emblémájuk sugallta „erős, de lassú” előítéletet végleg lemossa magáról. Viszont a BDnek mint buzzwordnek mára olyan átütő marketingereje lett, hogy jelenleg olyan termékeket is ezzel fémjeleznek, amelyeknél a kezelt adatmennyiség nem is számít igazán nagynak: ilyen a NoSQL vagy az In-memory database is. Utóbbi „csak” néhány terabyte adatot tud kezelni, viszont a sebessége verhetetlen, ezért valós idejű analitikára szokták használni, amellyel például az üzleti döntéstámogatást segítik.

Persze amint egy IT-trend óriási lendületet vesz, rögtön feltűnnek a károgó hangok is, amelyek az új irányvonal körüli felhajtás lecsengésére, a lufi gyors kipukkadására számítanak. Bár a BD körül is sok a szkeptikus, egyelőre semmi jele annak, hogy a negatív várakozásoknak bármi alapja lenne. Jelenleg az egyik legnagyobb kérdés inkább az, hogy a cégek tudják-e tartani a lépést az óriási kereslettel. A Gartner becslései szerint az idén 4,4 millió új szakemberre lesz szükség ezen a területen, de a cégek csak a pozíciók harmadát tudják feltölteni. Van, ahol belső képzésekkel oldják meg a problémát, és fizikusokat, mérnököket tanítanak ki a szakmára, mivel ők már rendelkeznek azzal az analitikus gondolkodással, amelyre a kellő tudást rá lehet építeni.

Megfázott a szoftver

Viszont érdemes figyelembe venni: bár a BD-s szoftvereket algoritmusok hajtják, akárcsak az ember, ezek is tévedhetnek! Ezt jól mutatja annak a Google Flu Trends nevű kezdeményezésnek példája, amely a milliók által naponta bepötyögött Google-keresések alapján előre jelzi az influenzajárvány kialakulását, terjedését. Egy amerikai kutatás bebizonyította, hogy a megoldás rendre túlbecsüli a megbetegedéseket.

A Harvard Egyetem professzora, Gary King és csapata az elemzés során arra a következtetésre jutott, hogy problémás lehet, ha csak számítástudományi beállítottságú emberek dolgoznak a hasonló fejlesztéseken, mivel a felhasznált metódusok így könnyen pontatlanokká válhatnak.

Az egyszeri felhasználó számára persze a legégetőbb kérdés, hogy ha tökéletesedik a technológia, lesz-e oka félni tőle. Sajnos nincs megnyugtató válasz.

Elég csak szemügyre venni a Facebook kedélyállapot-befolyásoló kísérletét. A közösségi site-nál emberi beavatkozás nélkül osztályozták a tartalmak hangulatát az egyes emberek visszajelzései, hozzászólásai alapján, majd néhány kísérleti alanynál a hírfolyam sorrendjének paraméterezését befolyásolták olyan módon, hogy valakik inkább a jó kicsengésű, mások pedig inkább lehangoló hírekhez jutottak hozzá. A tesztalanyok like, megosztás és hozzászólás tevékenységeiből láthatóvá is vált a hangulatváltozásuk. „Nem kell hozzá sok, hogy valaki továbbgondolja a technikát webáruházakra vagy mondjuk választási rendszerekre” – jegyzi meg Balog Zsolt.

Döbbenetes big data tények

  • A világ rögzített adatmennyiségének 90 százalékát az elmúlt két évben hozták létre.
  • A Facebookon percenként 1,8 millióan kattintanak a Like gombra, ez idő alatt a Twitteren 278 ezer bejegyzés születik, és 204 millió e-mailt küldenek el a világon.
  • Tavaly mintegy 3,2 zettabyte-nyi adat létezett a világon, ez a mennyiség 2020-ra – a várakozások szerint – 40-re nő.
  • Az összes, digitálisan eltárolt információ nagysága 1,2 évenként megduplázódik.
  • Percenként 570 új weboldal születik, naponta ez közel 821 ezer új honlapaloldal.
  • A BD-projektek már 2015-ben 1,9 millió új állást teremtenek csak az Egyesült Államokban.

Forrás: Figyelő, 2015. május 28. (34,35. oldal)