Didieji duomenys – visų kuriamas skaitmeninis pasaulis

90 proc. pasaulio duomenų buvo sukurti per pastaruosius dvejus metus. Kas minutę yra sukuriama daugiau nei 100 milijonų naujų elektroninių laiškų, į „YouTube“ svetainę įkeliama naujų įrašų, kurių bendra trukmė siekia 72 valandas, daugiau nei 2 milijonai paieškų atliekama naudojantis „Google“ paieškos sistema.

Šiandien beveik visi savo kišenėje turi mažą kompiuterį, nuolat naudojasi internetu, dalinasi informacija ir nuotraukomis su draugais, šeima ir kitais asmenimis, esančiais jų tinkluose. Šie kasdieniai mūsų veiksmai prisideda prie milžiniško kasdien sukuriamo duomenų kiekio ir tuo pačiu palieka elektroninius pėdsakus, kuriuose gausu ir asmeninės informacijos.

Dar visai neseniai tradicinės technologijos ir analizės metodai nesugebėdavo apdoroti tokio kiekio ir tipo duomenų. Tačiau naujausi technologiniai pokyčiai leido mums rinkti, saugoti ir apdoroti duomenis naujais būdais. Atrodo, kad nebėra jokių apribojimų nei duomenų apimčiai, nei juos saugojančioms ir apdorojančioms technologijoms. Didieji duomenys gali padėti verslui siūlyti individualizuotas paslaugas ir prekes, užtikrinti visuomenės saugumą, prognozuoti galimus nusikaltimus ir ligų protrūkius (pavyzdžiui, prognozuojant H1N1 gripo viruso protrūkius, prognozuojant ryžių kainą, apibūdinant nedarbo lygį ir kt.).

Sąvoka „didieji duomenys“ dažniausiai apibūdinamas milžiniškų kiekių ir naujų duomenų tipų apdorojimas, kuris nebuvo įmanomas naudojant tradicinius įrankius. Visuomenės susiskaitmeninimas suteikia prieigą tiek prie „tradicinių“, struktūrizuotų duomenų (duomenų bazės ar registrai), tiek ir prie nestruktūruotų duomenų (teksto, nuotraukų, vaizdo įrašų). Informacija, skirta skaityti žmonėms, dabar taip pat perskaitoma ir prietaisų. Didieji duomenys žavi ne tik savo dydžiu ir įvairove, bet ir tuo, kad galima apdoroti gerokai daugiau duomenų apie viską nei anksčiau.

Svarbus elementas analizuojant didžiuosius duomenis yra lokacija (buvimo vieta).  Lokacijos duomenų vertė išaugo dėl to, kad daugelis iš mūsų nuolat kišenėje turi GPS prietaisą. Piliečių judėjimo stebėsena miesto planavimui, kuponų ir reklamų dalinimui, artimiausios autobusų stotelės radimas, kelionės laiko apskaičiavimas – tai tik keletas paslaugų pavyzdžių, kurioms svarbi lokacinė informacija.  Dėl to, kad esame pasirengę savo buvimo vieta pasidalinti su įvairių paslaugų tiekėjais, tai tapo labai svarbiu duomenų analizės elementu.

Daugiau ir painiau

Dabar turime technologiją, galinčią rinkti ir analizuoti daug daugiau duomenų – kai kuriais atvejais net visus duomenis, susijusius su tiriamu reiškiniu. Milžiniškas duomenų kiekis (pavyzdžiui, „Google“ ar „Facebook“ duomenys) suteikia mums galimybę iki smulkmenų ištirti ir išnagrinėti duomenis – to anksčiau nebuvo įmanoma atlikti dėl per mažo duomenų kiekio. Tačiau didėjant informacijos kiekiui, didėja ir netikslumai. Todėl itin svarbu, kad atrinktieji duomenys būtų kiek įmanoma teisingesni. Taigi analizuojant didelį kiekį duomenų gaunamas vertingesnis  ir tikslesnis rezultatas, tačiau klaidų pasitaikyti gali. Nauji duomenų gavybos metodai gali suteikti informacijos, tačiau nepaaiškinti priežastinių ryšių. Būtent ryšys tarp duomenų (koreliacija) suteikia galimybę prognozuoti tam tikrus įvykius.

Privatumas didelių duomenų amžiuje

Kalbant apie didelius duomenis, neįmanoma nepaliesti ir iššūkių mūsų privatumui. Svarbus principas, įteisinant privatumą buvo tas, kad kiekvienas individas duodamas sutikimą dėl asmeninės informacijos rinkimo turėtų galimybę nuspręsti, kas renka ją, kada ir kaip leidžiama ja naudoti. Technologinė plėtra ir mūsų skaitmeniniai įpročiai pakeitė privatumo kontekstą.

Asmeninės informacijos kiekis viešumoje šiandien yra kur kas didesnis nei buvo prieš dešimtmetį ir turi būti apibrėžtas bei saugomas naujais būdais. Anksčiau vardas, adresas ir socialinio draudimo numeris buvo laikomi tipiniais asmens duomenis. Dabar taip pat galime būti identifikuoti pagal buvimo vietą, pirkimo įpročius, „Facebook“ tinkle išreikštus pomėgius. Siekiant identifikuoti asmenį, reikalingas tik nedidelis informacijos kiekis iš jo skaitmeninės taršos. Užfiksuojant ir sujungiant daugiau duomenų, identifikacija yra paprastas procesas: net jei esate „anonimas“ viename duomenų rinkinyje, galite būti iš naujo identifikuoti, susiejant juos su duomenis iš kito rinkinio.

Didieji duomenys visuomenės saugumui

Didieji duomenys gali padėti užtikrinti visuomenės saugumą ir vienas tokių pavyzdžių – per Bostono maratono sprogdinimus 2013-ųjų balandį policija išbandė naują duomenų rinkimo būdą savo tyrimui – crowdsourcing (minios parama – dažniausiai apibūdina terminą, kai kiekvienas, kuriam patinka idėja ar koncepcija, gali paaukoti pinigų, kad padėtų ją įgyvendinti). Bostono policija panaudojo minios paramą, siekdami surinkti informaciją apie nusikaltimą, ir paprašė visų, kurie turėjo nuotraukų ar vaizdo įrašų, siųsti juos policijai. Kažkas panašaus į karštąją liniją, kur liudininkai gali skambinti ir dalintis informacija – tačiau skirtingai nuo įprastų telefono linijų, kur daug informacijos pasimeta, policija gautas nuotraukas ar vaizdo įrašus saugojo tiesiogiai savo sistemoje ir tai padėjo labai greitai atkurti visą įvykių vaizdą ir seką. Taip pat papildomai buvo surinkti duomenis iš socialinės žiniasklaidos.

Remiantis šiais duomenimis kompiuteriai gali apskaičiuoti, kur ir kada gali atsitikti įvykiai.  Prognozės gali būti stebėtinai tikslios, todėl policija turi būti vietoje, dar prieš kam nors iš tikrųjų įvykstant. Prognozuojamasis modelis ne tik pasako, kad nusikaltimas yra tikėtinas šioje gatvėje, nes taip jau įvyko praeityje, bet ir dėl daugelio veiksnių nurodo, kad šis taškas gali tapti didelės rizikos vieta. Žinant, kada ir kur nusikaltimo rizika yra didžiausia, policijos darbo efektyvumą galima gerokai padidinti. Tokia analizė gali būti pavaizduojama karštaisiais taškais: žemėlapiu, kuris policijos patruliams rodo, kur yra didžiausias nusikaltimo pavojus tam tikru metu.

Didieji duomenys visuomenės gerovei ir sveikatai

Didieji duomenys gali padėti realiu laiku suprasti įvairių įvykių poveikį gyventojams. Inovatyvi iniciatyva „Globalus pulsas“ (www.unglobalpulse.org) vykdo projektą, kurio tikslas – suprasti, kaip žmonių judėjimas veikia ligų protrūkį ir plitimą Azijos šalyse. Stebint žmonių judėjimą pagal jų mobiliųjų telefonų aktyvumą, galima įžvelgti kai kurias tendencijas – ligos plitimą, galimus protrūkius, todėl siekiama nustatyti teritorijas, kuriose vyriausybė turėtų imtis priemonių, siekiant užkirsti kelią ligos plitimui.

Panašaus projekto, vykdyto Kenijoje prieš keletą metų, rezultatai buvo pristatyti „Science“ žurnale 2012 m. Tirdami mobilumo ir sveikatos duomenis, mokslininkai atrado, kad teritorija aplink Viktorijos ežerą buvo vienu aktyviausių maliarijos perdavimo taškų. Remiantis šia informacija, mokslininkai rekomendavo vyriausybei imtis priemonių būtent šioje teritorijoje. Pašalinus maliariją čia, galima būtų tikėtis mažiau protrūkių kitose teritorijose.

Duomenų rinkinių sujungimas laikui bėgant gali sukurti prognozavimo galimybes. Karštų taškų žemėlapiai, kuriuose matomas ligų perdavimas, veikia taip pat kaip karštieji nusikaltimų žemėlapiai – sprendimų priėmėjai, remdamiesi ankstesne patirtimi, gali nuspręsti, kokios priemonės yra pačios efektyviausios. Anksčiau reikėjo laukti keletą mėnesių, kol informacija būdavo surenkama, apdorojama ir išanalizuojama. Dabar galima gauti informaciją, kuri atspindi beveik realų laiką.

Didieji duomenys politikos formavime

Didelių duomenų analizė suteikia  privačioms įmonėms daugiau informacijos apie klientus ir jų pageidavimus, ir taip padeda projektuoti pelningesnius produktus ar paslaugas. Bet ar gali ši technologija būti naudojama formuojant politiką?

2013 m. gegužę,  Neelie Kroes, Europos Komisijos viceprezidentė ir už skaitmeninę darbotvarkę atsakinga Europos Komisijos pirmininko pavaduotoja, sakė, kad „žinios yra mūsų ekonomikos variklis, o duomenys yra jos kuras“. Ji teigia, kad geresni duomenys gali užtikrinti efektyvesnes, skaidresnes ir individualiai pritaikytas viešąsias paslaugas. Be to, duomenys gali įgalinti piliečius, suteikiant informacijos ir žinių.

Parengta pagal Europos mokslo, technologijų ir visuomenės žurnalą „VolTa“.

Nuotraukos: Birgitte Blandhoel, iStockphoto.