Czym jest „big data” i „nauka o danych”?

W 2011 roku ana­li­ty­cy fir­my McKin­sey osza­co­wa­li, że ilość danych pro­du­ko­wa­nych w cią­gu roku przez glo­bal­ny biz­nes i spo­łe­czeń­stwo odpo­wia­da infor­ma­cyj­nej obję­to­ści 60 tysię­cy Biblio­tek Kon­gre­su USA. Jed­no­cze­śnie bada­cze pod­kre­śla­ją, że pro­duk­cja danych rośnie w tem­pie wykład­ni­czym, a według ostat­niej oce­ny IBM ilość danych, jaka zosta­ła wytwo­rzo­na przez cały rok 2010, jest obec­nie gene­ro­wa­na w kil­ka dni.

Ogrom­na ska­la utrud­nia­ją­ca ich bada­nie jest defi­ni­cyj­ną cechą zja­wi­ska „wiel­kich danych” („big data”). Obec­nie mamy do czy­nie­nia z sytu­acją, w któ­rej coraz wię­cej róż­ne­go rodza­ju obiek­tów – ludzi, urzą­dzeń, insty­tu­cji, firm – funk­cjo­nu­je pozo­sta­wia­jąc elek­tro­nicz­ne śla­dy. Są one gro­ma­dzo­ne w prze­past­nych bazach danych i sta­no­wią spe­cy­ficz­ny pro­dukt ubocz­ny cywilizacji.

Pozo­sta­łe cechy „big data” to:

  • zło­żo­ny cha­rak­ter pro­du­ko­wa­nych i prze­cho­wy­wa­nych danych. Są one w więk­szo­śći sła­bo ustruk­tu­ry­zo­wa­ne, naj­czę­ściej nie są opa­trzo­ne meta­da­ny­mi uła­twia­ją­cy­mi ana­li­zy (np. taga­mi lub sło­wa­mi klu­czo­wy­mi), a poszcze­gól­ne zbio­ry nie są ze sobą powią­za­ne, co utrud­nia ich ogląd i badanie;
  • szyb­kość z jaką dane są gene­ro­wa­ne i zmieniane;
  • potrze­ba kry­tycz­ne­go podej­ścia do rze­tel­no­ści danych.

„Wiel­kie dane”, przy całej swej ska­li i zło­żo­no­ści, nie są bynaj­mniej nie­uży­tecz­ny­mi „odpad­ka­mi cywi­li­za­cji”. Prze­ciw­nie, w post­in­du­strial­nej eko­no­mii uwa­ża­ne są za odpo­wied­nik ropy naf­to­wej; są zaso­bem któ­re­go umie­jęt­ne wydo­by­cie i prze­two­rze­nie może oka­zać się nie­zwy­kle cen­ne dla biz­ne­su, insty­tu­cji publicz­nych i poszcze­gól­nych osób. Zło­żo­ność danych ma być odpo­wie­dzią na zło­żo­ne pro­ble­my współ­cze­sne­go świata.

Proces

Wydo­by­cie war­to­ści z suro­wych danych jest skom­pli­ko­wa­nym pro­ce­sem. Każ­dy z jego eta­pów wyma­ga spe­cy­ficz­nej wie­dzy i umie­jęt­no­ści. Nie zawsze dane są bez­po­śred­nio dostęp­ne dla ana­li­ty­ka, czę­sto trze­ba je pozy­skać z zewnętrz­nych źró­deł – głów­nie z Inter­ne­tu (na przy­kład z por­ta­li spo­łecz­no­ścio­wych) lub z publicz­nie dostęp­nych baz danych. Kolej­nym, bar­dzo istot­nym eta­pem, jest wstęp­ne prze­twa­rza­nie infor­ma­cji. Czę­sto dane nie są prze­cho­wy­wa­ne w posta­ci dogod­nej do pro­wa­dze­nia dal­szych ana­liz; bywa­ją zawar­te w róż­nych pli­kach i bazach danych, któ­re sto­su­ją wza­jem­nie nie­kom­pa­ty­bil­ne for­ma­ty Przed przy­stą­pie­niem do jakich­kol­wiek ana­liz nale­ży zatem sca­lić suro­we dane i prze­kształ­cić je do posta­ci, któ­ra będzie pozwa­la­ła prze­pro­wa­dzić kon­kret­ne ana­li­zy. Wła­śnie na tym eta­pie poja­wia­ją się zwy­kle pro­ble­my zwią­za­ne z ilo­ścią i dyna­mi­ką danych. Aby im spro­stać, w two­rze­niu archi­tek­tu­ry zasi­la­nia dany­mi sys­te­mów ana­li­tycz­nych czę­sto sto­su­je się zaawan­so­wa­ne tech­no­lo­gie opar­te na przy­kład na roz­pra­sza­niu i/lub para­le­li­za­cji pro­ce­sów prze­twa­rza­nia danych.

Dopie­ro po wstęp­nej obrób­ce danych – któ­ra jest inży­nie­ryj­nym wyzwa­niem sama w sobie – moż­na przy­stą­pić do pod­ję­cia wła­ści­wych ana­liz. Gene­ru­ją one wie­dzę i war­tość przez reduk­cję zło­żo­no­ści zebra­nych danych oraz dzię­ki odnaj­dy­wa­niu zna­czą­cych rela­cji w nich zawar­tych. Już sama moż­li­wość wyge­ne­ro­wa­nia „na żąda­nie” mniej lub bar­dziej zaawan­so­wa­nych sta­ty­styk opi­su­ją­cych duże ilo­ści infor­ma­cji (na przy­kład o fir­mie, jak ma to miej­sce w roz­wią­za­niach Busi­ness Intel­li­gen­ce), sta­no­wi nie­oce­nio­ną war­tość dla przed­się­biorstw, umoż­li­wia­jąc podej­mo­wa­nie ade­kwat­nych i szyb­kich biz­ne­so­wych decyzji.

Nauka o danych dys­po­nu­je tak­że o wie­le bar­dziej zaawan­so­wa­ny­mi narzę­dzia­mi. Pozwa­la­ją one odnaj­dy­wać róż­ne­go rodza­ju wzo­ry w ana­li­zo­wa­nych danych lub kla­sy­fi­ko­wać je według wcze­śniej zde­fi­nio­wa­nych kate­go­rii. Dzię­ki temu zło­żo­na rze­czy­wi­stość, odzwier­cie­dlo­na w zbio­rach danych, zosta­je zre­du­ko­wa­na do mniej­szej ilo­ści wymia­rów, któ­re są
zna­czą­ce dla ludz­kie­go apa­ra­tu poznaw­cze­go i na pod­sta­wie któ­rych moż­na już podej­mo­wać decy­zje. Co wię­cej, ziden­ty­fi­ko­wa­nie sta­bil­nych wzo­rów rela­cji mię­dzy róż­ny­mi wymia­ra­mi danych pozwa­la na for­mu­ło­wa­nie prze­wi­dy­wań na temat przy­szłych sta­nów rze­czy. Wciąż roz­wi­ja­ne są nowe meto­dy ana­liz spe­cy­ficz­nych domen i rodza­jów danych – od prze­twa­rza­nia języ­ka natu­ral­ne­go, przez ana­li­zy rela­cji spo­łecz­nych po wnio­sko­wa­nie na pod­sta­wie sie­ci rela­cji seman­tycz­nych mię­dzy obiektami.

Ostat­nim eta­pem pro­ce­su ana­liz „dużych danych” jest komu­ni­ka­cja i wyko­rzy­sta­nie ich wyni­ków, na przy­kład w posta­ci inte­rak­tyw­nej wizu­ali­za­cji na stro­nie inter­ne­to­wej, roz­bu­do­wa­ne­go rapor­tu, kon­cep­cji nowe­go pro­duk­tu czy kam­pa­nii mar­ke­tin­go­wej. Wie­dza powsta­ją­ca dzię­ki nauce o danych może być spo­żyt­ko­wa­na na wie­le spo­so­bów, w róż­nych dzie­dzi­nach życia.

Umiejętności

Pro­wa­dze­nie tak zło­żo­ne­go pro­ce­su ana­li­tycz­ne­go wyma­ga uni­kal­ne­go zesta­wu umie­jęt­no­ści i doświad­czeń. Naj­le­piej poka­zu­je to popu­lar­ny w krę­gach nauki o danych „dia­gram Ven­na dla Data Scien­ce”:

DS_venn

Współ­cze­sne pro­jek­ty ana­liz dużych ilo­ści danych wyko­rzy­stu­ją trzy róż­ne zesta­wy kom­pe­ten­cji. „Umie­jęt­no­ści haker­skie”, czy­li zna­jo­mość sys­te­mów ope­ra­cyj­nych, baz danych, języ­ków pro­gra­mo­wa­nia w stop­niu umoż­li­wia­ją­cym ela­stycz­ne i kre­atyw­ne roz­wią­zy­wa­nie pro­ble­mów, są wyma­ga­ne na każ­dym eta­pie pro­jek­tu – nie tyl­ko pod­czas wstęp­ne­go pozy­ski­wa­nia danych i ich trans­for­ma­cji, ale tak­że na eta­pie wła­ści­wej ana­li­zy, ta ostat­nia bowiem jest zwy­kle wyko­ny­wa­na pro­gra­mi­stycz­nie, z uży­ciem wyspe­cja­li­zo­wa­nych języ­ków bądź modu­łów sta­ty­stycz­nych. Doty­czy to tak­że two­rze­nia wizu­ali­za­cji uży­wa­nych do komu­ni­ko­wa­nia rezul­ta­tów analiz

Nauka o danych to wie­dza mate­ma­tycz­na i sta­ty­stycz­na. Ana­li­zo­wa­nie dużych, wie­lo­wy­mia­ro­wych zbio­rów danych wyma­ga doświad­cze­nia w posłu­gi­wa­niu się wyso­ce zaawan­so­wa­ny­mi meto­da­mi i tech­ni­ka­mi, któ­rych asor­ty­ment wciąż się roz­sze­rza, wraz z poja­wia­niem się nowych rodza­jów prze­twa­rza­nych infor­ma­cji i poten­cjal­nych spo­so­bów ich wykorzystania.

Trze­cim nie­zbęd­nym ele­men­tem pro­fi­lu bada­cza danych jest wie­dza dome­no­wa (doty­czą­ca kon­kret­nej dzie­dzi­ny biz­ne­su, nauki, pro­ble­mów spo­łecz­nych itp., któ­rej doty­czą ana­li­zo­wa­ne dane), bo tyl­ko dzię­ki niej moż­na wła­ści­wie ukie­run­ko­wać ana­li­zy i zin­ter­pre­to­wać ich wyniki.

Rosną­ca nie­ustan­nie ilość danych będą­cych poten­cjal­nym źró­dłem war­to­ści w róż­nych dzie­dzi­nach życia z jed­nej stro­ny, oraz zło­żo­ność pro­fi­lu ana­li­ty­ka danych z dru­giej, decy­du­ją o dużym i wciąż rosną­cym ryn­ko­wym zapo­trze­bo­wa­niu na spe­cja­li­stów od ana­li­zy „big data”. Dopie­ro od nie­daw­na poja­wia­ją pro­gra­my edu­ka­cyj­ne nasta­wio­ne na ich kom­plek­so­we kształ­ce­nie, ale wciąż jesz­cze ana­li­ty­cy danych to oso­by spe­cja­li­zu­ją­ce się w dzie­dzi­nach szcze­gó­ło­wych (sta­ty­sty­cy, infor­ma­ty­cy lub oso­by potrze­bu­ją­ce nowych narzę­dzi ana­liz pro­ble­mów dzie­dzi­nach, któ­ry­mi się zaj­mu­ją), któ­re czę­sto na wła­sną rękę uzu­peł­nia­ją wie­dzę i doświad­cze­nie w pozo­sta­łych obsza­rach skła­da­ją­cych się na „data scien­ce”. Aby spro­stać wyzwa­niu, jakie stwa­rza nowa rze­czy­wi­stość danych – wyko­rzy­stać jej szan­se i lepiej rozu­mieć ryzy­ka – nale­ży two­rzyć ini­cja­ty­wy wspo­ma­ga­ją­ce tego typu kom­plek­so­we kształ­ce­nie i pod­no­sze­nie umiejętności.

Scroll to Top