Text-mining – klucz do zrozumienia chaosu informacyjnego związanego z COVID-19

Udostępnij

Share on facebook
Share on twitter
Share on linkedin
Share on pinterest
Share on whatsapp
Share on email

Ogól­no­świa­to­wa pan­de­mia COVID-19 wywo­ła­ła „info­de­mię”, zale­wa­jąc spo­łe­czeń­stwo ogrom­ną licz­bą sprzecz­nych infor­ma­cji i opi­nii. W celu ujarz­mie­nia tego cha­osu infor­ma­cyj­ne­go uży­li­śmy naszych narzę­dzi ana­li­tycz­nych, by zma­po­wać dane doty­czą­ce naj­now­szych wyda­rzeń oraz zro­zu­mieć, w jaki spo­sób tech­no­lo­gia jest wyko­rzy­sty­wa­na w cza­sie kry­zy­su pan­de­micz­ne­go, a tak­że – w jakich kon­tek­stach wywo­łu­je dys­ku­sję.

Kri­stóf Gyó­di, Ana­li­tyk DELab UW, WNE UW
Łukasz Nawa­ro, Ana­li­tyk DELab UW, WNE UW
Michał Paliń­ski, Ana­li­tyk DELab UW, WNE UW

Chcie­li­by­śmy, aby nasze spo­strze­że­nia były jak naj­bar­dziej uży­tecz­ne, dla­te­go chęt­nie dosto­so­wu­je­my i ana­li­zu­je­my dane na róż­ne spo­so­by. Pozwa­la to udzie­lać traf­nych odpo­wie­dzi na aktu­al­nie sta­wia­ne pyta­nia. Dla­te­go zapra­sza­my Was do udzia­łu w webi­na­rze, pod­czas któ­re­go szcze­gó­ło­wo omó­wi­my nasze meto­dy oraz wyni­ki ana­liz. Inter­ne­to­we semi­na­rium będzie rów­nież oka­zją do wymia­ny pomy­słów doty­czą­cych naj­pil­niej­szych wyzwań zwią­za­nych z nowy­mi tech­no­lo­gia­mi.

Webi­nar odbę­dzie się 3 czerw­ca 2020 roku o godzi­nie 17. Reje­stra­cja dostęp­na jest pod adre­sem https://zmurl.com/ngicovid.

Zachę­ca­my rów­nież do samo­dziel­ne­go zapo­zna­nia się z naszy­mi ana­li­za­mi dostęp­ny­mi na stro­nie: https://covid.delabapps.eu. Dane aktu­ali­zo­wa­ne są co regu­lar­nie, aby na bie­żą­co mapo­wać naj­waż­niej­sze wyzwa­nia zwią­za­ne z kry­zy­sem pan­de­micz­nym.

Naj­po­pu­lar­niej­sze sło­wa w ana­li­zo­wa­nych arty­ku­łach doty­czą­cych tech­no­lo­gii

W ramach pro­jek­tu NGI For­ward i dzia­łań dążą­cych do iden­ty­fi­ko­wa­nia nowych tech­no­lo­gii, oraz zwią­za­nych z nimi spo­łecz­ny­mi i regu­la­cyj­ny­mi wyzwa­nia­mi, opra­co­wa­li­śmy roz­ma­ite narzę­dzia do ana­li­zy danych. Pozwo­li­ły nam one prze­pro­wa­dzić ana­li­zę tren­dów w ewo­lu­cji tech­no­lo­gii inter­ne­to­wych. W naszych poprzed­nich bada­niach sku­pi­li­śmy się na takich obsza­rach, jak kry­zys tre­ści w mediach spo­łecz­no­ścio­wych, regu­lo­wa­nie dzia­łań gigan­tów tech­no­lo­gicz­nych oraz cyber­bez­pie­czeń­stwo. Tym razem uży­li­śmy naszych narzę­dzi do zma­po­wa­nia aktu­al­nych wyda­rzeń zwią­za­nych z wal­ką z COVID-19.

To z kolei pozwo­li­ło odkryć i wyja­śnić kie­run­ki, w jakich roz­wi­jał się w danym okre­sie kry­zys pan­de­micz­ny. Sku­pi­li­śmy się na czte­rech głów­nych źró­dłach infor­ma­cji::

- aktu­al­nych wia­do­mo­ściach z inter­ne­to­wych ser­wi­sów tech­no­lo­gicz­nych,

- danych dot. pro­jek­tów open sour­ce na plat­for­mie Github,

- dys­ku­sjach na plat­for­mie Red­dit,

- publi­ka­cjach nauko­wych.

Ambiwalencja na temat COVID-19 w informacjach technologicznych

Na począt­ku prze­ana­li­zo­wa­li­śmy tren­dy w 11 naj­bar­dziej cenio­nych inter­ne­to­wych por­ta­lach infor­ma­cyj­nych, takich jak The Guar­dian, Reu­ters czy Poli­ti­co. Na pod­sta­wie zmian czę­sto­tli­wo­ści poja­wia­nia się w mediach okre­ślo­nych pojęć, ziden­ty­fi­ko­wa­li­śmy popu­lar­ne sło­wa klu­czo­we, zwią­za­ne z COVID-19 i świa­tem tech­no­lo­gii. Umoż­li­wi­ło nam to skon­cen­tro­wa­nie się w poniż­szych ana­li­zach na klu­czo­wych kwe­stiach, takich jak śle­dze­nie kon­tak­tów (con­tact-tra­cing), bez­ro­bo­cie czy dez­in­for­ma­cja.

Następ­nie ana­li­zie pod­da­li­śmy zagad­nie­nia, któ­re czę­sto poja­wia­ły się wspól­nie lub wystę­po­wa­ły jed­no­cze­śnie (np. „con­tact-tra­cing” i „cen­tral server”). Dzię­ki temu mogli­śmy zoba­czyć jak dana tech­no­lo­gia zwią­za­na jest z róż­ny­mi aspek­ta­mi kry­zy­su. Zmie­rzy­li­śmy tak­że sen­ty­ment poszcze­gól­nych aka­pi­tów zawie­ra­ją­cych pary słów, aby zro­zu­mieć, czy kwe­stie pro­ble­mów tech­no­lo­gicz­nych zwią­za­nych z COVID-19 mają wydźwięk pozy­tyw­ny, nega­tyw­ny czy neu­tral­ny. Przy­kła­do­wo, sku­pia­jąc się na unij­nych pro­jek­tach, takich jak PEPP-PT, ziden­ty­fi­ko­wa­li­śmy klu­czo­wych akto­rów, ini­cja­ty­wy i wyzwa­nia zwią­za­ne z con­tact-tra­cing.

Poniż­sza tabe­la poka­zu­je sło­wa współ­wy­stę­pu­ją­ce z „con­tact-tra­cing”, usze­re­go­wa­ne pod wzglę­dem sen­ty­men­tu. DP-3T i Tra­ce­To­ge­ther są w więk­szym stop­niu zwią­za­ne z pozy­tyw­nym sen­ty­men­tem, pod­czas gdy dys­ku­sja o takich zagad­nie­niach jak pry­wat­ność i roz­sze­rze­nie zakre­su dzia­łań (mis­sion cre­ep) poka­zu­ją, że ist­nie­ją oba­wy doty­czą­ce imple­men­ta­cji tych sys­te­mów.

Tabe­la 1. Sen­ty­ment doty­czą­cy zagad­nień współ­wy­stę­pu­ją­cych z con­tact-tra­cing

Mapowanie technologicznego ekosystemu COVID-19

Oprócz wspo­mnia­nej ana­li­zy, zma­po­wa­li­śmy rów­nież arty­ku­ły na pod­sta­wie poru­sza­nych w nich tema­tów. W stwo­rzo­nych przez nas inte­rak­tyw­nych wizu­ali­za­cjach moż­li­we jest samo­dziel­ne eks­plo­ro­wa­nie głów­nych obsza­rów wia­do­mo­ści tech­no­lo­gicz­nych, wraz z klu­czo­wy­mi sło­wa­mi.

Poniż­sza mapa poka­zu­je sku­pi­ska arty­ku­łów doty­czą­cych kon­kret­nych tech­no­lo­gii i firm tech­no­lo­gicz­nych.

Przez cały czas trwa­nia kry­zy­su wie­lu pro­gra­mi­stów poświę­ci­ło swój czas na opra­co­wy­wa­nie narzę­dzi typu open sour­ce, pozwa­la­ją­cych na wspar­cie wal­ki z koro­na­wi­ru­sem. Korzy­sta­jąc z danych z Githu­ba, plat­for­my, poprzez któ­rą odby­wa się znacz­na część tych prac, zebra­li­śmy pro­jek­ty doty­czą­ce COVID-19. To pozwo­li­ło nam na zba­da­nie tren­dów doty­czą­cych loka­li­za­cji, celu pro­jek­tu i uży­tej tech­no­lo­gii. Prze­gląd 50 naj­bar­dziej wpły­wo­wych repo­zy­to­riów znaj­du­je się na stro­nie naszej ana­li­zy. Być może zain­spi­ru­ją Was one zaan­ga­żo­wa­nia się w dzia­ła­nia open sour­ce!

Mapa poni­żej poka­zu­je licz­bę pro­jek­tów na Githu­bie, zwią­za­nych z COVID-19 w tygo­dniu roz­po­czy­na­ją­cym się 20 kwiet­nia 2020 roku. Inte­rak­tyw­na mapa dostęp­na na stro­nie pro­jek­tu pozwa­la na zaob­ser­wo­wa­nie zmian w klu­czo­wych regio­nach.

Śledzenie zmian w mediach społecznościowych

Następ­nie ana­li­zie pod­da­li­śmy media spo­łecz­no­ścio­we i aktyw­ność użyt­kow­ni­ków por­ta­lu Red­dit. Pozwo­li­ło nam to odkryć istot­ne zmia­ny – śle­dząc posty i komen­ta­rze zauwa­ży­li­śmy gwał­tow­ny wzrost w dys­ku­sjach zwią­za­nych z ryn­kiem pra­cy, zdro­wiem psy­chicz­nym i pra­cą zdal­ną. Nasza ana­li­za przy­nio­sła rów­nież wgląd w zmie­nia­ją­ce się postrze­ga­nie dzia­łań zwią­za­nych z zamknię­ciem gospo­dar­ki i wią­żą­ce się z nim rosną­ce zmę­cze­nie.

Wykres 1. Gwał­tow­ny wzrost licz­by dys­ku­sji na por­ta­lu Red­dit w dru­giej poło­wie mar­ca 2020, zwią­za­nych z zagad­nie­niem bez­ro­bo­cia

Nauki spo­łecz­ne liczą skut­ki kry­zy­su

Prze­ana­li­zo­wa­li­śmy w koń­cu  tren­dy w arty­ku­łach zwią­za­nych z COVID-19, opu­bli­ko­wa­nych w popu­lar­nym repo­zy­to­rium SSRN. Ana­li­za arty­ku­łów z zakre­su nauk spo­łecz­nych daje nam szer­szy obraz niż same arty­ku­ły na por­ta­lach infor­ma­cyj­nych. Odkry­li­śmy rosną­cą licz­bę dys­ku­sji doty­czą­cych kon­se­kwen­cji pan­de­mii i zamknię­cia gospo­dar­ki. Naj­po­pu­lar­niej­sze sło­wa obej­mu­ją zagad­nie­nie zdro­wia (zapa­le­nie płuc, zakaź­ność, epi­de­mio­lo­gia) lub bar­dziej powszech­ne w naukach spo­łecz­nych: rece­sja gospo­dar­cza, poli­ty­ka spo­łecz­ne czy PKB.

Naj­czę­ściej poja­wia­ją­ce się poję­cia w arty­ku­łach z zakre­su nauk spo­łecz­nych, powią­za­nych z COVID-19

Zacie­ka­wi­ła Was ana­li­za? Zachę­ca­my do udzia­łu w webi­na­rze, pod­czas któ­re­go będzie­my mówić wię­cej o naszych meto­dach i wyni­kach.

Reje­stra­cja

Przewiń do góry