Podcast

Efekt Sieci #23 – Badanie pandemii metodą text mining

Poglądowa ilustracja reprezentująca nagrywanie podcastu

Udostępnij

Share on facebook
Share on twitter
Share on linkedin
Share on pinterest
Share on whatsapp
Share on email

W dwu­dzie­stym dru­gim odci­nek pod­ca­stu „Efekt Sie­ci” człon­ko­wie zespo­łu DELab UW w pro­jek­cie NGI For­ward opo­wia­da­ją o bada­niu wyzwań tech­no­lo­gicz­nych zwią­za­nych z pan­de­mią koro­na­wi­ru­sa oraz meto­do­lo­gii bada­nia.

Eks­per­ta­mi w roz­mo­wie z dr Justy­ną Pokoj­ską są Kri­stóf Gyó­di i Michał Paliń­ska, 2/3 zespo­łu, któ­ry opra­co­wał bada­nie pan­de­mii meto­dą text mining (inte­rak­tyw­na pre­zen­ta­cja zawie­ra­ją­ca wyni­ki bada­nia dostęp­na jest na stro­nie pro­jek­tu). Ana­li­ty­cy odpo­wia­da­ją na pyta­nia o:
- zna­cze­nie poję­cia info­de­mii i spo­so­by bada­nia zja­wi­ska,
- taj­ni­ki meto­do­lo­gii text mining oraz fascy­nu­ją­ce i nie­oczy­wi­ste ele­men­ty tej meto­dy,
- czyn­ni­ki, na któ­re powin­no się zwra­cać uwa­gę w pro­ce­sie badań nad tek­stem,
- wyni­ki bada­nia pan­de­mii oraz tym, co moż­na na ich pod­sta­wie powie­dzieć i naszym spo­łecz­nym sta­nie wie­dzy w dobie COVID-19,
- tren­dy, któ­re fluk­tu­owa­ły w cza­sie obję­tym bada­niem,
- etycz­ne aspek­ty ucze­nia na się data scien­ce na zbio­rach danych o zgo­nach,
- zalew prac nauko­wych wąt­pli­wej jako­ści.

„Korzy­sta­li­śmy głów­nie z meto­dy web scrap­ping, któ­ra opie­ra się na auto­ma­tycz­nym pobie­ra­niu tre­ści ze stron inter­ne­to­wych. Może­my na przy­kład stwo­rzyć taki skrypt, któ­ry pobie­ra tek­sty rów­nież z meta­da­ny­mi, doty­czą­ce wszyst­kich arty­ku­łów z dane­go okre­su. To roz­wią­za­nie ma taką zale­tę, że cał­ko­wi­cie może­my kon­tro­lo­wać jakie arty­ku­ły nas inte­re­su­ją, z jakie­go okre­su. Z dru­giej stro­ny są też znacz­nie łatwiej­sze czy wygod­niej­sze roz­wią­za­nia, szcze­gól­nie, jeśli baza danych udo­stęp­nia swo­je dane, nie tyl­ko poprzez prze­glą­dar­ki, ale też API. W tej spo­sób może­my wygod­nie pobrać dane z wor­king papers czy repo­zy­to­riów badań nauko­wych. Nasze narzę­dzia są bar­dzo uży­tecz­ne w mapo­wa­niu zagad­nień i pro­ble­mów spo­łecz­nych, tech­no­lo­gicz­nych, by decy­den­ci mie­li pro­stą mapę, zawie­ra­ją­cą te pro­ble­my. Z dru­giej stro­ny jeste­śmy w sta­nie poka­zy­wać więk­sze tren­dy, któ­re nie zawsze są widocz­ne. Na naszej stro­nie dobrym przy­kła­dem są nasze pod­su­mo­wa­nia do dys­ku­sji na plat­for­mie Red­dit, w któ­rych poka­zu­je­my ska­lę wzro­stu w komen­ta­rzach, któ­re zawie­ra­ją sło­wo klu­czo­we bez­ro­bo­cie lub doty­czą ryn­ku pra­cy”.

― Kri­stóf Gyó­di, Ana­li­tyk DELab UW, Wydział Nauk Eko­no­micz­nych UW

„W wal­ce z info­de­mią waż­ną rolę odgry­wa­ją insty­tu­cje zaufa­nia publicz­ne­go, jak World Health Orga­ni­za­tion. Naszym zada­niem w DELa­bie, w pro­jek­cie pro­wa­dzo­nym dla Komi­sji Euro­pej­skiej jest zma­po­wa­nie gdzie jest zain­te­re­so­wa­nie spo­łecz­ne w związ­ku z pan­de­mią, tak, żeby w ogó­le moż­na było adre­so­wać fake new­sy czy fał­szy­we infor­ma­cje. Jesz­cze dwa mie­sią­ce temu w deba­cie publicz­nej waż­ki­mi tema­ta­mi było to, czy moż­na ode­brać pacz­kę nada­ną z Chin, czy jak dłu­go utrzy­mu­ją się wiru­sy na powierzch­niach. My w DELa­bie musi­my poka­zać gdzie rośnie zain­te­re­so­wa­nie spo­łecz­ne, gdzie ludzie kana­li­zu­ją swo­je zain­te­re­so­wa­nie koro­na­wi­ru­sem i tech­no­lo­ga­mi, któ­re będą poma­gać w związ­ku z pan­de­mią. Zja­wi­sko, z któ­rym mamy do czy­nie­nia jest z kon­kret­nej dzie­dzi­ny i hob­by­stycz­ne publi­ko­wa­nie ad hoc, bez peer review, czę­sto­kroć pro­wa­dzi do jesz­cze więk­sze­go cha­osu”.

― Michał Paliń­ski, Ana­li­tyk DELab UW, Wydział Nauk Eko­no­micz­nych UW

Słuchaj podcastu na ulubionej platformie

Przewiń do góry