#23 Pandemic study by the method of text mining

In the twen­ty-second epi­so­de of the „Efekt Sie­ci” pod­cast, mem­bers od DELab UW NGI For­ward team pro­ject talk abo­ut inve­sti­ga­ting the tech­no­lo­gi­cal chal­len­ges of a coro­na­vi­rus pan­de­mic and the metho­do­lo­gy of the study. 

The experts inte­rvie­wed by Dr. Justy­na Pokoj­ska are Kri­stóf Gyó­di and Michal Paliń­ski, 2/3 of the team that deve­lo­ped the pan­de­mic stu­dy using text mining (an inte­rac­ti­ve pre­sen­ta­tion con­ta­ining the results of the stu­dy is ava­ila­ble on the pro­ject websi­te). Ana­ly­sts answer questions abo­ut:
- the meaning of the term info­de­mia and ways of stu­dy­ing the phe­no­me­non,
- the secrets of the text mining metho­do­lo­gy and the fasci­na­ting and non-obvio­us ele­ments of this method,
- fac­tors that sho­uld be taken into acco­unt in the pro­cess of textu­al rese­arch,
- the results of the pan­de­mic survey and what can be said from them and our social sta­te of know­led­ge in the era of COVID-19,
- trends that have fluc­tu­ated over the period cove­red by the survey,
- ethi­cal aspects of data scien­ce lear­ning on death data­sets,
- a flo­od of scien­ti­fic papers of dubio­us quality.

Share

Share on facebook
Share on twitter
Share on linkedin
Share on pinterest
Share on whatsapp
Share on email
„Korzy­sta­li­śmy głów­nie z meto­dy web scrap­ping, któ­ra opie­ra się na auto­ma­tycz­nym pobie­ra­niu tre­ści ze stron inter­ne­to­wych. Może­my na przy­kład stwo­rzyć taki skrypt, któ­ry pobie­ra tek­sty rów­nież z meta­da­ny­mi, doty­czą­ce wszyst­kich arty­ku­łów z dane­go okre­su. To roz­wią­za­nie ma taką zale­tę, że cał­ko­wi­cie może­my kon­tro­lo­wać jakie arty­ku­ły nas inte­re­su­ją, z jakie­go okre­su. Z dru­giej stro­ny są też znacz­nie łatwiej­sze czy wygod­niej­sze roz­wią­za­nia, szcze­gól­nie, jeśli baza danych udo­stęp­nia swo­je dane, nie tyl­ko poprzez prze­glą­dar­ki, ale też API. W tej spo­sób może­my wygod­nie pobrać dane z wor­king papers czy repo­zy­to­riów badań nauko­wych. Nasze narzę­dzia są bar­dzo uży­tecz­ne w mapo­wa­niu zagad­nień i pro­ble­mów spo­łecz­nych, tech­no­lo­gicz­nych, by decy­den­ci mie­li pro­stą mapę, zawie­ra­ją­cą te pro­ble­my. Z dru­giej stro­ny jeste­śmy w sta­nie poka­zy­wać więk­sze tren­dy, któ­re nie zawsze są widocz­ne. Na naszej stro­nie dobrym przy­kła­dem są nasze pod­su­mo­wa­nia do dys­ku­sji na plat­for­mie Red­dit, w któ­rych poka­zu­je­my ska­lę wzro­stu w komen­ta­rzach, któ­re zawie­ra­ją sło­wo klu­czo­we bez­ro­bo­cie lub doty­czą ryn­ku pracy”.

― Kri­stóf Gyó­di, Ana­lyst DELab UW, Facul­ty of Eco­no­mic Scien­ces UW

„W wal­ce z info­de­mią waż­ną rolę odgry­wa­ją insty­tu­cje zaufa­nia publicz­ne­go, jak World Health Orga­ni­za­tion. Naszym zada­niem w DELa­bie, w pro­jek­cie pro­wa­dzo­nym dla Komi­sji Euro­pej­skiej jest zma­po­wa­nie gdzie jest zain­te­re­so­wa­nie spo­łecz­ne w związ­ku z pan­de­mią, tak, żeby w ogó­le moż­na było adre­so­wać fake new­sy czy fał­szy­we infor­ma­cje. Jesz­cze dwa mie­sią­ce temu w deba­cie publicz­nej waż­ki­mi tema­ta­mi było to, czy moż­na ode­brać pacz­kę nada­ną z Chin, czy jak dłu­go utrzy­mu­ją się wiru­sy na powierzch­niach. My w DELa­bie musi­my poka­zać gdzie rośnie zain­te­re­so­wa­nie spo­łecz­ne, gdzie ludzie kana­li­zu­ją swo­je zain­te­re­so­wa­nie koro­na­wi­ru­sem i tech­no­lo­ga­mi, któ­re będą poma­gać w związ­ku z pan­de­mią. Zja­wi­sko, z któ­rym mamy do czy­nie­nia jest z kon­kret­nej dzie­dzi­ny i hob­by­stycz­ne publi­ko­wa­nie ad hoc, bez peer review, czę­sto­kroć pro­wa­dzi do jesz­cze więk­sze­go chaosu”.

― Michał Paliń­ski, Ana­lyst DELab UW, Facul­ty of Eco­no­mic Scien­ces UW

Listen to the podcast on your favorite platform

More podcasts

With Prof. Katarzyna Śledziewska and Prof. Renatą Włoch about the competences of the future based on Eurostat data.
With Prof. Michał Krawczyk (WNE UW) about a project exploring EU sentiment.
Scroll to Top