Címlap

Projekt háttere

A digitális adatok társadalomtudományi használata a Számítógépes Társadalomtudomány (továbbiakban CSS) egyik legfontosabb kutatási iránya. Az elmúlt húsz évben jelentősen megnőtt a különböző digitális adatforrások elérhetősége. Ezek az adatforrások nagyon sokszínűek. Többek között ide tartoznak a különböző szenzorok és digitális eszközök által gyűjtött adatok, a hatalmas digitális tranzakciós adatbázisok (pl. bankok, egészségügy, államigazgatás), a korábbi korok digitalizált tartalmai (pl. régi újságcikkek, születési rekordok) és az online térben megjelentetett online tartalmak. Utóbbiak jelentős részét teszik ki a közösségi médiában megjelenő felhasználó által generált posztok, képek, kommentek és különféle aktivitások. Ezek a közösségi média tartalmak különösen izgalmasak társadalomtudományi szempontból, mert közvetlen megfigyelését teszik lehetővé az emberek viselkedésének, ami egy új nézőpontot ad a leginkább attitűdöket vizsgáló survey kutatásokkal szemben. A közösségi média adatokhoz való hozzáférés azonban nem triviális feladat. A 2010-es évek elején a hozzáférést alapvetően úgynevezett API-kon ((Application Programming Interface) történt, ami lehetővé tette azt, hogy a kutatók gyorsan és viszonylag olcsón férjenek hozzá nagy mennyiségű közösségi média tartalomhoz. Az API-k alapvetően a számítógépek egymás közötti kommunikációját/adatcseréjét segítik azzal, hogy autentikált csatornákon kaput nyitnak egy adatbázis bizonyos részéhez. A nyilvános API-k egyszerű hozzáférést biztosítanak nagy mennyiségű adathoz, de az adatok minősége változó és az is változó, hogy melyik platform mennyi adatot ad az API-kon keresztül. Bár bizonyos platformok esetekben – mint például a Twitter – ez a hozzáférési mód továbbra is az egyik leghatékonyabb adatelérési út, de más közösségi oldalak, például a Facebook vagy az Instagram esetében ezt a hozzáférési módot leállították vagy drasztikusan megnehezítették a platformok tulajdonosai (Breuer et al. 2021).  Az API-k lezárása elsősorban a Cambridge Analytica botrány következménye, de a szigorodó adatvédelmi környezet mindentől függetlenül is abba az irányba terelte a platformokat, hogy szűkítsék az adathozzáférést. Ennek kapcsán Freelon (2018) azt írta, hogy a „Computational Social Science” belépett a „Post-API” korba, Bruns (2019) pedig ezt az egész helyzetet „APIcalypse”-nek nevezte. Mások, mint Tromble (2021) vagy Puschmann (2019) viszont kiemelik ennek a folyamatnak a pozitív hatását, miszerint végre véget ért ezzel a „közösségi média kutatásának vadnyugata”.

 

Az itt bemutatott nehezedő adathozzáférési környezetben új modelleket kell kidolgozni a digitális adatokhoz való hozzáférés érdekében. 

A NetGain Partnership (Shapiro et al. 2021) által publikált tanulmány két nagy ágát különbözteti meg a digitális adathozzáférésnek: Azok a megközelítések, amelyek együttműködnek a platformokkal és azok, amelyek nem.  

A platform együttműködés a következő modellekre:

  • API
  • Differenciált adatvédelem (Differential Privacy – DP)
  • Platformok direkt adatmegosztása publikálási megkötésekkel
  • Kontrollált környezetben zajló hozzáférés

A platformtól független adatgyűjtési módok a következők

  • Web-scrapelés
  • App-scrapelés
  • Adatdonáció

 

A 2018-ban induló kutatásunkban egy adatdonációs pilot kutatást kezdtünk el. Az adatdonációs modellben a kutatók megkérik a résztvevőket, hogy osszák meg velük a platformon tárolt adatokat. A nagy platformoknak a GDPR törvény megfelelés miatt lehetőséget kell adni a felhasználóiknak, hogy elérjék és letöltsék a róluk tárolt adatokat, adatcsomagok keretében (data download packages – DDP). A nagy nyugati platformok, mint a Google, a Facebook, az Instagram a WhatsApp vagy a Netflix felhasználóbarát módon adnak lehetőséget az adataink elérésére és letöltésére. Ezeket az adatokat amellett, hogy letöltheti a felhasználó akár további is oszthatja. Ez lehetőséget teremt a kutatóknak, hogy teljesen tiszta jogi környezetben férjenek hozzá közösségi média adatokhoz. 

 

Projekt célkitűzések

A kutatásunk abból az itt bemutatott problémából indult ki, hogy a korábbi API alapú adathozzáférés már nem működik a Facebook esetében, és ezért új adatgyűjtési módokat kell keresni. A projekt kezdetekor azt a célt tűztük ki, hogy egy 150 fős kísérleti jellegű Facebook kutatást végezzünk, ahol az adatdonációs megközelítés technikai kivitelehetőségét teszteljük, kialakítsuk egy olyan technikai és tartalmi keretet, ami alkalmas a nagyon diverz jellegű közösségi média adatok elemzésére, valamint megvizsgáljuk hogyan lehet összekötni a digitális térben keletkező adatokat survey adatokkal. A kutatásban két (kevésbé hangsúlyos) kutatási célt is kijelöltünk. Az egyik arra vonatkozott, hogy a közösségi média adatok jelentős részét kitevő szöveges adatokat milyen módszerekkel lehet hatékonyan feldolgozni és beépíteni a vizsgálati fókuszba. Az utolsó projekt célkitűzés pedig arra a kérdésre kereste a választ, hogy hogyan lehet ezekbe az elemzésekbe külső szereplőktől megvásárolt közösségi média adatokat is beilleszteni. 

 

A kutatás az NKFI-től nyert támogatást a Fiatal Kutató Témapályázaton. A kutatás azonosítója: 128981. A kutatás vezetője: Dr Kmetty Zoltán.