Otvoreni podaci u nauci – pitanja, zablude i problemi

Prve reakcije istraživača na Platformu za otvorenu nauku MPNTR (usvojena u julu 2018) bile su zanimljive i neočekivane. Iako se ovim programskim dokumentom uvodi obavezan otvoreni pristup za publikacije koje su rezultat javno finansiranih istraživanja, dok se otvoreni pristup podacima prikupljenim tokom istraživanja tek preporučuje, pitanja su se uglavnom odnosila na podatke. Kako može da se traži da omogućim uvid u svoje neobjavljene podatke, kada postoji opasnost da ih neko drugi iskoristi, objavi itd.? Na osnovu čega ću pisati rad i ko će mi takav rad prihvatiti za objavljivanje? Kako smemo da objavimo podatke, kada tu ima i ličnih informacija o ispitanicima? U mojoj oblasti istraživanja ne postoje podaci.

Pored površnog čitanja dokumenta (koji sažeto ali precizno definiše šta se sa podacima sme i može raditi), ova pitanja otkrivaju neobaveštenost značajnog dela domaće naučne zajednice i suštinsko nerazumevanje pojma i tretmana podataka u nauci. Pre svega, većina istraživača u Srbiji još uvek nema obavezu da podatke prikupljene tokom istraživanja učini javno dostupnim. Ovu obavezu imaju samo istraživači angažovani na međunarodnim projektima u kojima finansijer istraživanja to zahteva, ali čak ni od njih niko ne očekuje da prikupljaju i proizvode podatke tek da bi ih ustupili nekom drugom, niti su dužni da te podatke učine javno dostupnim pre nego što objave rezultate do kojih su na osnovu njih došli. Podaci koji sadrže osetljive lične informacije podrvgavaju se, pre objavljivanja, postupcima koji imaju za cilj skrivanje ili eliminisanje osetljivih informacija. U disciplinama koje operišu takvim podacima, postupci anonimizacije detaljno su razrađeni, a postoje i softverski alati koji se koriste u te svrhe.

Primedba da podaci u određenim disciplinama „ne postoje“ obično je dolazila od istraživača u oblasti humanističkih nauka. Ona se temelji na pogrešnom shvatanju da podaci u nauci moraju biti kvantitativni, tabelarni, statistički, te da u disciplinama koje ne operišu takvim podacima nema materijala na koje bi se mogla odnositi Platforma za otvorenu nauku. U humanističkim naukama, primarni podaci se obično nazivaju građom i obuhvataju heterogene materijale: terenske beleške,[1] arhivsku građu, korespondenciju,[2] umetnička dela, fotografije, notne zapise, različite artefakte, audio i video snimke[3] i druge materijale kojima se već bavi digitalna humanistika, a koji sada, u kontekstu otvorene nauke, treba da postanu otvoreni. I sami istraživači koji takvu građu prikupljaju i stavljaju na uvid javnosti često nemaju svest o tome da ona čini relevantne primarne podatke u njihovoj disciplini i da se prilikom njenog prikupljanja, obrade i prezentacije treba oslanjati na međunarodne strandarde i dobre prakse. Dragoceni materijali koje su prikupili domaći istraživači rasuti su na različitim platformama koje ne omogućavaju njihovu optimalnu obradu i prezentaciju,[4] nisu opremljeni adekvatnim metapodacima, teško se pronalaze, a kada ih pronađu, korisnici ne znaju da li i kako smeju da ih koriste zato što uslovi korišćenja nisu definisani. Prilikom prikupljanja građe često se ne vodi računa o zaštiti ličnih informacija, a građa se prikuplja bez odgovarajuće saglasnosti ispitanika. Zbog specifičnosti građe i nedostatka tehničkih znanja kod istraživača u pomenutim oblastima,[5] ovi problemi su u humanističkim naukama prisutni i na globalnom nivou, a integracija takve građe u međunarodne infrastrukture predstavlja poseban izazov.[6][7]

Više je razloga zbog kojih podaci u nauci treba da budu otvoreni. U vremenu obeleženom krizom reproducibilnosti,[8] verovatno će nam prvo pasti na pamet mogućnost naknadne provere rezultata objavljenih u naučnim publikacijama. Podaci mogu biti od koristi i u novim istraživanjima, kao izvor informacija ili kao materijal na kom se testiraju algoritmi i modeli, ali mogu imati i važnu ulogu u edukaciji i informisanju šire javnosti uz pomoć vizuelnih prikaza i simulacija. Ne samo da pedantno arhiviranje podataka dugoročno donosi uštede, nego treba imati na umu i da bi buduće generacije, analizom iz drugog ugla ili metodama kojima mi danas ne raspolažemo, mogle iz njih da izvuku neke nove  informacije.

Tokom poslednjih nekoliko godina urađeno je mnogo na planu definisanja principa i standarda kojima se treba rukovoditi prilikom prikupljanja, obrade, arhiviranja, prezentacije i dugoročnog čuvanja podataka u nauci, a najznačajnije je formulisanje tzv. FAIR[9] principa i njihovo prihvatanje od strane Evropske komisije. Ukratko i laičkim jezikom rečeno, da bi bili u skladu sa FAIR principima podaci moraju da budu obrađeni, pohranjeni i opisani tako da ih i ljudi i mašine mogu pronaći, a ako su otvoreni, onda i čitati, preuzimati u druge sisteme i koristiti u različite svrhe. To se postiže pohranjivanjem u repozitorijume koji ispunjavaju određene tehničke zahteve, u odgovarajućem formatu, dodeljivanjem trajnog identifikatora (doi, handle), detaljnim opisivanjem standardizovanim metapodacima i definsanjem uslova korišćenja uz pomoć mašinski čitljive licence. Poštovanje ovih principa igraće ključnu ulogu u uspostavljanju Evropskog oblaka otvorene nauke (European Open Science Cloud – EOSC),[10] a na njih se poziva i Platforma za otvorenu nauku MPNTR.

U praksi to još uvek ne funkcioniše onako kako bi trebalo.[11] Podaci prikupljeni tokom istraživanja još uvek se masovno poklanjaju izdavačima časopisa u formi priloga, obično naslovljenih kao „supplementary information“. Takvi prilozi sadrže tabele, slike i grafikone i mogu se samo čitati ili štampati – automatsko preuzimanje podataka u druge sisteme i njihova dalja obrada nisu mogući. Ovaj problem je veoma prisutan u Srbiji. Nadalje, podaci deponovani u repozitorijume neretko su pohranjeni u zatvorenim formatima i/ili formatima koji zastarevaju, zbog čega je njihova čitljivost ograničena. Veliki izazov predstavlja dugoročno čuvanje digitalnih sadržaja[12] i obezbeđivanja trajne mašinske čitljivosti. Rešenje za problem centralizovanog pretraživanja podataka pohranjenih na različitim platformama počelo je da se pomalja tek nedavno: do jeseni 2018. godine, kada se pojavio Google Dataset Search, nije postojao opšti pretraživač koji bi istovremeno pretraživao sadržaj različitih repozitorijuma podataka. Ipak, uprkos problemima, može se očekivati značajan pomak u ovoj oblasti na globalnom nivou.


[1] Emmelhainz, Celia. 2015. ‘Ethnographic Field Data 3: Preserving and Sharing Ethnographic Data | Savage Minds’. Savage Minds: Notes and Queries in Anthropology (blog). 28 August 2015. https://savageminds.org/2015/08/28/ethnographic-field-data-3-preserving-and-sharing-ethnographic-data/.

[2] ‘Network Visualisations of 38.000 Letters of 19th Century Intellectuals’. 2016. Nodegoat. 5 October 2016. Accessed 15 March 2019. https://nodegoat.net/blog.s/18/network-visualisations-of-38000-letters-of-19th-century-intellectuals.

[3] Otrel-Cass, Kathrin, and Thomas Wesley Antonsen. 2018. ‘State-of-the-Art Literature Review on Video Data Management and Video Data Life Cycles’. Aalborg: Department of Learning and Philosophy, Aalborg University. Accessed 15 March 2019. http://vbn.aau.dk/en/publications/stateoftheart-literature-review-on-video-data-management-and-video-data-life-cycles(72ef89e1-4dc6-4170-8d42-b8a8c02e8f94).html.

[4] Na primer: http://balksrv2012.sanu.ac.rs/webdict/timok/index. Viši nivo standardizacije zapaža se u oblasti kodiranja različitih vrsta građe u XML-u (TEI, MEI). Jedan zanimljiv projekat u toj oblasti trenutno se realizuje u Srbiji: http://www.digitalepigraphyserbia.rs/epidoc.html.

[5] Terras, Melissa, James Baker, David Beavan, Anne Welsh, Will O’Neill, Oliver Duke-Williams, and Adam Farquhar. 2016. ‘Enabling Complex Analysis of Large-Scale Digital Collections: Humanities Research, High Performance Computing, and Transforming Access to British Library Digital Collections’. Digital Humanities 2016. Accessed 15 March 2019. http://dh2016.adho.org/static/data-copy/41.html.

[6] ‘Co-Designing the European Open Science Cloud The Role of Social Sciences and Humanities’. 2018. European Alliance for Social Sciences and Humanities – EASSH. Accessed 12 March 2019. http://www.eassh.eu/PDF/EASSH_Open_Science_May2018_Fnl.pdf.

[8] Baker, Monya. 2016. ‘1,500 Scientists Lift the Lid on Reproducibility’. Nature News 533 (7604): 452. Accessed 12 March 2019. https://doi.org/10.1038/533452a.

[7] Edmond, Jennifer, Georgina Nugent Folan, and Michelle T. Doran. 2019. ‘Reconciling the Cultural Complexity of Research Data: Can We Make Data Interdisciplinary without Hiding Disciplinary Knowledge [Preprint]’. http://hdl.handle.net/2262/83156.

[9] FAIR, akronim od findable, accessible, interoperable, reusable, v. http://open.ac.rs/podaci#fair; Wilkinson, Mark D., Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, et al. 2016. ‘The FAIR Guiding Principles for Scientific Data Management and Stewardship’. Scientific Data 3 (March): 160018. https://doi.org/10.1038/sdata.2016.18.

[10] Realising the European Open Science Cloud : First Report and Recommendations of the Commission High Level Expert Group on the European Open Science Cloud. 2016. Directorate-General for Research and Innovation (European Commission). Accessed 15 March 2019. https://publications.europa.eu/en/publication-detail/-/publication/2ec2eced-9ac5-11e6-868c-01aa75ed71a1/language-en/format-PDF.

[11] Allen, Robert, & Hartland, David. (2018, May 21). FAIR in practice – Jisc report on the Findable Accessible Interoperable and Reuseable Data Principles (Version 1). Zenodo. http://doi.org/10.5281/zenodo.1245568

[12] Palaiologk, Anna S., Anastasios A. Economides, Heiko D. Tjalsma, and Laurents B. Sesink. 2012. ‘An Activity-Based Costing Model for Long-Term Preservation and Dissemination of Digital Research Data: The Case of DANS’. International Journal on Digital Libraries 12 (4): 195–214. https://doi.org/10.1007/s00799-012-0092-1.