Kromě otevřeného přístupu k publikacím se stále více prosazuje také otevřené sdílení primárních dat vzniklých během výzkumu. V experimentální biologii mohou být příkladem takových dat sekvence genů a genomů, podrobnosti o 3D struktuře proteinů, data o genové expresi z transkriptomických experimentů, výsledky chemických analýz biologických vzorků, mikroskopické snímky a další.

 

Otevřené sdílení dat z výzkumu usnadňuje vědecký i ekonomický pokrok. Umožňuje ostatním vědcům, aby tato data využili ve svých projektech a podporuje spolupráci mezi týmy.

Je však výhodné i pro samotné autory dat. Své výsledky mají bezpečně a strukturovaně uloženy na veřejně přístupném webu (tedy vlastně „v cloudu“) pro pozdější použití. Navíc zvyšují důvěryhodnost své práce. Každý může jejich data analyzovat a přesvědčit se, že byla získána korektně, a výsledná publikace tedy není založena na podvodu či pochybné metodice.

 

Užitečný přehled o problematice otevřených dat najdete například v PDF dokumentu z webináře Národní technické knihovny Otevřená věda a citizen science (strany 103–166).

 

Kde a jak data publikovat?

Otevřená data by měla by měla být v souladu s principy FAIR, podrobněji rozepsanými níže. Musí být zveřejněna v některém z takzvaných repozitářů, což jsou specializovaná digitální úložiště, která splňují určité požadavky na přístupnost, důvěryhodnost a podobně.

Vhodný repozitář vám pomohou najít jejich registry a vyhledávače, jako jsou re3data.org či DOAR. Můžete použít repozitáře buď oborové (pro biologii třeba arXiv, ELIXIR Deposition Databases, Europe PMC), nebo univerzální (například Dryad, Zenodo). Pro autory z Akademie věd ČR je k dispozici také datový repozitář ASEP.

 

Zveřejněná data by měla být snadno vyhledatelná ručně i strojově. Je proto zapotřebí vybavit je takzvanými metadaty, která zájemcům poskytují bližší informace o příslušných datech. Metadata obvykle zahrnují jména autorů, klíčová slova, informace o financování projektu, bibliografické údaje o souvisejících vědeckých publikacích, metodiku použitou k získání dat, u biologických výzkumů třeba i druh pokusného organismu atd.

Pro strukturu metadat existují různé obecné i oborově specifické standardy. Pro základní orientaci můžete využít dokument Národní technické knihovny Obecné doporučení pro metadatový popis výsledků výzkumu (zejména publikací a dat). Přehled metadatových standardů používaných v biologii najdete v databázi Digital Curation Centre.

 

Vyhledatelnosti napomáhají takzvané perzistentní (trvalé) identifikátory – kódy jednoznačně identifikující dokument, datovou sadu, osobu a podobně. Pro vědecké články a datové sady se typicky používá DOI (Digital Object Identifier), pro autory ORCID (Open Researcher and Contributor ID), pro výzkumné organizace existuje například ROR.

Výhodou perzistentních identifikátorů je, že zůstávají stále stejné – i když se změní například internetová adresa online verze článku, jméno osoby po sňatku a podobně.

 

Jak nastavit přístup k datům?

Otevřená data musí mít jasně určenou licenci – ta totiž uživateli sděluje, jak je oprávněn s nimi nakládat. Zřejmě nejčastěji se používají veřejné licence Creative Commons. Ideálně by data měla být zveřejněna s licencí Creative Commons CC BY 4.0, která umožňuje jejich další šíření, pozměňování a jiné využívání, přičemž jedinou podmínkou je uvést autora.

V oprávněných případech je však vhodné ponechat data částečně či zcela uzavřená. Například to znamená nepovolit k nim přístup všem zájemcům bez omezení, ale vyžadovat, aby se předem identifikovali nebo požádali autory o svolení. Důvody pro takovýto postup mohou být obchodní tajemství, ochrana duševního vlastnictví, komerční využití dat autory, bezpečnost státu a podobně. Poskytovatelé grantů však obvykle požadují, aby předkladatelé projektů vysvětlili důvody pro případné uzavření dat v Plánu pro správu dat.

 

Plán pro správu dat

Už při plánování projektu byste si měli promyslet, jak budete získávat, zpracovávat, uchovávat a zveřejňovat výzkumná data. Kvalitní metodika těchto činností zefektivňuje práci, přispívá k ochraně informací a zvyšuje vědeckou hodnotu dat.

Někteří poskytovatelé grantů již požadují písemný Plán pro správu dat (Data Management Plan, DMP). Je součástí žádosti o podporu a měl by být průběžně aktualizován během realizace projektu, pokud nastanou výrazné změny týkající se produkovaných dat. Každopádně je užitečné zpracovat si obdobný plán i u projektů, kde to není povinné.

Přípravu Plánu pro správu dat vám usnadní různé internetové zdroje. DMP Online – Public DMPs nabízí veřejně přístupné plány, jimiž se můžete inspirovat. Program Horizon Europe má vlastní vzor plánu. Na webu ARGOS lze procházet sdílené plány z grantových návrhů, nebo s pomocí online nástroje vytvořit svůj vlastní (po registraci). Vědci z Akademie věd ČR mohou pro tvorbu plánu využít online službu AV ČR FAIR Wizard.

 

Principy FAIR

Dobře spravovaná a organizovaná data, která umožňují snadné sdílení, další vědecké využití a spolupráci mezi badateli, by měla splňovat takzvané principy FAIR (Findable – Accessible – Interoperable – Reusable). Data a s nimi spojená metadata musí podle těchto zásad být:

 

Vyhledatelná (Findable)

Ostatní uživatelé by měli být schopní vaše data najít. Bohaté popisné údaje (metadata) by měly být dostupné online v prohledatelných zdrojích a k datům by měl být přiřazen perzistentní identifikátor.

– Data mají perzistentní identifikátor.

– Data mají dostatečný metadatový popis.

– Metadata jsou dostupná online v prohledatelném zdroji, např. katalog nebo datový repozitář.

– Perzistentní identifikátor je uvedený v metadatovém záznamu.

 

Dostupná (Accessible)

Lidé a stroje by měli mít možnost získat přístup k vašim datům za určitých podmínek či omezení, pokud je třeba. FAIR neznamená, že data musí být otevřená! Pokud data nejsou dostupná otevřeně, měl by být dostupný alespoň metadatový záznam (popis).

– K datům či metadatovému záznamu se dostanete pomocí perzistentního identifikátoru.

– Protokol, přes který lze data získat, se řídí uznávanými standardy, např. http.

– V případě potřeby je v rámci přístupu požadována autentizace a autorizace.

– Metadata jsou vždy dostupná, i když data zpřístupnit nelze.

 

Interoperabilní (Interoperable)

Data a metadata by měla odpovídat uznávaným standardům a formátům, aby bylo možné je vzájemně kombinovat a sdílet.

– Data jsou poskytovaná v běžně srozumitelných a ideálně otevřených formátech.

– Poskytovaná metadata se řídí relevantními standardy.

– Pokud je to možné, jsou pro popis použity řízené slovníky, klíčová slova, tezaury a ontologie.

– Jsou poskytnuté reference a odkazy k dalším souvisejícím datům.

 

Opětovně využitelná (Reusable)

Aby ostatní uživatelé mohli data správně interpretovat a použít, je zapotřebí detailní dokumentace. Data by měla odpovídat normám vědecké komunity daného oboru a měla by být jasně licencovaná, aby ostatní uživatelé věděli, jak s daty mohou nakládat.

– Data jsou přesná a dobře popsaná s mnoha relevantními atributy.

– Data jsou opatřena jasnou a dostupnou licencí k jejich užívání.

– Je zřejmé, jak, kdy a kým byla data vytvořena a zpracována.

– Data a metadata splňují relevantní standardy daného oboru.

 

Zdroj: Hanzlíková D. (2020): Jak FAIR jsou vaše výzkumná data? Zenodo. DOI: 10.5281/zenodo.3739188. Licence CC BY 4.0, autorka Dagmar Hanzlíková.