Udostępnianie danych musi stać się integralną częścią procesu badawczego – transkrypcja

W erze cyfrowej badania naukowe zasadniczo różnią się od badań w tradycyjnym sensie – twierdzi Mark Thorley, specjalista z zakresu danych badawczych w brytyjskiej Natural Environment Research Council (NERC), w rozmowie z Maciejem Chojnowskim. Część naukowców zaczyna rozumieć, że trzeba udostępniać dane badawcze, aby pozwolić innym powtórzyć swoje badania lub je zweryfikować albo po prostu dowieść, że dane te są jawne i prawdziwe. Rozpowszechnianie wyników badań naukowych, czy to artykułów w otwartym dostępie, czy danych w repozytoriach lub centrach danych, jest częścią procesu badawczego. To nie jakiś nadprogramowy dodatek finansowany niezależnie od samych badań, ale sprawa zasadnicza.



Maciej Chojnowski: Wydaje się, że idea otwartego dostępu do artykułów naukowych jest już dziś powszechnie uznawana, mimo różnych kontrowersji i dyskusji dotyczących najlepszego rozwiązania w tym obszarze. Z kolei względnie nowa idea otwartych danych jawi się z jednej strony jako uzupełnienie otwartego dostępu, z drugiej zaś jako coś odmiennego ze względu na sam obiekt, którym chcemy się dzielić. Jak można efektywnie udostępniać coś tak niejednorodnego i złożonego jak dane?

Mark Thorley: Polemizowałbym z twierdzeniem o nowości otwartego dostępu do danych, ponieważ w niektórych dyscyplinach praktykowano to od długiego czasu. Oczywiście, dużo się dziś mówi i robi na rzecz otwartych danych. Zaczęło się to w ostatnich kilku latach. Jednak w niektórych dyscyplinach od dawna z powodzeniem dzielono się danymi. Spójrzmy choćby na astronomię czy fizykę, gdzie nie da się prowadzić badań bez łączenia danych ani ich udostępniania. Sądzę jednak, że zmieniają się powody, dla których się to robi. Kiedyś ograniczały się one do samych badań. Teraz uważa się, że dane jako takie mają wartość, także poza obszarem, w którym pierwotnie zostały zebrane.

Ja sam już bardzo długo zajmuję się zrządzaniem danymi badawczymi – zacząłem to robić w roku 1990. Był to duży program oceanograficzny prowadzony na Antarktyce, zapoczątkowany w latach 70. i kontynuowany w 80., podczas którego odbyło się wiele międzynarodowych rejsów (w tym m.in. polskie). I już wówczas panowała powszechna zgoda co do dzielenia się danymi ze względu na dobro badań.

Tak więc ludzie od dawna dzielą się danymi. Obecnie działania te wynikają jednak z dyskusji nad integralnością badań. W jaki sposób można weryfikować i powtarzać badania? Na ten temat brytyjskie Royal Society przygotowało w 2012 roku bardzo dobry raport pod tytułem „Nauka jako otwarte przedsięwzięcie”. Dodatkowym czynnikiem był zachodzący w ostatnich latach, a częściowo spowodowany przez tzw. rewolucję Big Data, wzrost świadomości dotyczącej potencjału związanego z możliwością ponownego wykorzystywania danych. Chodzi o rozpoznanie, do czego można wykorzystać dane określonego rodzaju. Owszem, dane są innym obiektem od publikacji naukowych. Należy też przyjąć, że niektóre mają potencjalnie większą wartość niż inne.

Pracując w NERC, spędzam dużo czasu z zespołem ds. innowacji, który próbuje zweryfikować, na ile badania prowadzone w NERC są wykorzystywane w przemyśle, na ile korzystają z nich np. małe i średnie przedsiębiorstwa. Jednym z kluczowych obszarów, na których się skupiam, jest innowacyjne wykorzystanie wytworzonych przez nas danych poza obszarem nauki, na przykład w branży ubezpieczeniowej czy w innych usługach bazujących na użyciu danych.

Z moich obserwacji wynika, że firmy są bardzo zainteresowane danymi, ale tylko pewnego typu – nie wszystkimi. Tam gdzie istnieje możliwość ich komercyjnego zastosowania, tam też pojawia się zainteresowanie. W przypadku nauki o środowisku wykorzystywane są informacje dotyczące pogody, warunków panujących na danym obszarze czy geologii. Na zasadzie: „Czy jeśli kupię dom w danym miejscu, to czy nie zapadnie się on pod ziemię?” Niestety jednak – podczas różnych wystąpień często dostaje mi się za mówienie o tym – trzeba powiedzieć, że nie wszystkie dane będą dysponować takim samym potencjałem długotrwałej użyteczności w obszarze innowacji, niemniej powinny być one dostępne i zabezpieczane ze względu na powtarzanie badań.

Powracając zatem do pytania o efektywne udostępnianie takich obiektów jak dane – osobiście jestem wielkim zwolennikiem repozytoriów dziedzinowych. W NERC odpowiadam za sieć centrów danych środowiskowych. Prowadzimy pięć takich centrów, w których gromadzimy dane określonego rodzaju. Z każdej dziedziny mamy też ekspertów zajmujących się tymi danymi. Zrozumieliśmy jednak, że w obszarze samego środowiska możemy wybierać parametry z poszczególnych zbiorów danych i tworzyć na ich podstawie nowe zbiory o określonych parametrach określających temperaturę oceanu, zasolenie wody, stabilność gruntu czy stopień zanieczyszczeń na danym terenie. Z pomocą specjalistów umiejących wyodrębnić potrzebne zbiory danych, a następnie ich określone składowe, możemy tworzyć bardziej spójne zbiory, dla których później znajdujemy lepsze zastosowanie zarówno w obszarze innowacji, jak i w szerszym kontekście badawczym. Ale to znowu uwarunkowane jest przez konkretną dziedzinę nauki. Podawane przeze mnie przykłady koncentrują się wokół nauki o środowisku, w której świadomość wartości danych istniała od dawna. Jednak nawet w odniesieniu do danych eksperymentalnych trzeba powiedzieć, że ich udostępnianie jest bardzo trudne. Mogłoby to być bardziej wydajne, gdyby chciało się jedynie wykorzystywać stare dane dla porównania z nowymi, a nie je przekształcać.

Jeśli więc chodzi o udostępnianie tych złożonych obiektów, jakimi są dane, potrzebny jest szczegółowy opis i dokumentacja, a to jest trudne i czasochłonne. Trzeba się też upewnić, że sami użytkownicy tych danych są inteligentni. Mieć pewność, że orientują się w określonej dziedzinie i nie działają na ślepo. W przeciwnym razie trzeba im zapewnić specjalistyczną pomoc, aby mogli bardziej efektywnie wykorzystywać dane.

A jaki jest najbardziej wydajny sposób dystrybucji danych? Repozytoria czy czasopisma z danymi? Jakie rozwiązanie byś tu polecał?

Choć może to niezbyt zgrabna odpowiedź, powiedziałbym, że jedno i drugie, ponieważ to dwie różne rzeczy. Czasopisma z danymi służą opisywaniu tych danych, na których opracowanie i dokumentację poświęciło się czas, a także zdobyciu uznania za wykonaną pracę. Chodzi tu o opisanie zbioru danych, które zostają w jakimś sensie poddane recenzji, a następnie udostępnione szerszemu gronu. Jednak nie wszystkie zbiory danych będą się nadawały do takiego udokumentowania i nie wszystkie będą wzbudzały zainteresowanie – zwłaszcza w czasopismach. Czasopisma to jednak dobry sposób na poinformowanie o zbiorach danych, szczególnie takich, których opracowanie wymagało wiele wysiłku. 

Z kolei repozytoria – zarówno dziedzinowe, jak i instytucjonalne – są dobre do przechowywania danych, a także pomagają w ich wyszukiwaniu, jeśli tylko zostały one opatrzone odpowiednimi metadanymi. W przypadku repozytorium będziemy dysponowali określonym zbiorem metadanych pomagających w wyszukiwaniu lub opisujących pochodzenie danych. Jednak zapewne nie będą one tak szczegółowe, jak w przypadku zamieszczonego w czasopiśmie, dobrze przygotowanego artykułu poświęconego konkretnemu zbiorowi danych.

Zatem moim zdaniem czasopisma i repozytoria to dwa narzędzia z jednego zestawu służącego do dystrybucji danych. Skorzystanie z któregoś z nich będzie w bardzo dużym stopniu zależało od dostępnych zasobów danych oraz oceny ich wartości przez samych naukowców. Dość często repozytorium będzie służyło jako podstawa dla publikacji – artykuł dostarczy przydatnych informacji na temat zbioru danych zlokalizowanego w repozytorium. Jednak sam ten zbiór może być nierzadko o wiele większy niż jego część opisana w artykule. Można powiedzieć, że będzie on żył swoim własnym życiem.


Porozmawiajmy o zachęcaniu do otwartości. Naukowcy potrzebują, by ich motywować do otwierania swoich prac – do darmowego udostępniania artykułów i dzielenia się danymi. O jakim rodzaju przynęty powinniśmy myśleć, chcąc ich pobudzić do szerszego udostępniania danych?

Odpowiadając na to pytanie, mogę przyjąć kilka różnych ról. Jedna z nich związana jest z pracą w instytucji finansującej badania. Zatem jako grantodawcy mamy politykę, zgodnie z którą mówimy: „Chcąc skorzystać z naszych środków, musisz zrobić coś w zamian. Obecnie oczekujemy, że przekażesz kopię zebranych przez siebie danych do jednego z naszych centrów danych. Jeśli wspólnie dojdziemy do wniosku, że mają one długotrwałą wartość, to będziemy oczekiwali zgody na ich długoterminowe przechowywanie i wykorzystywanie w naszym centrum danych”. Niestety, niektórzy nasi badacze wciąż mają z tym problem. Mówią, że to dodatkowe utrudnienie. Jednak jako grantodawcy możemy powiedzieć: „Jeśli tego nie zrobisz, nie dostaniesz kolejnej dotacji”. Mówi się dziś o metodzie kija i marchewki. Ja twierdzę, że to duża marchewka, którą można przywalić.

A mówiąc poważniej: szukamy środków zachęty w obszarach związanych z cytowalnością danych. W badaniach naukowych walutą, by tak rzec, jest cytowalność artykułu i jego wykorzystywanie przez innych badaczy. I tak pomysł publikowania zbiorów danych lub informacji na temat takich zbiorów w czasopismach z danymi może prowadzić do wzrostu cytowań danego artykułu. Naukowiec badający dane zdobywa zatem uznanie za swój wysiłek włożony w ich opracowanie. Trzeba też wynagradzać naukowców, wykorzystując alternatywne metryki pozwalające mierzyć liczbę pobrań danych z określonego zbioru w repozytorium. Zadanie podobne do indeksu cytowań opracowywanego przez Thomson Reuters, które na razie znajduje się dopiero na początkowym etapie. Ale to właśnie przykład innych narzędzi, z których możemy skorzystać.

Musimy więc szukać sposobów zachęty, ale moim zdaniem są to do pewnego stopnia rozwiązania na krótką metę. Pomagają one lepiej zakorzenić w kulturze badawczej filozofię lepszego zarządzania danymi i dzielenia się nimi, jednak na dłuższą metę jedynym rozwiązaniem jest dobrowolne udostępnianie danych jako część procesu prowadzenia badań. Tak by badacze mówili: „Chwileczkę, moje badania nie są zakończone – jeszcze nie opracowałem danych, nie dołączyłem do nich dodatkowych informacji ani nie umieściłem ich we właściwym repozytorium czy centrum danych”. Na podobnej zasadzie żaden rozsądny naukowiec nie powie dziś: „Dobrze, skończyłem te badania, ale nie będę sobie zawracał głowy ich publikacją. To zabiera tyle czasu. Lepiej wezmę się od razu za kolejne”. No dobrze, może jest paru takich, ale większość badaczy uważa publikację wyników badań za integralną część procesu badawczego. W taki sam sposób coraz więcej naukowców postrzega dziś również udostępnianie danych. To jak osnowa i wątek w tkactwie. Musi być zintegrowane z materią procesu badawczego. Można to osiągnąć dopiero wtedy, gdy badacze zdadzą sobie sprawę, że to właśnie oznacza prowadzenie badań w erze cyfrowej. I nie chodzi tu tylko o udostępnianie. Ono jest w tym przypadku jedynie produktem ubocznym. W moim odczuciu chodzi o cały obszar odtwarzalności i wiarygodności badań.

Uważam, że w erze cyfrowej badanie naukowe zasadniczo różni się od badania w tradycyjnym sensie. I część naukowców zaczyna rozumieć, że trzeba udostępniać dane badawcze, aby pozwolić innym powtórzyć swoje badania lub je zweryfikować albo po prostu dowieść, że dane te są jawne i prawdziwe. Dziś nie jest wskazane mówić: „Zaufajcie mi i moim wynikom. Jestem naukowcem. Mam doktorat. Możecie mi wierzyć” czy „Dobrze, udostępnię wam swoje dane, jeśli tylko je znajdę”. Jak to świadczy o twoich możliwościach? O jakości twojej pracy badawczej? A zatem zachęta – owszem, ale w krótkiej perspektywie. W dłuższej, musi to być włączone w samą materię procesu badawczego, w sam proces, w sposób myślenia o prowadzeniu badań.

Porozmawiajmy teraz o polityce naukowej i finansowaniu. Otwarty dostęp, otwarte dane, otwarta nauka w ogóle to długoterminowe projekty i jako takie wymagają długoterminowego finansowania. Z drugiej strony Komisja Europejska przedstawia otwartą naukę jako narzędzie wspierające innowacyjność. Chciałbym zapytać, w jaki sposób można zapewnić trwałe finansowanie projektów w otwartej nauce. We współpracy z sektorem prywatnym? Co uważasz tutaj za optymalne rozwiązanie?

A co masz na myśli, mówiąc o projektach otwartej nauki? Czy w otwartej nauce jest coś szczególnego, co wymagałoby dodatkowych funduszy, innych niż te wykorzystywane w finansowaniu badań naukowych w ogóle?

Mam na myśli ogólnie rozumianą infrastrukturę otwartej nauki. Mamy różne projekty, na przykład OpenAIRE. Aby zabezpieczyć zbiory danych, aby stworzyć długoterminową politykę, trzeba nakładów finansowych.

Rozumiem. Ujmując rzecz z perspektywy instytucji finansującej badania, zaangażowanej w rozwój polityki w tym zakresie – musimy zrozumieć, że rozpowszechnianie wyników badań naukowych, czy to artykułów w otwartym dostępie, czy danych w repozytoriach lub centrach danych, jest częścią procesu badawczego. To nie jakiś nadprogramowy dodatek finansowany niezależnie od samych badań, ale sprawa zasadnicza. A zatem w dłuższej perspektywie koszty utrzymania infrastruktury badawczej niezbędnej do realizacji tych zadań obciążą grantodawców. Ci zaś muszą zaakceptować taki stan rzeczy, stanąć na wysokości zadania i sprawiedliwie partycypować w kosztach.

NERC jako instytucja finansujące badania w Wielkiej Brytanii już tak robi. Jako jedna z siedmiu brytyjskich Rad ds. badań naukowych przeznaczamy znaczne środki na finansowanie otwartego dostępu, ponieważ zdajemy sobie sprawę, że choć pieniądze te mogłyby zostać przeznaczone na nowe badania, to jednak koszty związane z otwartym dostępem stanowią część prowadzonych badań. W dłuższej perspektywie musimy wspólnie z finansowanymi przez nas instytucjami określić, skąd dokładnie wynikają te koszty.

Moim zdaniem długoterminowe rozwiązanie nie może się opierać na finansowaniu w ramach specjalnych projektów, jak np. OpenAIRE. Takie projekty, jak właśnie OpenAIRE czy Recode, zawsze były bardzo pomocne przy opracowywaniu planu działania i wytyczaniu szlaków np. w obszarze infrastruktury. Ale w dłuższej perspektywie, by powrócić na moment do odpowiedzi na poprzednie pytanie, otwartość musi stać się częścią materii badawczej, być ściśle zespolona jak osnowa i wątek w tkanym materiale. W dalszej kolejności prowadzi to do osób finansujących nadania, czyli rządów, które muszą zrozumieć, że konieczną częścią infrastruktury badawczej są narzędzia umożliwiające dzielenie się danymi, otwarty dostęp do nich i do publikacji naukowych.

Musimy też zrozumieć, że nowoczesne badania prowadzone w erze cyfrowej mogą okazać się bardziej kosztowne od tych prowadzonych w modelu bardziej tradycyjnym – może nie zamkniętym, ale mniej skłonnym do dzielenia się, gdzie wystarczyło opublikować artykuł a dane pozostawały niedostępne. Choć trzeba przyznać, że kiedyś publikowano je na końcu czasopism w postaci zbiorów tabel. Musimy zrozumieć, że najprawdopodobniej ostatecznie będziemy prowadzić nieco mniej badań, ale za to nasze projekty badawcze będą lepsze, pod warunkiem że środki finansowe pozostaną mniej więcej takie same.

Polska pracuje obecnie w tym właśnie obszarze, przygotowując prawo zobowiązujące naukowców do otwierania danych i artykułów naukowych. O czym powinniśmy szczególnie pamiętać, wprowadzając to prawo? Od czego zacząć? Wspominałeś już o tym, ale może masz jakieś wskazówki?

Nasze brytyjskie doświadczenie pokazuje, że koniec końców za słowami muszą pójść czyny. W Wielkiej Brytanii grantodawcy ustanowili obowiązującą wszystkie Rady ds. naukowych politykę otwartego dostępu, zorientowaną także na otwarte dane. Jeśli zamierza się coś takiego zrobić, trzeba dysponować wystarczającymi środkami, by to na pewno zrealizować. W przeciwnym razie jest to po prostu polityka grandilokwencji. Dużo się mówi, wstaje minister, wygłasza przemówienie, ale nic dalej się nie dzieje. Jedna rzecz to coś mówić, druga – robić. A do tego potrzebne są środki.

Jednak nie chodzi tylko o pieniądze... Oczywiście, ostatecznie wszystko sprowadza się do pieniędzy, ale tutaj potrzeba jeszcze ludzi. Ludzi, którzy mają wystarczająco dużo entuzjazmu, by spróbować wcielić to w życie. Chodzi o stworzenie grupy ekspertów, którzy mogliby doradzać innym. Pokazywać dobre przykłady działających rozwiązań. Mogą to być osoby z państw, które już opracowały takie rozwiązania, na przykład z Wielkiej Brytanii czy USA. Chodzi o przykłady, jak poradzono sobie z określonymi problemami i jak to doświadczenie mogłoby zostać wykorzystane w polskich warunkach.

Ale ostatecznie wszystko sprowadza się do środków finansowych. Jeśli chce się w tym obszarze wprowadzić politykę, która będzie działać, trzeba mieć na to fundusze. Czy to na potrzeby zbudowania infrastruktury zarządzania danymi, czy na potrzeby szkoleniowe, czy kadrowe, czy wreszcie – w przypadku otwartych czasopism – na opłaty za publikację artykułów.

Marku, dziękuję bardzo za Twój czas i ciekawą rozmowę.

Cała przyjemność po mojej stronie.

Obejrzyj wywiad

 

Additional information