Dzielenie się danymi to tylko kolejna składowa komunikacji naukowej – transkrypcja

Przechowywane przez nas dane to tylko ułamek wszystkich danych wytwarzanych w Wielkim Zderzaczu Hadronów – wyjaśnia dr Tim Smith, szef działu współpracy i informacji w Europejskiej Organizacji Badań Jądrowych CERN, w rozmowie z Maciejem Chojnowskim. Poruszające się w przeciwnych kierunkach cząsteczki zderzają się ze sobą 14 milionów razy na sekundę. Z kolei każdy detektor składa się z około 150 milionów czujników. Jeśli więc pomnożymy przez siebie te dwie wielkości, to otrzymujemy petabajty danych na sekundę wytwarzanych przez detektory. Nie ma możliwości, by przechować ani zanalizować taką ilość danych. W związku z tym proces przetwarzania danych zaczyna się już w samych detektorach. Stworzyliśmy odpowiednio zaprogramowany filtr umożliwiający ograniczenie ilości danych z petabajtów na sekundę do terabajtów na sekundę. Dane te są następnie przekazywane do połączonych sekwencyjnie komputerów, na których tysiące procesorów przetwarzają je w czasie rzeczywistym, odsiewając najbardziej interesujące przypadki i redukując w ten sposób strumień danych z terabajtów do gigabajtów na sekundę.

Maciej Chojnowski: W ośrodku CERN Wielki Zderzacz Hadronów w każdej sekundzie wytwarza ogromne ilości danych. Pojemność Państwa systemu do przechowywania informacji to około 100 PB. Jak radzą sobie Państwo z tym ogromem danych generowanych przez akcelerator? W oparciu o jaki proces Państwo działają?

Tim Smith: W rzeczywistości ilość przechowywanych przez nas danych to tylko ułamek wszystkich danych wytwarzanych w Wielkim Zderzaczu Hadronów. Poruszające się w przeciwnych kierunkach cząsteczki zderzają się ze sobą 14 milionów razy na sekundę. Z kolei każdy detektor składa się z około 150 milionów czujników. Jeśli więc pomnożymy przez siebie te dwie wielkości, to otrzymujemy wówczas petabajty danych na sekundę wytwarzanych przez detektory. Nie ma możliwości, by przechować ani zanalizować taką ilość danych. W związku z tym proces przetwarzania danych zaczyna się już w samych detektorach. Wykorzystując silikon, stworzyliśmy odpowiednio zaprogramowany filtr umożliwiający ograniczenie ilości danych z petabajtów na sekundę do terabjatów na sekundę. Dane te są następnie przekazywane do połączonych sekwencyjnie komputerów zlokalizowanych niedaleko detektorów – w centrum kontroli – na których tysiące procesorów przetwarzają dane w czasie rzeczywistym, odsiewając najbardziej interesujące przypadki i redukując w ten sposób strumień danych z terabajtów do gigabajtów na sekundę. Dopiero te dane są za pomocą światłowodu przekazywane do centrum komputerowego CERN i tam zapisywane. Jest to zatem cały proces i w naszych analizach musimy uwzględniać algorytmy selekcji danych wykorzystywane zarówno na początkowym etapie ich rejestrowania, jak i przy późniejszym filtrowaniu.

Kiedy ma się do czynienia z wielkimi zbiorami danych, okazuje się, że problem nie polega jedynie na samym ich przechowywaniu, ale także na przyroście danych (np. w rezultacie ich ponownego wykorzystywania) czy starzeniu się nośników, na których są one zapisywane. Jaką strategią dysponuje CERN, jeśli chodzi o długoterminowe zabezpieczanie danych?

Od dłuższego czasu prowadzimy eksperymenty z cyfrowymi odczytami i początkowo godziliśmy się, żeby w przypadku każdego eksperymentu dane były zapisywane na dowolnym nośniku. Z kolei w centrum archiwizacji przechowywaliśmy czytniki zapewniające stały odczyt danych z tych nośników. Jednak z czasem utrzymanie tych wszystkich technologii stawało się coraz trudniejsze i przyjęliśmy nową strategię, zgodnie z którą wszelkie dane bez względu na nośnik kopiujemy na najbardziej zaawansowane technologicznie urządzenia. Wszystkie dane zapisywane są na taśmach przechowywanych w specjalnych bibliotekach taśmowych, do których obsługi wykorzystujemy roboty.  Co jakieś 3–5 lat planujemy dokonywać migracji danych na taśmy najnowszej generacji, utrzymując zarazem bez zmian roboty używane w bibliotece, żeby przynajmniej w tym obszarze móc mówić o dobrze zainwestowanym kapitale: mamy szansę na zwrot kosztów po upływie 30 lat. Jednak same nośniki są zmieniane regularnie – staramy się wykorzystywać najbardziej efektywne rozwiązania technologiczne. Oznacza to, że musimy regularnie odczytywać nasze dane ze starszych nośników i kopiować ja na te wykorzystujące najnowszą technologię. Podczas przeprowadzania analiz fizycznych korzystamy z pamięci podręcznych na dyskach, które są jednak za małe, by pomieścić wszystkie dane. Kopiujemy więc te informacje na taśmy w archiwum głębokim, zaś w pamięciach podręcznych zapisywane są kolejne dane analizowane na bieżąco przez naukowców. Dane są więc nieustannie aktualizowane, co niekoniecznie łączy się z odczytem pełnej zawartości taśm. Jednak wiemy też, że w tle cały czas musi odbywać się odczytywanie danych ze względu na ich możliwą degradację. Jeśli nie sprawdza się ich regularnie, pewnego dnia może okazać się, że jest już za późno i że dane przepadły. Istnieją dziesiątki powodów możliwej utraty danych, nawet jeśli są one dobrze przechowywane i jeśli zgadzają się sumy kontrolne. W naszym przypadku istniało ryzyko, że nie byłyby one bezpieczne, stąd programy migracji i kontroli – mają one zapewnić dostępność wszystkich danych co do joty. Jednak tu pojawia się kolejna kwestia: nie można zapominać o zmianach formatu, a także o innych operacjach wyższego stopnia, co samo w sobie jest dużym problemem.


CERN nie tylko wytwarza ogromne ilości danych, ale także je udostępnia. Z kolei umożliwienie ponownego wykorzystania danych wymaga zapewnienia ich czytelności, dostępności oraz możliwości przeszukiwania. Jakie działania podejmuje CERN, by zwiększyć przydatność swoich danych?

Otwarty przez nas ostatnio portal z otwartymi danymi powstawał w ścisłej współpracy pomiędzy biblioteką specjalizującą się w metadanych a działem IT wyspecjalizowanym w kwestiach technicznych. Takie połączenie wynikało z potrzeby, na którą zwrócił pan uwagę, czyli wykorzystywania danych w dłuższej perspektywie czasowej. Wiązała się z tym kwestia odpowiedniego opisu, aby zapewnić ich lepszą interoperacyjność pomiędzy systemami przechowującymi informacje – nie tylko dane. W tej chwili nie wykonujemy wielu transformacji danych, ale gdy wiemy, że będą one w przyszłości wykorzystywane w projektach wykraczających poza nasz obszar oraz przez ludzi niedysponujących naszą wiedzą ani naszymi narzędziami, wtedy przekształcamy je, wzbogacamy o dodatkowe narzędzia, wyjaśniamy specyfikę formatów zapisu, tak aby można ich było później używać w otoczeniu zupełnie różnym od naszego. Ponieważ ilość naszych własnych danych jest tak duża, a także ze względu na zapisywanie ich w formatach zapewniających nam optymalną analizę, nie zmieniamy formatu danych, tylko otwarcie udostępniamy używane przez nas oprogramowanie, tak by inni mogli skorzystać albo z samego oprogramowania, albo z wirtualnych maszyn wyposażonych w to oprogramowanie i umożliwiających dostęp do naszych danych. Jeśli użytkownicy mają potrzebę rozbudować nasze oprogramowanie, wówczas rozszerzają dostarczony przez nas kod, zamiast pisać od zera swój własny, co byłoby raczej niewykonalne, zważywszy na skalę całego przedsięwzięcia.

Chciałbym teraz spytać o ponowne wykorzystywanie wytwarzanych przez CERN danych poza samą fizyką. Podobno istnieje wiele pochodnych zastosowań dla wytworzonych przez Państwa danych, choćby w medycynie. Czy śledzą Państwo wykorzystanie tych danych w innych dziedzinach? Czy spodziewają się Państwo, że dane te znajdą szerokie interdyscyplinarne zastosowanie?

Właściwie nie... Bardzo byśmy chcieli, by ludzie znajdowali takie nowe zastosowania, ale w CERN mamy do czynienia z badaniami pionierskimi, gdzie podstawowym celem zbierania danych jest zrozumienie Wszechświata. W tym celu zbieramy i przechowujemy informacje i trudno sobie po prostu wyobrazić ich wykorzystanie w zupełnie odmiennym, codziennym kontekście bez dodatkowego wyposażenia ich w coś, nad czym obecnie się nie zastanawiamy. Znalezienie innych zastosowań wydaje mi się mało prawdopodobne. Spodziewamy się raczej, że ludzie znajdą jakieś alternatywne zastosowanie dla opracowanych przez nas technik algorytmicznych. Dysponując taką ilością danych, posiadamy przestrzeń do nauki i szkolenia, chcemy korzystać z możliwości testowania. W tym obszarze spodziewamy się większych korzyści aniżeli w stosowaniu naszych danych do lepszego zrozumienia codziennego życia.

Jeśli chodzi o repozytoria, CERN prowadzi Zenodo, które zostało zbudowane we współpracy z OpenAIRE. Jak ocenia Pan ten projekt? Czy działa sprawnie? Czy chcieliby Państwo coś w nim ulepszyć?

W gruncie rzeczy Zenodo powstało jako projekt na niewielką skalę, mający wspierać unijne pilotaże dotyczące otwartego dostępu i otwartych danych – swego rodzaju zasobnik  pozwalający ludziom dostosować się do zaproponowanej polityki w sytuacji, gdy nie dysponowali odpowiednimi repozytoriami instytucjonalnymi czy dziedzinowymi dla swoich materiałów. Nie był to projekt obliczony na wielką skalę. Kiedy jednak je zbudowaliśmy, okazało się, że ludzie są tak zadowoleni z tego, co im zaoferowaliśmy, że zaczęli domagać się coraz to nowych funkcjonalności. W rezultacie mamy obecnie problem z nadążeniem za zainteresowaniem użytkowników oraz ich oczekiwaniami, by  dodawać nowe rozwiązania dla różnych dziedzin nauki i umożliwiające nowe formy ponownego wykorzystania materiałów. Naprawdę zależy nam na szybkim rozwoju Zenodo, ale w tej chwili ledwie starcza nam ludzi do prac związanych z programowaniem i wprowadzaniem nowych sposobów użytkowania.

Moje ostatnie pytanie: wyobraźmy sobie, że ma Pan przekonać naukowców do otwartego udostępniania danych. Co by im Pan powiedział? Jakiej zachęty użył?

Myślę, że powinno się zwrócić uwagę na sam proces badawczy. To siła napędowa, którą doceni większość naukowców. Proces, który wypracowywaliśmy przez ostatnie kilkaset lat, dotyczy sposobów komunikowania naszych idei, sprawdzania ich i falsyfikacji przez innych badaczy. Dzielenie się danymi to kolejna składowa tej komunikacji.  Chodzi o narzędzia i materiały wykorzystywane przez nas codziennie z intencją pokazania wszystkim, że mogą się z nimi zapoznać, pomóc w ich ulepszeniu, wskazując na to, co wymaga poprawy. Zbudować coś w oparciu o nie. To zupełnie normalny proces i myślę, że na tym poziomie naukowcy doceniają możliwość skorzystania na udostępnianiu własnych badań. Uważam jednak, że musi się to odbywać wedle określonego porządku. Nie można działać na zasadzie: „Przekaż to innym – co cię obchodzi, co z tym będzie dalej?” Uporządkowane, wielopoziomowe podejście zakłada, że dane naukowe mogą być otwarte dla twoich bezpośrednich kolegów lub tych, którzy pracują nad kolejnym etapem badań. Wreszcie tych, którzy za granicą prowadzą badania podobne do twoich. Każdy z tych poziomów otwartości danych sprawia, że grupom naukowców coraz wygodniej się pracuje, dostrzegają oni korzyści płynące z otwartości i ostatecznie po ukazaniu się publikacji mogą chcieć jeszcze szerzej udostępnić te dane. Myślę więc, że najskuteczniejszą zachętą jest fakt, że otwartość pomaga badaczom.

Panie Doktorze, dziękuję za poświęcony mi czas i ciekawą rozmowę.

Proszę uprzejmie.

Obejrzyj wywiad

 

Additional information