Czy polskie repozytoria są widoczne w sieci?

W sekcji Analizy publikujemy kolejny materiał. Tym razem Tomasz Lewandowski w obszernym artykule zatytułowanym Google Scholar a repozytoria i biblioteki cyfrowe w Polsce bada, w jakim stopniu narzędzia Google dostrzegają polskie repozytoria.

Diagnoza nie jest optymistyczna. Jak zauważa autor, "repozytoria i biblioteki cyfrowe mają w zamyśle zwiększać widoczność swoich zasobów. Przypadki wypełniania tego zadania na znośnym poziomie są w Polsce pojedyncze, przeważnie wtedy, gdy repozytorium korzysta z oprogramowania DSpace. Jednak nawet tutaj pozostaje wiele do naprawy". 

Zachęcamy do lektury i dyskusji!

Komentarze   

0 #10 Tomasz Lewandowski 2014-09-10 12:33
Ze swej strony dziękuję za ciekawą polemikę i (przede wszystkim) za link do tekstu.

O coś takiego właśnie chodzi, ale konkretnie pod repozytoria, w bardziej poradnikowej formie i up to date (trzeba np. uwzględnić rekomendacje Google Scholar, by w tagach meta nie używać powszechnie jednak używanego Dublin Core + narzędzia do konwersji na polecane Highwire, BE Press, Eprints lub PRISM itp.)

z poważaniem,
Tomasz Lewandowski
Cytuj
0 #9 Maciej A. Chojnowski 2014-09-10 10:14
Szanowny Panie,

serdecznie zapraszam do polemiki na naszych łamach. Chętnie opublikujemy Pańską odpowiedź.
Z poważaniem

Maciej Chojnowski
Cytuj
+1 #8 Marcin Werla 2014-09-09 17:01
Skomentuję tylko krótko, odnośnie najlepszych praktyk. O częsci spraw pisałem/mówiłem w zeszłym roku: http://eprints.rclis.org/22541/

Dalszą polemikę w takiej formie tak jak pisałem, już odpuszczam, bo nie ma większego sensu.

Zachęcam do powtórzenia badań jeszcze raz i opublikowania wyników na konferencji TPDL2015 (http://tpdl2015.info).
Cytuj
0 #7 Tomasz Lewandowski 2014-09-09 16:13
Poprzedni komentarz był, jako się rzekło, negatywną częścią odpowiedzi, tj. próbą ustosunkowania się do zarzutów. Dyskusje tego typu mają to do siebie, że odpowiedzi na zarzuty często mieszają się z zarzutami kierowanymi ku stronie przeciwnej. Że o złośliwościach nie wspomnę. Chciałbym tego uniknąć. Dlatego chciałbym, jeśli to możliwe, podkreślić stronę pozytywną.

Po pierwsze, jeszcze raz dziękuję za cenny głos krytyczny. Conan Doyle włożył kiedyś w ustra Shelrlocka Holmesa stwierdzenie, że ludzie nigdy (nawet na przesłuchaniu) nie są tak skorzy do udzielania informacji jak wtedy, gdy bardzo starają się Tobie zaprzeczyć. Można to ująć inaczej: żaden czytelnik nie jest tak uważny, jak czytelnik nieprzychylnmie nastawiony. Jeśli w podobny sposób da się zwrócić uwagę obsługi repozytoriów na problem - to tym lepiej.

Po drugie, podkreślę raz jeszcze, że przewagi tego czy innego oprogramowania repozytoryjnego nie są ani tematem tej analizy, ani problemem, na który chcieliśmy zwrócić uwagę czytelników bloga. Tym problemem są niskie wyniki dla niemal wszystkich repozytoriów w Polsce (średnia 13%, mediana 2%, podkreślmy to raz jeszcze). Wymienione w moim tekście i przez Pana niedokładnoścu pomiaru nie są w stanie aż tak przekłamać wyniku. Problem jest więc poważny.

Po trzecie, problem staje się jeszcze bardziej poważny, jeśli wziąć pod uwagę szerszy kontekst.
Otwarte repozytoria mieszczą ok. 2/3 otwartych treści naukowych w Polsce (prof. Włodzisław Duch na wczorajszych Infobazach) i znaczną część tychże na świecie. Tymczasem są na świecie atakowane zarówno ze strony komercyjnych wydawców (konkurencyjny system CHORUS w USA, wymuszanie embarg, czyli opóźnień w deponowaniu), jak i co bardziej radykalnych orędowników licencji otwartych i tzw. Libre Open Access (większość zasobów repozytoryjnych nie ma żadnej licencji, dostępne są na zasadzie tzw. Gratis Open Access).
Na gruncie polskim również mamy przykłady, najświeższy z wczorajszych Infobaz: prof. Rybiński przy okazji prezentacji systemu Omega-PSIR nie szczędził repozytoriom krytyki m.in. właśnie za słabą widoczność zasobów. Prezentował przy tym całkiem sporo tego, co nazwał Pan "korpusem publikacji naukowych".
"Na Zachodzie" coraz głośniej mówi się o problemach repozytoriów z wyszukiwarkami (przykłady w bibliografii artykułu)
Samo Google Scholar jest do pewnego stopnia "disruptive technology" dla repozytoriów: daje narzędzia, dzięki którym dobrze prowadzona zwykła strona może mieć zasoby bardziej widoczne niż repozytorium, które nie zważa na kwestie SEO. Uważamy, że mimo wszystko repozytoria mogą mieć dużą przewagę nad innymi narzędziami - ale pod warunkiem, że porządnie wezmą się za sprawy widoczności.
I, przede wszystkim - jeśli może nam w Polsce grozić wdrażanie kolejnych, kosztownych rozwiązań mających repozytoria zastąpić, trzeba zrobić wszystko, co można, by wycisnąć z repozytoriów cały ich potencjał.

Jeśli się je tylko będzie odpowiednio pielęgnować, mogą pięknie zakwitnąć. Mają ważne zadanie do spełnienia i z pewnością mogą je wykonać.

Na tym polu jest wiele do zrobienia i naprawdę namawiam, żeby się skupić przede wszystkim na tym. Jeśli ma Pan czas i chęci (bo umiejętności z pewnością Pan ma), również gorąco namawiam do działań dla wspólnego celu: opracowania strategii i najlepszych praktyk dla poprawy widoczności repozytoriów.
Cytuj
0 #6 Tomasz Lewandowski 2014-09-09 15:38
To prawda: to nie jest sensowne miejsce na polemikę, nawet po tym, jak podniesiono limit znaków/komentar z z 1000 do 10000. Mimo to postaram się odpowiedzieć przynajmniej na część postawionych zarzutów, zwłaszcza teraz, gdy facebookowa Digitalizacja zaczęła przyglądać się naszej wymianie zdań: https://www.facebook.com/Digitalizacja.
Na początek, chciałbym podziękować za tę polemikę. Obrazuje ona, że problemy, o których piszemy, są rzeczywiście ważne. W wielu miejscach też się z Panem zgadzam. Do tych miejsc dojdziemy później. Najpierw sprawy, w których się (przynajmniej częściowo) nie zgadzamy:

0. Uwagi wstępne
0.1. Tekst nigdy nie miał ambicji bycia tekstem naukowym (choć metoda pochodzi z literatury poddanej peer-review).
Formułuje Pan szereg drobnych zarzutów. Lista nie jest wyczerpująca, sam mógłbym ją uzupełnić o kilka punktów. Np. przeprowadzenie badania w sezonie urlopowo-wakacy jnym, gdy webmasterzy wolniej reagują na pady systemu i korekta problemów z 503 idzie wolniej niż zwykle, a przecież np. problemy z czasem odpowiedzi serwera poważnie wpływają na pająki Google. Skoro już rozciągnąłem badanie w czasie, to mogłem przy okazji powtórzyć pomiar dla grup A, B i C w momencie pomiaru dla drupy D. Itd.
Wymaga Pan od pomiarów zbyt wielkiej precyzji tam, gdzie i tak jest ona nie do osiągnięcia. Nie mówimy tu o spadku widoczności z 90% na 70%. Mówimy tu o widoczności średniej dla repozytoriów równej ok. 13% z medianą równą niemal dokładnie 2%. I to nie uwzględniając wyłącznie PDF. I my tu mówimy o niedokładnościa ch? Musiałaby istnieć jakaś "przeciw-dokład ność", by te wyniki nie były niepokojące. Reakcje takie, jak Pańska (a mówię tu przede wszystkim o dwóch linkach, jakie Pan zamieścił w swoim pierwszym komentarzu) mogą tylko ten niepokój powiększyć. Szerzej o tym w drugiej części komentarza.
0.2. Bardzo się cieszę, że mój artykuł znalazł tak wnikliwego czytelnika i dziękuję Panu za to. Mam jednak nieodparte wrażenie, że interp;retuje Pan go w sposób bardzo nieżyczliwy. Ma to oczywiście swoje nieocenione zalety - prawdopodobieńs two, że z takim nastawieniem wyłapie Pan większość błędów (dzięki czemu będzie można je poprawić) jest wysokie. Z drugiej strony jednak, za bardzo usiłuje Pan zrobić zarzut ze wszystkiego. Np. wymagania, by badania były możliwie dokładne i powtarzane często są wzajemnie wykluczające się. Metoda, którą tu stosuję nadaje się do częstego powtarzania niskim kosztem (patrz 3.2.), w przeciwieństwie do jakiejkolwiek proponowanej przez Pana.
0.3. Oczywiście nietrudno się domyślić, że powodem takiego a nie innego Pana nastawienia jest zdanie "Największym rozczarowaniem okazała się dLibra." Przyznaję w tym miejscu, że powinno ono brzmieć "Największym rozczarowaniem okazały się repozytoria oparte na oprogramowaniu dLibra." Takie sformułowanie nie przesądza, że głównym winowajcą jest framework. Nie jest - jest nim brak działań na linii SEO. Brak ten jest widoczny w większości badanych przypadków, niezależnie od oprogramowania. Przy (domyślnym) "zerowym" stanie SEO dLibra wypada bladziej od np. DSpace i o to wyłącznie w tym zdaniu chodziło.
1. Kolumna Items
1.1. "KPBC ma około 9 krotnie więcej obiektów niż Pan podał"
To prawda. Liczba, którą podałem to błędnie nie zmieniona pozostałość próby uwzględnienia w tej kolumnie wyłącznie tego podzbioru kolekcji "materiały dydaktyczne"(http://kpbc.umk.pl/dlibra/collectiondescription?dirids=11), który byłyby w kręgu zainteresowania Google Scholar. Podejście to okazało się zbyt czasochłonne (patrz: 0) w studium, które dotyczy przede wszystkim repozytoriów (patrz: 1.2.). Warto jednak zauważyć, że ostatecznie wytyka Pan punkt pracujący na korzyść mojej tezy. Przy dziewięciokrotn ie większym mianowniku współczynnik widoczności staje się dziewięciokrotn ie niższy. Nie zmienia to oczywiście faktu, że przeoczenie zaistniało z mojej winy.
1.2. "Wiele/większoś ć spośród materiałów w bibliotekach cyfrowych (...) to materiały z definicji nie pasujące do zakresu Scholara"
Bibliotek cyfrowych na dobrą sprawę w ogóle nie powinno tu być. W tekście zresztą o tym piszę, ale dziękuję za podkreślenie tego wątku. W statystykach uwzględniałem wyłącznie te BC, które zgłosiły się do Ranking Web of Repositories. Co za tym idzie, były oceniane tak, jak repozytoria - również pod względem widoczności w Google Scholar i widoczności (wyłącznie) pdfów (kryteria oceny Webometrics patrz: http://link.springer.com/article/10.1007/s11192-010-0183-y/fulltext.html ). Ocena wg podobnych kryteriów miała jednak pewną zaletę: rozszerzała w nietrywialny sposób próbę, na której można było porównać skuteczność obranej w tekście metody ze skutecznością rankingu Webometrics.
Rozróżnienie funkcji repozytoriów i BC to temat na oddzielny, dość obszerny tekst. Poruszony tu przez Pana problem byłby jednym z mocnych punktów takiego tekstu. BC oceniane według kryteriów przygotowanych dla repozytoriów oczywiście będą miały zaniżone wyniki. Być może niedostatecznie mocno podkreśliłem ten wątek w moim artykule.
1.3. "Wartość tej kolumny należałoby określić na podstawie ilości takich materiałów w badanych serwisach, a nie na podstawie łącznej liczby obiektów"
Tę uwagę wyprzedzam w pierwszym komentarzu widocznym na niniejszej stronie. W jego świetle można stwierdzić, że ponownie udowodnił Pan, że jest wnikliwym czytelnikiem. Dodam tylko, że nie zgodzę się z twierdzeniem, że do sprawdzenia liczby "obiektów w badanych serwisach" niezbędny jest kontakt z obsługą repozytorium/BC . Wystarczy analiza sitemapów wystawionych dla pająków Google. Założenie, że repozytoria uwzględniają wszystkie swoje zasoby sitemapach nie wpływa znacząco na zmianę precyzji wyników.
1.4. "[niższa widoczność materiałów w formacie DjVu] nie może stanowić podstawy do obraczenia winą dLibry"
Zgoda, ale mam wrażenie, że nic w moim tekście nie wskazuje na taką interpretację faktów.
Warto podkreślić (również w odniesieniu do punktu 1.2.), że ta uwaga nie dotyczy współczynników widoczności repozytoriów pracujących na dLibrze.

2. Kolumna Scholar Pages
2.1. "oparty na dLibrze RCIN ma w Pana tabeli 3150 Scholar Pages, podczas gdy (...) wartość ta wynosi obecnie 8 280 obiektów"
Zapomniał Pan "odhaczyć" cytowań (i, dla porządku, patentów) - gdy się to uwzględni, okaże się, że właściwą liczbą jest obecnie 6210 (http://scholar.google.pl/scholar?as_sdt=1,5&q=site:rcin.org.pl&hl=pl&as_vis=1). Jak jest zaznaczone w kolumnie "groups", pomiar miał miejsce 25 lipca 2014. Od tego czasu, jak sam Pan zresztą zauważył, dużo się mogło zmienić (patrz uwaga 3.2.)
2.2. "(...)RCIN miałby ten współczynnik bardzo wysoki. I jest oparty na dLibrze. Tak więc to kolejny dowód na to, że rozczarowywanie się dLibrą jest w kontekście Pana analiz nie na miejscu."
To jednostkowy przypadek (podobnie zresztą, jak podlinkowany przez Pana w Pana pierwszym komentarzu "mały eksperyment"), bardziej reprezentacyjny niż reprezentatywny . Znacząco wyższe niż pozostałych dLibrowych repozytoriów wyniki pozwalają się mniej lub bardziej trafnie domyślać, że obsługa RCIN podjęła działania optymalizujące widoczność repozytorium pod kątem SEO. Przypadek ten można tylko pochwalić (rzeczywiście zbyt mało podkreśliłem to w artykule, pisząc jedynie ogólnie o jednym wyjątku - bardzo dziękuję za rozwinięcie tej uwagi). Antycypując nieco drugą część niniejszej odpowiedzi: na takich przypadkach chcielibyśmy skupić się w dalszej perspektywie, pokazując korzyści (i konieczność) podobnych zabiegów we wszystkich repozytoriach (w ostateczności, w agregatorach).
Jednakże z tego samego powodu przypadek ten staje się statystycznie nieistotny - czyli właśnie jest wyjątkiem.

3. Kolumna Google Pages
W artykule podkreślam (znowu: zapewne zbyt mało dosadnie), że ta kolumna ma charakter co najwyżej orientacyjny. Stąd np. brak wyliczania współczynników w oparciu o tę kolumnę. W bardziej obszernym tekście (chociaż w takim przypadku zbliżałby się objętościowo do monografii po uwzględnieniu pozostałych poruszanych tu przez Pana wątków) zapewne byłoby miejsce na problemy przez Pana poruszane (jak i na wiele innych, które trzeba by w tym kontekście przywołać - domyślam się zresztą, że i Pan o nich wie).
3.1. "powtórzył Pan zrobione w Ameryce Południowej zgrubne i łątwe do wykonania badanie"
Powtórzyłem metodę, nie badanie, bo zmienił się przedmiot badania. Że jest zgrubne i dlaczego, pisałem nie raz. Że jest łatwe do wykonania, nie przeczę (i też to pisałem), ale trudno zrobić z tego zarzut. Jeśli to, że autorzy oryginalnego badania pochodzą z Ameryki Południowej miało być tutaj zarzutem (a dictum de omni z 0.2. skłania do takiej interpretacji Pana słów), to niech Pan pamięta, że formułuje go przedstawiciel niedofinansowan ej nauki kraju położonego w Europie Środkowej.
3.2. "Gdyby (...) skontaktował się Pan z poszczególnymi instytucjami i uzyskał dane do kolumny Google Pages od administratorów"
Cudownie. A jaki byłby wskaźnik responsywności?
3.3. "co najwyżej nieudana próbą uchwycenia stanu indeksów Google w określonym momencie w czasie"
Bardzo dobra uwaga - tym bardziej, że i ja ją czynię. Ze swej strony postaramy się powtarzać te pomiary i serdecznie namawiamy do tego obsługę repozytoriów - jako pierwszy (i tylko pierwszy) krok do analizy stanu widoczności.

Dla tych, którzy przetrwali, nagroda. ten odcinek xkcd jakoś dziwnie przypomina mi naszą dyskusję, przynajmniej w niektórych jej aspektach: http://xkcd.com/277/
Cytuj
+1 #5 Marcin Werla 2014-09-05 15:57
Komentarzem pod newsem to nie jest dobre miejsce na sensowną polemikę, ale mimo wszystko postaram się wypunktować jeszcze raz główne błędy przeprowadzonej przez Pana analizy. Część przyczyn tych błędów sam Pan wspomnia w tekście, niestety nie przeszkada to Panu w wysnuciu wniosku, że przyczyną problemu widocznosci jest zastosowanie dLibry do budowania repozytoriów czy bibliotek cyfrowych. Stwierdzenie o największym rozczarowaniu jest dla mnie jednoznacznym wskazaniem głównego winowajcy. Błędnym wskazaniem. A więc do rzeczy:
1) Kolumna items zawiera łączną liczbę obiektów, np 150 tysięcy obiektów dla eBUW. Po pierwsze część z wartości w tej kolumnie jest błędna - np. KPBC ma około 9 krotnie więcej obiektów niż Pan podał (por. http://kpbc.umk.pl/, sekcja Statystyki). Po drugie porównuje Pan liczbę łączną obiektów w bibliotece cyfrowej z zasięgiem wyszukiwarki naukowej. Wiele/większość spośród materiałów w bibliotekach cyfrowych takich jak eBUW czy KPBC to materiały z definicji nie pasujące do zakresu Scholara. Poza brakiem staranności w spisywaniu liczb obiektów, żeby badanie było choć trochę miarodajne w kontekście widoczności współczesnych materiałów naukowych, wartość tej kolumny należałoby określić na podstawie ilości takich materiałów w badanych serwisach, a nie na podstawie łącznej liczby obiektów. Do tego przydałby się kontakt z prowadzącymi daną bibliotekę czy repozytorium, o czym wspomniałem. Poza rodzajem materiałów mamy jeszcze kwestię formatu. Sam Pan pisze, że Google nie wspiera DjVu i jest to z pewnością obniżonej widoczności materiałów z bibliotek cyfrowych w Google. Ale wybór formatu DjVu jest decyzją twórców bibliotek cyfrowych, a nie wymogiem dLibry. Tak więc niższa z tego powodu widoczność materiałów w indeksach Google nie może stanowić podstawy do obraczenia winą dLibry. Przyjęte założenie, że obiekty we wszystkich repozytoriach to w przybliżeniu pliki o podobnej jakości i formacie jest błędne i dyskwalifikuje badanie.
2) Kolumna Scholar pages - tu również niektóre wartości są zupełnie niepoprawne. Np. oparty na dLibrze RCIN ma w Pana tabeli 3150 Scholar Pages, podczas gdy w rzeczywistości wartość ta wynosi obecnie 8 280 obiektów (por. http://goo.gl/Ghai1E). W kolumnie Items podaje Pan dla RCINu wartość bardzo zbliżoną do obecnej łącznej liczby obiektów, zakładam więc że i Scholar Pages dla tego serwisu powinno być zbliżone do obecnego. Wygląda na to, że w rzeczywistości RCIN jest dużym repozytorium o dynamicznym przyroście deponowanych zasobów (por. http://rcin.org.pl/stats), różnorodnych rodzajach i formatach materiałów, i mimo tych wszystkich potencjalnie problematycznyc h aspektów jest repozytorium o największej liczbie wyników w Google Scholar w całym Pana badaniu. Jeżeli jeszcze uwzględnić by do tego obniżenie wartości Items niezbędne do urealnienia współczynnika indeksacji (patrz punkt wyżej), RCIN miałby ten współczynnik bardzo wysoki. I jest oparty na dLibrze. Tak więc to kolejny dowód na to, że rozczarowywanie się dLibrą jest w kontekście Pana analiz nie na miejscu.
3) Kolumna Google pages jest również niemiarodajna. Pisze Pan sam o tym, że nieznaczna zmiana zapytania znacznie zmienia łączną liczbę wyników w Google. Miarodajne dane odnośnie liczby zaindeksowanych w Google stron poszczególnych bibliotek cyfrowych mają administratorzy tych bibliotek, przynajmniej ci którzy używają Google Webmaster Tools. Gdyby, tak jak pisałem poprzednio, skontaktował się Pan z poszczególnymi instytucjami i uzyskał dane do kolumny Google Pages od administratorów poszczególnych repozytoriów, analiza byłaby choć trochę sensowniejsza. Oczywiście nadal nie niwelowałoby to przekłamań we współczynniku procentowym wynikających dodatkowo z kwestii jakie poruszam w punkcie pierwszym. Jako ciekawostkę dodam, że z danych z Google Webmaster Tools dla lib.psnc.pl oraz wbc.poznan.pl wynika, że łączna liczba zaindeksowanych stron z tych serwisów podlega nieustannym wahaniom nawet o 30-40% w perspektywie dwóch-trzech tygodniu. Wzrosty i spadki następują bez związku z jakimikolwiek zmianami wprowadzanymi w tych serwisach i są zapewne elementem „tajemnicy handlowej firmy Google”. Stąd też wyciąganie jakichkolwiek wniosków dot. oprogramowania jest na tej podstawie nieuzasadnione.
Podsumowując – moim zdaniem powtórzył Pan zrobione w Ameryce Południowej zgrubne i łątwe do wykonania badanie, opierające się na kilku rozmytych parametrach i popełniając kilka błędów przy przepisywaniu liczb z okna przeglądarki. Przeniósł Pan metodykę na grunt polski ignorując polskie realia (różnorodność zbiorów w bibliotekach cyfrowych). Ta metodyka jest pewnie wystarczająco dobra żeby uzmysłowić czytelnikowi takiej analizy problem indeksowania zbiorów naukowych przez wyszukiwarki i potrzebę działań związanych z SEO, ale zupełnie nie nadaje się do precyzyjnych porównań systemów w ramach zestawienia, a już tym bardziej nie może być podstawą do stwierdzeń w rodzaju „oprogramowanie x okazało się rozczarowaniem” czy „pozostaje framework”.
Co więcej, ze względu na duży stopień rozmycia wartości parametrów, liczby z przeprowadzonej analizy nie odzwierciedlają też ogólnej perspektywy użytkownika wyszukiwarki, a są co najwyżej nieudana próbą uchwycenia stanu indeksów Google w określonym momencie w czasie.
Jeżeli w przyszłości będzie Pan zainteresowany analizami porównawczymi systemów do budowy repozytoriów cyfrowych, to proponuję zebrać testowy korpus publikacji naukowych, uruchomić kilka repozytoriów na kilku różnych systemach, stopniowo napełniać je publikacjami z korpusu i przy pomocy narzędzi typu Google Webmaster Tools (lub analizując logi zapytań WWW) obserwować poziom indeksacji. Wtedy będzie miał Pan podstawę do wyciągania wniosków na temat efektywności tego czy innego oprogramowania w udostępnianiu zbiorów on-line .
Mam nadzieję, że bardziej rozbudowana niż poprzednio argumentacja przekona Pana do spojrzenia krytycznie na własną analizę. Pozwoli Pan, że na tym zakończę ze swojej strony tę dyskusję.
Cytuj
0 #4 Tomasz Lewandowski 2014-09-03 16:15
Przypominam zresztą, że piszę też zaraz potem, że dLibra nie ma tego problemu z pdfami, który wydają się mieć repozytoria w DSpace. Ogólniej mówiąc, wyrywa Pan z kontekstu jedno tylko zdanie.
Cytuj
0 #3 Tomasz Lewandowski 2014-09-03 16:09
Zapewniam, że nie kierowała mną żadna specjalna motywacja zaszkodzenia wizerunkowi dLibry. Ponieważ zdążył Pan w trakcie swojego komentarza zmienić zdanie na temat mojej ignorancji, pozostaje nam więc ostatnia zaproponowana alternatywa: nie umiem wyciągać wniosków z własnych badań.
Być może więc wyjaśni mi Pan, jakie wnioski mam wyciągnąć z badań, w których żadne repozytorium korzystające z dLibry zawierające 30+ rekordów nie osiągnęło wyniku wyższego niż 10%? (BC osiągały często wyniki o 2 rzędy wielkości gorsze, BTW)
Zgrubna metodologia? Dziękuję, sam wypunktowuję, dlaczego jest zgrubna - a jednak była tak samo zgrubna dla wszystkich repozytoriów. Kontakt z repozytoriami? Przecież interesuje nas tu perspektywa użytkownika wyszukiwarki, który chce tekstu niekoniecznie z repozytorium. Zakładam, że jakość deponowanych pdfów - o której też zresztą pisałem - jest wszędzie średnio taka sama.
Ceteris paribus, pozostaje framework.
Cytuj
0 #2 Marcin Werla 2014-09-03 08:33
Uważam, że w tej analizie nie ma podstaw do sformułowania "Oprogramowanie dLibra okazało się największym rozczarowaniem. ". Albo autor nie potrafi wyciągać prawidłowo wniosków z własnych badań, albo nie rozumie problemu złożoności indeksowania baz danych przez wyszukiwarki, albo miał jeszcze inną motywację pisząc to zdanie. Pomijając nawet wątpliwą metodykę badawczą opartą na zgrubnych danych, pomijając brak kontaktu z badanymi repozytoriami w celu uzyskania większej ilości informacji, nie można jednym zdaniem zrzucać winy na samo oprogramowanie. Czynników takiej czy innej liczby publikacji w Google Scholar jest bardzo wiele, co zresztą autor w kilku miejscach w tekście zauważa. Polecam dwa linki w ramach dokształcenia się: https://confluence.man.poznan.pl/community/pages/viewpage.action?pageId=26051667 oraz http://dingo.psnc.pl/2013/05/06/repozytorium-instytucjonalne-na-systemie-dlibra-i-google-scholar-maly-eksperyment/
Cytuj
0 #1 Tomasz Lewandowski 2014-08-31 17:48
Po namyśle przyszły mi do głowy dwa komentarze. Są one zbyt szczegółowe, by zmieniać dla nich już opublikowany tekst. Z drugiej strony, dla klaryfikacji warto może jednak je spisać, zwłaszcza że uwazny Czytelnik zapewne zauważył te kwestie. Dlatego postanowiłem je zamieścić tutaj.


1. Definicja współczynnika indeksacji.
By oddać sprawiedliwość wszelkim szczegółom, można współczynnik indeksacji zrelatywizować do tego, co z zasobów danego repozytorium chciał opublikować jego właściciel. Innymi słowy, opublikowanie pewnych zasobów może nie być intecją webmastera lub właściciela strony internetowej - wobec czego niesprawiedliwo ścią byłoby liczenie zasobów, które nie miały być opublikowane jako podstawy wyliczania współczynnika. Intencja publikacji może być wyrażona poprzez wystawienie mapy strony (sitemap), w związku z czym nie powinno się wliczać wszystkich adresów URL, a jedynie te, które występują w sitemapie. W ten sposób współczynnik indeksacji jest rozumiany np. w Improving the Visibility and Use of Digital Repositories Through SEO (rozdział 5).
Istnieją dwa powody, dla których zdecydowałem się nie relatywizować współczynnika indeksacji do sitemapów. Myślę, choć oczywiście mogę się tu tylko domyślać, że autorzy "The dark side(...)" podjęli tę samą decyzję na podstawie podobnych przesłanek.
Po pierwsze, nieznany jest procent polskich repozytoriów (i bibliotek cyfrowych), dla których rzeczywiście zastosowano sitemapy w celu zwiększenia prawdopodobieńs twa zaindeksowania zasobów w Google i Google Scholar. Dla tych repozytoriów, dla których tego nie wykonano, współczynnik indeksacji i tak trzeba by było oprzeć o liczbę wszystkich dostępnych rekordów.
Zmiana definicji współczynnika indeksacji zatem w nieznanej (zapewne wysokiej) liczbie przypadków i tak oznaczałaby cofnięcie się do definicji poprzedniej.
Po drugie, trudno sobie wyobrazić sytuację, w której zablokowanie dostępu robotów indeksujących wyszukiwarek internetowych do zasobów repozytorium byłoby pożądane z punktu widzenia celu istnienia repozytorium cyfrowego. W hipotetycznej sytuacji, gdy część zasobów IR nie jest uwzględniona w sitemapie, należałoby rozstrzygnąć, czy mamy do czynienia z rzeczywistą intencją nieindeksowania części zasobów, czy może po prostu z błędem technicznym. Nie widzę dobrych kryteriów mogących posłużyć do rozstrzygnięcia takich alternatyw.


2. Procent plików PDF w internecie.
Przywoływane przeze mnie w tekście badanie dotyczące dominacji dokumentów typu PDF w Sieci ma pewną wadę, która jest szczególnie interesująca w kontekście, w którym się tu poruszamy. Okazuje się, że zostało wykonane... poprzez Google, metodą "filetype:". Zasadniczo więc pokazuje ono jedynie, że pośród indeksowanych przez Google plików 77% to pliki typu PDF. Google tymczasem ma swoje preferencje, oparte (zapewne) na własnych badaniach na temat tego, co jest popularne w sieci. Mamy więc coś, co wygląda na klasyczne błędne koło. O ile jednak pamiętamy, że obracamy się cały czas w świecie Google'a - w tym sensie, że interesuje nas, co jest indeksowane przez tę wyszukiwarkę, niebezpieczeńst wo błędnego koła znika. Skoro w 77% pliki indeksowane przez Google (które nie są typu HTML) są typu PDF (a pozostałe kilkanaście procent to nieinteresujące nas w tym kontekście XLSx, TXT, RTF i DOCx), to uzasadnionym jest poszukiwanie "filetype:pdf", jeśli chcemy dowiedzieć się, ile dokumentów (nie będących HTML) jest indeksowanych na danej domenie przez Google.
Cytuj

Dodaj komentarz


Kod antyspamowy
Odśwież

Additional information