Linked Data cz. 2: gdzie s? dane?
Linked Data jest stosunkowo nowym zjawiskiem w sieci WWW, ide? dost?pu do danych strukturalnych. Co to s? dane strukturalne? WWW jest uniwersalnym no?nikiem informacji czytelnej dla cz?owieka - wszystkie strony internetowe, artyku?y, aplikacje daj? nam informacje, które mo?emy odczyta? i zinterpretowa?, na przyk?ad pytanie: "kiedy przyjedzie nast?pny tramwaj?” i odpowied?; “za 10 minut". Takie pytanie i odpowied? nie s? jednak ?atwe do odczytania przez komputery, które potrzebuj? informacji w ?cis?ej strukturze: (“Numer przystanku: 4398, linia tramwajowa: 11, odleg?o?? od przystanku: 0.8 km, itp.)
Informacja jest zwykle zapisana w bazach danych, które po wielu latach udoskonalania s? bardzo wydajne w przechowywaniu i wyszukiwaniu danych, ale fatalne w wymianie informacji. Ka?da baza danych zawiera wiele kolumn, nazywanych raczej dowolnie i tylko lokalny system komputerowy umie z niej wyci?gn?? dane. Nowy koncept, Linked Data, przybywa tutaj z pomoc?. Schemat metadanych Linked Data, o nazwie RDF (Resource Description Framework, struktura opisu zasobów), wymaga, aby dane nie by?y prezentowane w trudnych do odcyfrowania tabelach, ale w prostych zdaniach, sk?adaj?cy si? z podmiotu, orzeczenia i dope?nienia. Zamiast wymy?lonych nazw kolumn u?ywamy nazw standardowych, a zamiast nazwy podmiotu u?ywamy jego identyfikator URI (Universal Resource Identifier, uniwersalny identyfikator zasobu). Przyk?adowo, trywialna dla cz?owieka informacja o tytule tego blogu (przecie? mo?emy przeczyta? go powy?ej, prawda?) zamienia si? w zdanie albo “trójk?” w slangu RDF [1) www.archiwa.net/index.php?option=com_content&view=article&id=593&catid=95:blog&Itemid=42, 2) dc:title, 3) "Linked Data cz. 2: gdzie s? dane?"]. Pierwsza cz??? to adres URI jednoznacznie wskazuj?cy na ten artyku?, druga to "tytu?” w konkretnym standardzie metadanych (Dublin Core), a trzecia cz??? to tekst tytu?u.
Wi?cej o szczegó?ach Linked Data i RDF znajdziecie w pierwszym artykule z tej serii,: "Wst?p do Linked Data". W tym blogu chcia?bym skupi? si? na konkretnych ?ród?ach danych dost?pnych obecnie na stronach WWW, nad tym jak je znale?? i co one zawieraj?. W procesie digitalizacji archiwów cz?sto poszukujemy odno?nika do nazw, miejsc, organizacji lub zdarze?, który by?by stabilny i dost?pny. Je?li pojawia si? nazwisko, np. Karol Anders, czy mo?emy znale?? ?ród?o, które b?dzie jednoznacznie wskazywa? na rekord tej osoby? Z oczywistych powodów b?dziemy omawia? tylko te ?ród?a danych, które s? publicznie dost?pne. Link, który opublikujemy na stronie internetowej, otwartej dla ka?dego czytelnika, nie mo?e prowadzi? do zasobu, który nie jest dost?pny dla tego czytelnika. B?dziemy analizowa? nie wszystkie Linked Data, a otwarte Linked Open Data. Ilustracja powy?ej pokazuje ma?y fragment ogromnej sieci Linked Open Data, poni?ej kilka wybranych ?róde? z wyszczególnieniem tych u?ytecznych dla archiwisty i bibliotekarza.
?ród?a danych Linked Open Data
Popularne zasoby danych
DBPedia jest centralnym zasobem Linked Open Data. Jej ?ród?em danych jest Wikipedia; ale informacje DBPedia s? ustrukturyzowana, jak w typowej bazie danych. Prace nad budow? DBpedii s? w toku, i zale?? w du?ej mierze od wk?adu wolontariuszy w udoskonalanie artyku?ów Wikipedii, dodaj?cych Infoboksy i inne dane strukturalne. DBPedi? mo?na uzna? za inne spojrzenie na dane w Wikipedii, z mo?liwo?ci? wykonywania z?o?onych zapyta? - ma ona za sob? ca?? moc i wszechstronno?? Wikipedii.
VIAF (Virtual International Authority File) jest oparta na zasobach “kontroli autorytatywnej” wielu bibliotek w wielu krajach, od Biblioteki Kongresu (USA) do biblioteki w Aleksandrii (Egipt). Rekordy wzorcowe autorów, wydawców itp. s? gromadzone w bibliotekarstwie przez wieki i s? naturalnym ?ród?em w miar? wiarygodnych informacji na temat osób, organizacji i miejsc.
YAGO, opracowany w Instytucie Informatyki Maxa Plancka w Saarbrücken, jest integratorem informacji zebranych z Wikipedii, WordNet i GeoNames. Yago zapewnia spójny interfejs i posiada wiele przydatnych narz?dzi, np. ciekaw? wizualizacj? danych w postaci diagramu RDF. Jest równie? powi?zane z DBPedi?.
GeoNames jest to baza danych geograficznych, dost?pnych bezpo?rednio a tak?e za po?rednictwem ró?nych us?ug internetowych, udost?pniona na podstawie licencji Creative Commons. Dane pochodz? z oficjalnych ?róde? publicznych, a tak?e jako wynik crowdsourcing. Zawiera on oko?o 10 milionów nazw w wielu j?zykach wskazuj?cych na okre?lone lokalizacje geograficzne. Po znalezieniu miejsca, mo?na pobra? rekord RDF, zobaczy? map?, opis hierarchii administracyjnej i wiele innych ciekawych danych.
MusicBrainz jest otwart? baz? muzyczn?. Rozpocz??a dzia?anie jako otwarta alternatywa dla zamkni?tej bazy CDDB, dzi? jest uniwersaln? baz? danych z informacjami na temat artystów, ich utworów i relacji mi?dzy nimi.
Inne ?ród?a
Istnieje wiele innych, bardziej specjalistycznych ?róde? danych - wystarczy spojrze? na ca?y schemat, którego tylko niewielki fragment jest zilustrowany powy?ej. Wymieni? tylko kilka:
UniProt jest jedn? z wielu baz danych nauk ?cis?ych, które zawieraj? coraz wi?ksz? ilo?? surowych danych naukowych. UniProt zawiera sekwencje bia?ek, podstawowe narz?dzie dla biologów.
KEGG jest to zasób przydatny dla zrozumienia systemów biologicznych, takich jak komórki, organizmy i ekosystemy, z informacji na poziomie molekularnym, szczególnie generowanych na du?? skal? przez sekwencjonowanie genomu i innych technologii wysokiej wydajno?ci.
Data.gov jest scentralizowane miejsce dost?pu do zbiorów danych z wielu bran? i tematów w rz?dzie USA (nie wszystkie s? otwarte).
European Union Open Data Portal jest europejskim odpowiednikiem data.gov, pojedynczy punkt dost?pu do wielu danych z instytucji i innych organów Unii Europejskiej.
New York Times otworzy? swoj? kolekcj? informacji w dzia?ach tematycznych: ludzie, organizacje, lokalizacje itp.
Open Science Data Cloud to serwis zawieraj?cy szereg zestawów danych naukowych, od ca?ego ludzkiego genomu sekwencji do zbiorów danych o zmianach klimatycznych.
Meta witryny
Meta witryny to strony, które zbieraj? informacje o zasobach danych, dost?pie do nich, przegl?dy i statystyki.
LinkedData.org jest stron?, która zbiera i porz?dkuje dane zasobów Linked Data, dostarcza informacji o tych zasobach i ró?ne dane statystyczne. Stan na dzi? to 2122 zestawów danych, 62 miliardów “trójek” RDF z 928 zestawów (ponad 50% zbiorów danych nie ma jeszcze wystarczaj?cej jako?ci)
DataHub to zbiornica linków, która zbiera otwarte zestawy danych. Posiada imponuj?c? liczb? 9000 zestawów, w tym np. z Banku ?wiatowego i Federal Reserve Board w USA. Niestety zawiera du?o spamu, co sugeruje, ?e strona nie jest regularnie utrzymywana. Wszystkie zestawy danych omówione wy?ej s? równie? zarejestrowane w DataHub.
Case study: MusicDB
Organizuj?c swoj? kolekcj? plików mp3 zgranych z p?yt CD by?em cz?sto w rozterce. Pliki mp3 posiada?y mo?liwo?ci zapisania "artysty". Czy Etiud? nr.12 op.10 nale?a?o zapisa? pod has?em Fryderyka Chopina czy W?adimira Aszkenazi ? Nowsza wersja metadanych w plikach mp3 pozwala na umieszczenie etykiet dla kompozytora i wykonawcy, ale piosenka mo?e mie? autora tekstu, napisanego na podstawie wiersza, który ma swojego w?asnego autora, kompozytora muzyki, wokalistk?, muzyków, itd. Gdzie znale?? i jak zorganizowa? takie skomplikowane dane by?o tematem niedawnej prezentacji zatytu?owanej "Budowanie rekordów wzorcowych w u?yciem crowdsourcing i Linked Open Data w ProMusicDB", przedstawionej przez Kimmy Szeto i Christy Cowl na konferencji METRO 2014. Autorzy dyskutowali kwestie zwi?zane z konstrukcj? bazy ProMusicDB (w budowie). Projekt wymaga z?o?onego schematu metadanych aby zapisa? wszystkie niezb?dne informacje, takie jak nazwy i pseudonimy osób zaanga?owanych w tworzenie i wykonywanie utworu, ich role w kreacji i realizacji, szczegó?y studia w którym dokonano nagrania, klasyfikacja utworu, prawa autorskie itp. Informacje te s? rozproszone w wielu miejscach. Niektóre dane s? do znalezienia w wspomnianych ju? DBPedii/Wikipedii i MusicBrains/Discogs. Informacje zbierano z osobistych stron wykonawców a tak?e od ich zwi?zków zawodowych. Agencja ISNI zapewniaj?ca unikalne identyfikatory by?a konsultowana, ale w ko?cu zdecydowano, ?e ProMusicDB stworzy swoje w?asne identyfikatory. Jako inne ?ród?a wykorzystywane by?y np. EIDR (Entertainer Identifier Registry), organizacje takie jak HFA, RIAA, MediaNet, dane szkó? muzycznych i bibliotek itp. Nast?pnym etapem po z??czeniu danych z wielu ?róde? by?o uwierzytelnianie i weryfikacja, by w ko?cu uzyska? autorytatywn? baz? muzyczn?.
Ten przyk?ad pokazuje, ?e chocia? szczegó?owe dane mo?na cz?sto znale?? w formie elektronicznej, s? one rozproszone w ró?nych miejscach i nie s? ?atwe do zintegrowania. Dodatkowo, proste schematy metadanych, takie jak Dublin Core s? niewystarczaj?ce do opisu bardziej z?o?onych zale?no?ci. MADS/RDF, stosunkowo nowy standard metadanych (który zas?uguje na osobn? dyskusj?) jest wykorzystywany przez twórców ProMusicDB jako schemat ontologii do rekordów wzorcowych. Czekamy na otwarcie strony MusicDB aby zobaczy?, jak jego twórcy poradzili sobie z tym z?o?onym procesem zbierania danych.
Ludzie, miejsca, instytucje
Podczas indeksowania zasobów archiwalnych w Instytucie Pi?sudskiego, na szczególn? uwag? zas?uguj? daty, osoby, miejsca i instytucje. Istnieje oczywi?cie wi?cej informacji w archiwalnych dokumentach, i mamy nadziej?, ?e badacze historii potrafi? je odszukac i wykorzysta?, ale do pomocy w znadywalno?ci, kategorie te s? szczególnie atrakcyjne. Daty s? najprostsze, je?li tylko przedstawiane s? w standardowej formie. Nazwy s? jednak cz?sto niejednoznaczne, i dobrze by?oby, aby po??czy? je z rekordami wzorcowymi.
Ludzie
We?my przyk?ad genera?a W?adys?awa Andersa. Gdy cz?owiek, taki jak on, jest znany i napisa? w swoim ?yciu ksi??k?, w VIAF znajdziemy odpowiedni zapis i identyfikator. Podobnie jest z YAGO, o ile tylko uda nam si? przezwyci??y? jego ekscentryczny interfejs, który ma problemy z polskimi znakami diakrytycznymi. Wpiszmy jednak w wyszukiwark? jego brata, pu?kownika Karola Andersa, który nie napisa? ksi??ki, i zarówno VIAF i YAGO nic nie znajduj?. Nie jest to zaskakuj?ce, poniewa? zarówno VIAF i YAGO korzystaj? z tych samych ?róde? danych opieraj?cych si? o katalogi biblioteczne. Natomiast Wikipedia ma wpisy dla W?adys?awa Andersa, a tak?e dla jego obu braci Karola i Tadeusza. Podobnie za?o?yciel Instytutu Pi?sudskiego i emigracyjny dzia?acz spo?eczny (ale nie pisarz), Stefan ?odzieski posiada wpis w Wikipedii, ale nie w VIAF ani YAGO.
Miejsca
Miejsca znajduj? si? cz?sto w VIAF i Yago, zw?aszcza dla wi?kszych obiektów. Dlatego ?ód? i Wolbórz b?dzie mo?na znale?? w VIAF (Yago mo?e te? mie? dane, ale interfejs nie rozpoznaje nazwy), ale nie wie? Borowa, gdzie sp?dza?em letnie wakacje. Tu b?yszczy baza GeoNames. Wpis “Borowa” pokazuje nie tylko mapy, zdj?cia satelitarne, hierarchi? administracyjn? (województwo ?ódzkie, powiat ?odzki wschodni itp.), wspó?rz?dne geograficzne, ale tak?e link do artyku?u w Wikipedii, pe?en zapis RDF i inne formy danych. Takie zród?o danych jest bardzo u?yteczne, szczególnie w obliczu odnajdywania nazw historycznych, które cz?sto zmienia?y si? przez wieki. W GeoNames takie ró?ne nazwy wskazuj? na to samo miejsce na ziemi, np. Juzovka, Hughesovka, Stalino i Donieck maj? ten sam zapis w GeoNames, podczas gdy Wikipedia posiada odno?nik do Walijczyka Johna Hughesa, in?yniera, który za?o?y? to miasto.
Instytucje
VIAF posiada rejestry instytucji, które zosta?y wymienione jako wydawcy ksi??ek, czasopism itp. Instytut Pi?sudskiego wyst?puje jednak w VIAF kilka razy, co sprawia, ?e trudno jest znale?? "poprawny" rekord. Wida? jednak wyniki powolnej pracy nad korekt? danych. W lutym 2013 r., kiedy pisa?em blog o unikalnych identyfikatorach, VIAF mia? 4 rekordy Instytutu, 278200980, 277221969, 262858213 i 151002901. Dzi? trzy z nich wskazuj?ju? na ten sam zapis, a jedynie 262858213 stanowi duplikatem. W Wikipedii jest o wiele mniej prawdopodobne, aby pojawi?y si? takie problemy, poniewa? jest na bie??co aktualizowana. Wikipedia ma tylko jeden wpis dla Instytutu (dla ka?dej wersji j?zykowej), i stron? ujednoznaczniaj?c?, na której wymienione s? inne instytucje o podobnej nazwie.
Podsumowanie
Dziedzina Linked Open Data jest pe?na nowych inicjatyw i modeli danych; ro?nie szybko liczba ?róde? u?ytecznych, wiarygodnych danych. Spe?nienie marzenia twórcy WWW Tima Berners-Lee przekszta?ecenia WWW w Sie? Semantyczn? (Semantic Web) wymaga jednak jeszcze sporo pracy.
Istnieje wiele ?róde? dobrej jako?ci danych, które mog? by? stosowane przez archiwist?. Do identyfikacji osób i instytucji, moim pierwszym wyborem jest Wikipedia (i jej siostrzany projekt DBPedia). Wikipedia jest ci?gle ulepszana i aktualizowana, a b??dy s? korygowane szybko. VIAF jest drugim ?ród?em, które mo?e by? u?yteczne, poniewa? zawiera dane zebrane przez dekady. W ostatnim czasie Wikipedia i VIAF cytuj? si? nawzajem, co pomaga w wyszukaniu w?a?ciwego rekordu. Dla miejsc na ziemi, GeoNames jest ?ród?em z wyboru jako najbardziej kompletna i wysokiej jako?ci baza danych.
Linked Open Data i Sie? Semantyczna ma du?o entuzjastów, którzy stale pracuj? nad nowymi, lepszymi sposobami, aby uzyska? dost?p do danych.
Podejmowane s? te? wysi?ki, aby otworzy? dost?p publiczny do danych , które zosta?y zamkni?te w rz?dowych i firmowych skarbcach. Jest to szczególnie przydatne w naukach ?cis?ych - w niektórych dziedzinach masowo generowane s? terabajty danych. Warto jest przyjrze? si? bli?ej wy?ej wymienionym zasobom i do?wiadczy? pot?gi “Big data”.
Marek Zieli?ski
Artyku? ukazuje si? jednocze?nie w Blogu archiwistów i bibliotekarzy Instytutu Pi?sudskiego
Mo?e Ci? te? zainteresowa?
Poprawiony (czwartek, 15 maja 2014 12:47)





