Linked Data cz. 2: gdzie s? dane?

linked-data280
Fragment diagramu Linked Data z portalu LinkedData.org

Linked Data jest stosunkowo nowym zjawiskiem w sieci WWW, ide? dost?pu do danych strukturalnych. Co to s? dane strukturalne? WWW jest uniwersalnym no?nikiem informacji czytelnej dla cz?owieka - wszystkie strony internetowe, artyku?y, aplikacje daj? nam informacje, które mo?emy odczyta? i zinterpretowa?, na przyk?ad pytanie: "kiedy przyjedzie nast?pny tramwaj?” i odpowied?; “za 10 minut". Takie pytanie i odpowied? nie s? jednak ?atwe do odczytania przez komputery, które potrzebuj? informacji w ?cis?ej strukturze: (“Numer przystanku: 4398, linia tramwajowa: 11, odleg?o?? od przystanku: 0.8 km, itp.)

Informacja jest zwykle zapisana w bazach danych, które po wielu latach udoskonalania s? bardzo wydajne w przechowywaniu i wyszukiwaniu danych, ale fatalne w wymianie informacji. Ka?da baza danych zawiera wiele kolumn, nazywanych raczej dowolnie i tylko lokalny system komputerowy umie z niej wyci?gn?? dane. Nowy koncept, Linked Data, przybywa tutaj z pomoc?. Schemat metadanych Linked Data, o nazwie  RDF (Resource Description Framework, struktura opisu zasobów), wymaga, aby dane nie by?y prezentowane w trudnych do odcyfrowania tabelach, ale w prostych zdaniach, sk?adaj?cy si? z podmiotu, orzeczenia i dope?nienia. Zamiast wymy?lonych nazw kolumn u?ywamy nazw standardowych, a zamiast nazwy podmiotu u?ywamy jego identyfikator URI (Universal Resource Identifier, uniwersalny identyfikator zasobu). Przyk?adowo, trywialna dla cz?owieka informacja o tytule tego blogu (przecie? mo?emy przeczyta? go powy?ej, prawda?) zamienia si? w zdanie albo “trójk?” w slangu RDF [1) www.archiwa.net/index.php?option=com_content&view=article&id=593&catid=95:blog&Itemid=42, 2)  dc:title, 3) "Linked Data cz. 2: gdzie s? dane?"]. Pierwsza cz??? to adres URI jednoznacznie wskazuj?cy na ten artyku?, druga to "tytu?” w konkretnym standardzie metadanych (Dublin Core), a trzecia cz??? to tekst tytu?u.


Wi?cej o szczegó?ach Linked Data i RDF znajdziecie w pierwszym artykule z tej serii,: "Wst?p do Linked Data". W tym blogu chcia?bym skupi? si? na konkretnych ?ród?ach danych dost?pnych obecnie na stronach WWW, nad tym jak je znale?? i co one zawieraj?. W procesie digitalizacji archiwów cz?sto poszukujemy odno?nika do nazw, miejsc, organizacji lub zdarze?, który by?by stabilny i dost?pny. Je?li pojawia si? nazwisko, np. Karol Anders, czy mo?emy znale?? ?ród?o, które b?dzie jednoznacznie wskazywa? na rekord tej osoby? Z oczywistych powodów b?dziemy omawia? tylko te ?ród?a danych, które s? publicznie dost?pne. Link, który opublikujemy na stronie internetowej, otwartej dla ka?dego czytelnika, nie mo?e prowadzi? do zasobu, który nie jest dost?pny dla tego czytelnika. B?dziemy analizowa? nie wszystkie Linked Data, a otwarte Linked Open Data. Ilustracja powy?ej pokazuje ma?y fragment ogromnej sieci Linked Open Data, poni?ej kilka wybranych  ?róde? z wyszczególnieniem tych u?ytecznych dla archiwisty i bibliotekarza.

?ród?a danych Linked Open Data

Popularne zasoby danych

DBPedia

DBPedia jest centralnym zasobem Linked Open Data. Jej ?ród?em danych jest Wikipedia; ale informacje DBPedia s? ustrukturyzowana, jak w typowej bazie danych. Prace nad budow? DBpedii s? w toku, i zale?? w du?ej mierze od wk?adu wolontariuszy w udoskonalanie artyku?ów Wikipedii, dodaj?cych Infoboksy i inne dane strukturalne. DBPedi? mo?na uzna? za inne spojrzenie na dane w Wikipedii, z mo?liwo?ci? wykonywania z?o?onych zapyta? - ma ona za sob? ca?? moc i wszechstronno?? Wikipedii.

VIAF

VIAF (Virtual International Authority File) jest oparta na zasobach “kontroli autorytatywnej” wielu bibliotek w wielu krajach, od Biblioteki Kongresu (USA) do biblioteki w Aleksandrii (Egipt). Rekordy wzorcowe autorów, wydawców itp. s? gromadzone  w bibliotekarstwie przez wieki i s? naturalnym ?ród?em w miar? wiarygodnych informacji na temat osób, organizacji i miejsc.

YAGO

YAGO, opracowany w Instytucie Informatyki Maxa Plancka w Saarbrücken, jest integratorem informacji zebranych z Wikipedii, WordNet i GeoNames. Yago zapewnia spójny interfejs i posiada wiele przydatnych narz?dzi, np. ciekaw? wizualizacj? danych w postaci diagramu RDF. Jest równie? powi?zane z DBPedi?.

GeoNames

GeoNames jest to baza danych geograficznych, dost?pnych bezpo?rednio a tak?e za po?rednictwem ró?nych us?ug internetowych, udost?pniona na podstawie licencji Creative Commons. Dane pochodz? z oficjalnych ?róde? publicznych, a tak?e jako wynik crowdsourcing. Zawiera on oko?o 10 milionów nazw w wielu j?zykach wskazuj?cych na okre?lone lokalizacje geograficzne. Po znalezieniu miejsca, mo?na pobra? rekord RDF, zobaczy? map?, opis hierarchii administracyjnej i wiele innych ciekawych danych.

MusicBrainz

MusicBrainz jest otwart? baz? muzyczn?. Rozpocz??a dzia?anie jako otwarta alternatywa dla zamkni?tej bazy CDDB, dzi? jest uniwersaln? baz? danych z informacjami na temat artystów, ich utworów i relacji mi?dzy nimi.

Inne ?ród?a

Istnieje wiele innych, bardziej specjalistycznych ?róde? danych - wystarczy spojrze? na ca?y schemat, którego tylko niewielki fragment jest zilustrowany powy?ej. Wymieni? tylko kilka:

UniProt jest jedn? z wielu baz danych nauk ?cis?ych, które zawieraj? coraz wi?ksz? ilo?? surowych danych naukowych. UniProt zawiera sekwencje bia?ek, podstawowe narz?dzie dla biologów.

KEGG jest to zasób przydatny dla zrozumienia systemów biologicznych, takich jak komórki, organizmy i ekosystemy, z informacji na poziomie molekularnym, szczególnie generowanych na du?? skal? przez sekwencjonowanie genomu i innych technologii wysokiej wydajno?ci.

Data.gov jest scentralizowane miejsce dost?pu do zbiorów danych z wielu bran? i tematów w rz?dzie USA (nie wszystkie s? otwarte).

European Union Open Data Portal jest europejskim odpowiednikiem data.gov, pojedynczy punkt dost?pu do wielu danych z instytucji i innych organów Unii Europejskiej.

New York Times otworzy? swoj? kolekcj? informacji w dzia?ach tematycznych: ludzie, organizacje, lokalizacje itp.

Open Science Data Cloud to serwis zawieraj?cy szereg zestawów danych naukowych, od ca?ego ludzkiego genomu sekwencji do zbiorów danych o zmianach klimatycznych.

Meta witryny

Meta witryny to strony, które zbieraj? informacje o zasobach danych, dost?pie do nich, przegl?dy i statystyki.

LinkedData.org jest stron?, która zbiera i porz?dkuje dane zasobów Linked Data, dostarcza informacji o tych zasobach i ró?ne dane statystyczne. Stan na dzi? to  2122 zestawów danych, 62 miliardów “trójek” RDF z 928 zestawów (ponad 50% zbiorów danych nie ma jeszcze wystarczaj?cej jako?ci)

DataHub  to zbiornica linków, która zbiera otwarte zestawy danych. Posiada imponuj?c? liczb? 9000 zestawów, w tym np. z Banku ?wiatowego i Federal Reserve Board w USA. Niestety zawiera du?o spamu, co sugeruje, ?e strona nie jest regularnie utrzymywana. Wszystkie zestawy danych omówione wy?ej s? równie? zarejestrowane w DataHub.

Case study: MusicDB

Organizuj?c swoj? kolekcj? plików mp3 zgranych z p?yt CD by?em cz?sto w rozterce. Pliki mp3 posiada?y mo?liwo?ci zapisania "artysty". Czy Etiud? nr.12 op.10  nale?a?o zapisa? pod has?em Fryderyka Chopina czy W?adimira Aszkenazi ? Nowsza wersja metadanych w plikach mp3 pozwala na umieszczenie etykiet dla kompozytora i wykonawcy, ale piosenka mo?e mie? autora tekstu, napisanego na podstawie wiersza, który ma swojego w?asnego autora, kompozytora muzyki, wokalistk?, muzyków, itd. Gdzie znale?? i jak zorganizowa? takie skomplikowane dane by?o tematem niedawnej prezentacji zatytu?owanej "Budowanie rekordów wzorcowych w u?yciem crowdsourcing i Linked Open Data w ProMusicDB", przedstawionej  przez Kimmy Szeto i Christy Cowl na konferencji METRO 2014. Autorzy dyskutowali kwestie zwi?zane z konstrukcj? bazy ProMusicDB (w budowie). Projekt wymaga z?o?onego schematu metadanych aby zapisa? wszystkie niezb?dne informacje, takie jak nazwy i pseudonimy osób zaanga?owanych w tworzenie i wykonywanie utworu, ich role w kreacji i realizacji, szczegó?y studia w którym dokonano nagrania, klasyfikacja utworu, prawa autorskie itp. Informacje te s? rozproszone w wielu miejscach. Niektóre dane s? do znalezienia w wspomnianych ju?  DBPedii/Wikipedii i MusicBrains/Discogs. Informacje zbierano z osobistych stron wykonawców a tak?e od ich zwi?zków zawodowych. Agencja ISNI zapewniaj?ca unikalne identyfikatory by?a konsultowana, ale w ko?cu zdecydowano, ?e ProMusicDB stworzy swoje w?asne identyfikatory. Jako inne ?ród?a wykorzystywane by?y np.  EIDR (Entertainer Identifier Registry), organizacje takie jak HFA, RIAA, MediaNet, dane szkó? muzycznych i bibliotek itp. Nast?pnym etapem po z??czeniu danych z wielu ?róde?  by?o uwierzytelnianie i weryfikacja, by w ko?cu uzyska? autorytatywn? baz? muzyczn?.

Ten przyk?ad pokazuje, ?e chocia? szczegó?owe dane mo?na cz?sto znale?? w formie elektronicznej, s? one rozproszone w ró?nych miejscach i nie s? ?atwe do zintegrowania. Dodatkowo, proste schematy metadanych, takie jak Dublin Core s? niewystarczaj?ce do opisu bardziej z?o?onych  zale?no?ci. MADS/RDF, stosunkowo nowy standard metadanych (który zas?uguje na osobn? dyskusj?) jest wykorzystywany przez twórców ProMusicDB jako schemat ontologii do rekordów wzorcowych. Czekamy na otwarcie strony MusicDB aby zobaczy?, jak jego twórcy poradzili sobie z tym z?o?onym procesem zbierania danych.

Ludzie, miejsca, instytucje

Podczas indeksowania zasobów archiwalnych w Instytucie Pi?sudskiego, na  szczególn? uwag? zas?uguj? daty, osoby, miejsca i instytucje. Istnieje oczywi?cie wi?cej informacji w archiwalnych dokumentach, i mamy nadziej?, ?e badacze historii potrafi? je odszukac i wykorzysta?, ale do pomocy w znadywalno?ci, kategorie te s? szczególnie atrakcyjne. Daty s? najprostsze, je?li tylko  przedstawiane s? w standardowej formie. Nazwy s? jednak cz?sto niejednoznaczne, i dobrze by?oby, aby po??czy? je z rekordami wzorcowymi.

Ludzie

We?my przyk?ad genera?a W?adys?awa Andersa. Gdy cz?owiek, taki jak on, jest znany i napisa? w swoim ?yciu ksi??k?, w VIAF znajdziemy odpowiedni zapis i identyfikator. Podobnie jest z YAGO, o ile tylko uda nam si? przezwyci??y? jego ekscentryczny interfejs, który ma problemy z polskimi znakami diakrytycznymi. Wpiszmy jednak w wyszukiwark? jego brata, pu?kownika Karola Andersa, który nie napisa? ksi??ki, i zarówno VIAF i YAGO nic nie znajduj?. Nie jest to zaskakuj?ce, poniewa? zarówno VIAF i YAGO korzystaj? z tych samych ?róde? danych opieraj?cych si? o katalogi biblioteczne. Natomiast Wikipedia ma wpisy dla W?adys?awa Andersa, a tak?e dla jego obu braci Karola i Tadeusza. Podobnie za?o?yciel Instytutu Pi?sudskiego i emigracyjny dzia?acz spo?eczny (ale nie pisarz), Stefan ?odzieski posiada wpis w Wikipedii, ale nie w VIAF ani YAGO.

Miejsca

Miejsca znajduj? si? cz?sto w VIAF i Yago, zw?aszcza dla wi?kszych obiektów. Dlatego ?ód? i Wolbórz b?dzie mo?na znale?? w VIAF (Yago mo?e te? mie? dane, ale interfejs nie rozpoznaje nazwy), ale nie wie? Borowa, gdzie sp?dza?em letnie wakacje. Tu b?yszczy baza GeoNames. Wpis “Borowa” pokazuje nie tylko mapy, zdj?cia satelitarne, hierarchi? administracyjn? (województwo ?ódzkie, powiat ?odzki wschodni itp.), wspó?rz?dne geograficzne, ale tak?e link do artyku?u w Wikipedii, pe?en zapis RDF i inne formy danych. Takie zród?o danych jest bardzo u?yteczne, szczególnie w obliczu odnajdywania nazw historycznych, które cz?sto zmienia?y si? przez wieki. W GeoNames takie ró?ne nazwy wskazuj? na to samo miejsce na ziemi, np. Juzovka, Hughesovka, Stalino i Donieck maj? ten sam zapis w GeoNames, podczas gdy Wikipedia posiada odno?nik do Walijczyka Johna Hughesa, in?yniera, który za?o?y? to miasto.

Instytucje

VIAF posiada rejestry instytucji, które zosta?y wymienione jako wydawcy ksi??ek, czasopism itp. Instytut Pi?sudskiego wyst?puje jednak w VIAF kilka razy, co sprawia, ?e trudno jest znale?? "poprawny" rekord. Wida? jednak wyniki powolnej pracy nad korekt? danych. W lutym 2013 r., kiedy pisa?em blog o unikalnych identyfikatorach, VIAF mia? 4 rekordy Instytutu, 278200980, 277221969, 262858213 i 151002901. Dzi? trzy z nich wskazuj?ju?  na ten sam zapis, a jedynie 262858213 stanowi duplikatem. W Wikipedii jest o wiele mniej prawdopodobne, aby pojawi?y si? takie problemy, poniewa? jest na bie??co aktualizowana. Wikipedia ma tylko jeden wpis dla Instytutu (dla ka?dej wersji j?zykowej), i stron? ujednoznaczniaj?c?, na której wymienione s? inne instytucje o podobnej nazwie.

Podsumowanie

Dziedzina Linked Open Data jest pe?na nowych inicjatyw i modeli danych; ro?nie szybko liczba ?róde? u?ytecznych, wiarygodnych danych. Spe?nienie marzenia twórcy WWW Tima Berners-Lee przekszta?ecenia WWW w Sie? Semantyczn?  (Semantic Web) wymaga jednak jeszcze sporo pracy.

Istnieje wiele ?róde? dobrej jako?ci danych, które mog? by? stosowane przez archiwist?. Do identyfikacji osób i instytucji, moim pierwszym wyborem jest Wikipedia (i jej siostrzany projekt DBPedia). Wikipedia jest ci?gle ulepszana i aktualizowana, a b??dy s? korygowane szybko. VIAF jest drugim ?ród?em, które mo?e by? u?yteczne, poniewa? zawiera dane zebrane przez dekady. W ostatnim czasie Wikipedia i VIAF cytuj? si? nawzajem, co pomaga w wyszukaniu w?a?ciwego rekordu. Dla miejsc na ziemi, GeoNames jest ?ród?em z wyboru jako najbardziej kompletna i wysokiej jako?ci baza danych.

Linked Open Data i Sie? Semantyczna ma du?o entuzjastów, którzy stale pracuj? nad nowymi, lepszymi sposobami, aby uzyska? dost?p do danych.

Podejmowane s? te? wysi?ki, aby otworzy? dost?p publiczny do danych , które zosta?y zamkni?te w rz?dowych i firmowych skarbcach. Jest to szczególnie przydatne w naukach ?cis?ych - w niektórych dziedzinach masowo generowane s? terabajty danych. Warto jest przyjrze? si? bli?ej wy?ej wymienionym zasobom i do?wiadczy? pot?gi  “Big data”.

Marek Zieli?ski

Artyku? ukazuje si? jednocze?nie w Blogu archiwistów i bibliotekarzy Instytutu Pi?sudskiego

Mo?e Ci? te? zainteresowa?

Poprawiony (czwartek, 15 maja 2014 12:47)

 
Menu g?ówne
ARCHIWA UKRAINY

Bezpo?rednie wsparcie
dla archiwów Ukrainy

Support Heritage
in Ukraine


za po?rednictwem
Museum & Archives
GALT
szczegó?y


Dawne pismo


Archiwum Narodowe
w Krakowie

Instytut Józefa Pi?sudskiego


Instytut
Józefa Pi?sudskiego
w Ameryce

NOMA

NOMA
Norma opisu materia?ów archiwalnych
w archiwach pa?stwowych
dost?pna na stronie NDAP

Powszechna Deklaracja
o Archiwach

S?owniki archiwalne

A Glossary

of
Archival and Records
Terminology

SAA
Online Glossary

Online-Lexikon „Terminologie der Archivwissenschaft“
Terminologie der Archivwissenschaft
Online-Lexikon


Portail International Archivistique Francophone


Portail International
Archivistique Francophone
On-Line Glossaire


ICA
Multilingual
Archival Terminology