Naukowy Portal Archiwalny
Oczyszczanie danych z użyciem OpenRefine
Zbieranie metadanych podczas digitalizacji zasobów archiwalnych nie jest prostym zajęciem. Nazwy miejsc, wydarzeń, nazwiska osób wymienianych w dokumentach często różnią się od dzisiejszej pisowni. Nazwy mają różne wersje, aliasy, w dokumentach pojawiają się literówki itp. Co prawda nowoczesne przeszukiwarki jak Google często potrafią rozpoznać często spotykane literówki - jeśli wpiszemy “Kowakski” otrzymamy:
Pokazane są wyniki dla Kowalski
Szukaj zamiast tego Kowakski,
ale działa to najlepiej dla często spotykanych nazw czy imion i dla błędów. W projekcie, w którym chcielibyśmy przedstawić dane jako Linked Open Data, ważne jest mieć czyste dane, bez błędów i z zidentyfikowanymi wersjami, jeśli takie istnieją.
Jako przykład weźmiemy nazwiska (zbieramy także nazwy miejsc, wydarzeń historycznych i inne). Samo imię i nazwisko zwykle nie identyfikuje osoby - może być wiele osób o takim samym imieniu i nazwisku. Kiedy już zidentyfikujemy osobę, często okazuje się, że jej nazwisko występuje w wielu wariantach. Są wersje w różnych językach, osoba mogła używać pseudonimu, przydomka, zmienić nazwisko (przed albo po małżeństwie), dodać tytuły itp. Poddani i obywatele często używają przydomka dla określenie swoich przywódców. Jak znaleźć się w tej gmatwaninie?
Dla osób wymienionych w dokumentach archiwalnych wybraliśmy kilka prostych reguł. Sa one nieco arbitralne, ale służa nam dobrze:
-
Używamy jednego standardowego imienia i nazwiska dla jednej osoby. Nazwiska alternatywne, wersje w innych językach itp. są notowane także, aby ułatwić wyszukiwanie. Używamy wersji polskiej nazwiska, jeśli to możliwe, i wersji używanej w Wikipedii (polskiej lub w innym języku) jeśli jest to stosowne.
-
Zapisujemy dane osoby jako “nazwisko, imię (imiona)” w tej kolejności. Nawet ta prosta reguła powoduje czasem trudności, gdyż nie zawsze jest łatwo określić, która część jest imieniem a która nazwiskiem. Wyjątkiem od tej reguły są osoby publiczne takie jak królowie, papieże itp. Dla których podajemy popularne lub oficjalne brzmiene (Mieszko I, Jan Paweł II itp.)
-
Przypisujemy każdej osobie unikalny identyfikator który generujemy sami. O potrzebie używania unikalnych identyfikatorów mozna więcej przeczytać w blogu, Jeśli to możliwe, korelujemy ten identyfikator z dwoma popularnymi (i w miarę trwałymi) rejestrami: Wikidanymi i VIAF. Spotykamy jednak osoby, o których nikt nie napisał artykułu w Wikipedii w żadnym języku, i w konsekwencji brak im identyfikatora Wikidata. Są osoby które nigdy nie napisały książki i brak jest ich w rejestrze VIAF, który zbiera dane z bibliotek narodowych świata. Dla nich tworzymy krótki opis, dodajemy odnośniki i jak dla innych tworzymy nasz identyfikator.
Następnym etapem jest sprawdzenie zebranych zapisów nazwisk (w chwili obecnej mamy ich około 80 tysięcy) i doprowadzenie ich do standardu. Pracujemy w sekcjach, typowo z danymi jednej kolekcji archiwalnej, ale i tak są to dziesiątki tysięcy rekordów. Można użyć uniwersalne narzędzie - arkusz rozliczeniowy - i wykorzystując takie funkcje jak sortowanie, filtrowanie, wyszukiwanie i zastępowanie wykonać dużą część pracy, Znaleźliśmy jednak bardziej wyspecjalizowany program - OpenRefine - który okazał się być o wiele bardziej przydatny dla wykonania tego zadania. OpeRefine (rozprowadzany jako otwarte oprogramowanie) wyrósł z projektu Google, nazywany wtedy Google Refine (mocno związany z nieistniejącym już projektem Freebase1) i został oddany społeczności otwartego oprogramowania która dalej go udoskonala. OpenRefine został stworzony specjalnie do zadania czyszczenia i udoskonalenia danych.
Poprawiony (czwartek, 20 lipca 2017 16:15)
WŁOCHY: VIII Kongres Archwistów Piemontu i Doliny AostyW dniach 12 i 13 października 2017 r. w miejscowości Torre Pellice (w Prowincji Turyn) odbędzie się VIII Kongres Archiwistów Łuku Alp Zachodnich (Convengo degli Archivisti dell’Arco Alpino Occidentale). Pod pojęciem archiwiści Alp Zachodnich i Doliny Aosty nie należy rozumieć organizacji, lecz spotkania archiwistów Włoch, Szwajcarii i Francji zamieszkujących wspomniany geograficzny region. Kongresy te nie mają regularnego charakteru. Poprzedni odbył się w 2008 r. w miejscowości Susa w Piemoncie. Spotkanie tegoroczne odbędzie się w świątyni wspólnoty Waldensów (Tavola valdese) pod hasłem „Archiwa w centrum spuścizny kulturalnej” (Gli archivi al centro del patrimonio culturale) z podtytułem „Opisać i ocenić całościowo spuściznę kulturalną jako wytwór jednostek organizacyjnych i relacji pomiędzy nimi” ( Descrivere e mettere in valore eredità Poprawiony (niedziela, 03 września 2017 09:53)
Czechy: Nowe archiwalia na liście Archiwalnych Pomników KulturyDnia 14 lipca 2017 r. Ministerstwo Spraw Wewnętrznych Republiki Czeskiej zdecydowało o uznaniu pięciu zbiorów najcenniejszych materiałów archiwalnych z Archiwum Miasta Pilzna za Archiwalne Pomniki Kultury, zgodnie z art. 21 ust. 4 ustawy nr 499/2004 o archiwistyce i zarządzaniu dokumentacją z późniejszymi zmianami. Decyzję w tej sprawie podjęto na wniosek Archiwum Miasta Pilzna, zatwierdzony przez Radę Miasta Pilzna 6 kwietnia 2017 r. (uchwała nr 73). Poprawiony (poniedziałek, 21 sierpnia 2017 17:17)
MRA: Program wsparcia zawodowego dla archiwistówMiędzynarodowa Rada Archiwów ogłosiła konkurs na „nowych profesjonalistów” w dziedzinie archiwistyki i zarządzania dokumentacją. Zaapelowano o wybór nowych zawodowców, którzy mogliby stać się mentorami dla międzynarodowych konferencji i kongresów rady. Programme Nouveaux Professionnels / New Professionals Programme funkcjonuje jako grupa ekspercka Komisji Programowej MRA (PCOM) od Kongresu w Brisbane w 2012 r. Celem projektu jest wyłonienie 6 kandydatów na kierowników/mentorów nazywanych „aktywnymi nowymi zawodowcami”, którzy byliby w stanie wspierać i koordynować różne obszary branżowe i tematyczne MRA podczas konferencji i kongresów. Udział takich osób w konferencjach i kongresach finansowany byłby przez MRA, a ich kadencja trwałaby około 1 roku (12 – 14 miesięcy). Obecnie wybrane osoby wsparłyby doroczną konferencję MRA w Meksyku w dniach 25 – 29 listopada 2017 r. Ich zadaniem będzie pomoc w orientacji programowej konferencji, odpowiedzi na pytania praktyczne i działania w czasie konferencji, gdy będą pracowały różne branże, sekcje i grupy eksperckie. Wyłonionych sześć osób powinno pochodzić z różnych kontynentów. Mile widziany byłoby także udział w dotychczasowych konferencjach lub kongresach. Adresatami programu są także osoby, które w przeszłości brały udział w pracach różnych metodycznych ciał MRA takich, jak Komisja Programowa, branże regionalne, sekcje i komitety. Istotnym jest, aby osoby te przenosiły informacje pomiędzy ciałami MRA, wspomagały organizacje konferencji i kongresów, ale także wypracowane propozycje działań przenosiły do swoich środowisk. Poprawiony (piątek, 04 sierpnia 2017 13:16)
UKRAINA: Mormoni pomagają archiwom ukraińskimDzięki pomocy Kościoła Jezusa Chrystusa Świętych w Dniach Ostatnich (Church of Jesus Christ of Latter-day Saints), ukraińskie archiwa państwowe pozyskały kopie cyfrowe utraconych materiałów archiwalnych z terenu obwodu donieckiego (sam Donieck od 2014 r. znajduje się na terytorium samozwańczej Donieckiej Republiki Ludowej). Wiecej: oprac. Edyta Łaborewicz, Poprawiony (wtorek, 01 sierpnia 2017 15:26) |





