Naukowy Portal Archiwalny

Oczyszczanie danych z użyciem OpenRefine

OpenRefineZbieranie metadanych podczas digitalizacji zasobów archiwalnych nie jest prostym zajęciem. Nazwy miejsc, wydarzeń, nazwiska osób wymienianych w dokumentach często różnią się od dzisiejszej pisowni. Nazwy mają różne wersje, aliasy, w dokumentach pojawiają się literówki itp. Co prawda nowoczesne przeszukiwarki jak Google często potrafią rozpoznać często spotykane literówki - jeśli wpiszemy “Kowakski” otrzymamy:

Pokazane są wyniki dla Kowalski
Szukaj zamiast tego Kowakski,

ale działa to najlepiej dla często spotykanych nazw czy imion i dla błędów. W projekcie, w którym chcielibyśmy przedstawić dane jako Linked Open Data, ważne jest mieć czyste dane, bez błędów i z zidentyfikowanymi wersjami, jeśli takie istnieją.

Jako przykład weźmiemy nazwiska (zbieramy także nazwy miejsc, wydarzeń historycznych i inne). Samo imię i nazwisko zwykle nie identyfikuje osoby - może być wiele osób o takim samym imieniu i nazwisku. Kiedy już zidentyfikujemy osobę, często okazuje się, że jej nazwisko występuje w wielu wariantach. Są wersje w różnych językach, osoba mogła używać pseudonimu, przydomka, zmienić nazwisko (przed albo po małżeństwie), dodać tytuły itp. Poddani i obywatele często używają przydomka dla określenie swoich przywódców. Jak znaleźć się w tej gmatwaninie?

Dla osób wymienionych w dokumentach archiwalnych wybraliśmy kilka prostych reguł. Sa one nieco arbitralne, ale służa nam dobrze:

  1. Używamy jednego standardowego imienia i nazwiska dla jednej osoby. Nazwiska alternatywne, wersje w innych językach itp. są notowane także, aby ułatwić wyszukiwanie. Używamy wersji polskiej nazwiska, jeśli to możliwe, i wersji używanej w Wikipedii (polskiej lub w innym języku) jeśli jest to stosowne.

  2. Zapisujemy dane osoby jako “nazwisko, imię (imiona)” w tej kolejności. Nawet ta prosta reguła powoduje czasem trudności, gdyż nie zawsze jest łatwo określić, która część jest imieniem a która nazwiskiem. Wyjątkiem od tej reguły są osoby publiczne takie jak królowie, papieże itp. Dla których podajemy popularne lub oficjalne brzmiene (Mieszko I, Jan Paweł II itp.)

  3. Przypisujemy każdej osobie unikalny identyfikator który generujemy sami. O potrzebie używania unikalnych identyfikatorów mozna więcej przeczytać w blogu, Jeśli to możliwe, korelujemy ten identyfikator z dwoma popularnymi (i w miarę trwałymi) rejestrami: Wikidanymi i VIAF. Spotykamy jednak osoby, o których nikt nie napisał artykułu w Wikipedii w żadnym języku, i w konsekwencji brak im identyfikatora Wikidata. Są osoby które nigdy nie napisały książki i brak jest ich w rejestrze VIAF, który zbiera dane z bibliotek narodowych świata. Dla nich tworzymy krótki opis, dodajemy odnośniki i jak dla innych tworzymy nasz identyfikator.

Następnym etapem jest sprawdzenie zebranych zapisów nazwisk (w chwili obecnej mamy ich około 80 tysięcy) i doprowadzenie ich do standardu. Pracujemy w sekcjach, typowo z danymi jednej kolekcji archiwalnej, ale i tak są to dziesiątki tysięcy rekordów. Można użyć uniwersalne narzędzie - arkusz rozliczeniowy - i wykorzystując takie funkcje jak sortowanie, filtrowanie, wyszukiwanie i zastępowanie wykonać dużą część pracy, Znaleźliśmy jednak bardziej wyspecjalizowany program - OpenRefine - który okazał się być o wiele bardziej przydatny dla wykonania tego zadania. OpeRefine (rozprowadzany jako otwarte oprogramowanie) wyrósł z projektu Google, nazywany wtedy Google Refine (mocno związany z nieistniejącym już projektem Freebase1) i został oddany społeczności otwartego oprogramowania która dalej go udoskonala. OpenRefine został stworzony specjalnie do zadania czyszczenia i udoskonalenia danych.

Poprawiony (czwartek, 20 lipca 2017 16:15)

Więcej…

 

WŁOCHY: VIII Kongres Archwistów Piemontu i Doliny Aosty

W dniach 12 i 13 października 2017 r. w miejscowości Torre Pellice (w Prowincji Turyn) odbędzie się VIII Kongres Archiwistów Łuku Alp Zachodnich (Convengo degli Archivisti dell’Arco Alpino Occidentale). Pod pojęciem archiwiści Alp Zachodnich i Doliny Aosty nie należy rozumieć organizacji, lecz spotkania archiwistów Włoch, Szwajcarii i Francji zamieszkujących wspomniany geograficzny region. Kongresy te nie mają regularnego charakteru. Poprzedni odbył się w 2008 r. w miejscowości Susa w Piemoncie. Spotkanie tegoroczne odbędzie się w świątyni wspólnoty Waldensów (Tavola valdese) pod hasłem „Archiwa w centrum spuścizny kulturalnej” (Gli archivi al centro del patrimonio culturale) z podtytułem „Opisać i ocenić całościowo spuściznę kulturalną jako wytwór jednostek organizacyjnych i relacji pomiędzy nimi” ( Descrivere e mettere in valore eredità
culturali complesse come prodotto di soggetti plurali e delle loro relazioni). Już w styczniu 2017 r. organizatorzy z poszczególnych krajów zwrócili się do swoich środowisk archiwistycznych o nadsyłanie propozycji wystąpień.

Poprawiony (niedziela, 03 września 2017 09:53)

Więcej…

 

Czechy: Nowe archiwalia na liście Archiwalnych Pomników Kultury

Dnia 14 lipca 2017 r. Ministerstwo Spraw Wewnętrznych Republiki Czeskiej zdecydowało o uznaniu pięciu zbiorów najcenniejszych materiałów archiwalnych z Archiwum Miasta Pilzna za Archiwalne Pomniki Kultury, zgodnie z art. 21 ust. 4 ustawy nr 499/2004 o archiwistyce i zarządzaniu dokumentacją z późniejszymi zmianami. Decyzję w tej sprawie podjęto na wniosek Archiwum Miasta Pilzna, zatwierdzony przez Radę Miasta Pilzna 6 kwietnia 2017 r. (uchwała nr 73).
Materiały archiwalne można uznać za Archiwalny Pomnik Kultury (AKP), jeśli ze względu na swoje pochodzenie, zawartość, formę, twórcę lub cechy zewnętrzne, lub z uwagi na unikalności albo oryginalności, mają znaczenie dla historii ogólnej, narodowej lub regionalnej. Materiały takie mogą być przechowywane w archiwach państwowych lub innych instytucjach kulturalno-naukowych (muzeach, galeriach, instytutach naukowych i uczelniach), które składają w ich sprawie specjalne wnioski o wpisanie na listę AKP. Lista ta jest ważnym narzędziem w zakresie ochrony i promocji narodowego dziedzictwa archiwalnego. Posiadanie na niej swoich zbiorów to przede wszystkim wielki prestiż, noszący jednak ze sobą i pewne ograniczenia oraz specjalne regulacje w odniesieniu do przechowywania tychże materiałów.

Poprawiony (poniedziałek, 21 sierpnia 2017 17:17)

Więcej…

 

MRA: Program wsparcia zawodowego dla archiwistów

Międzynarodowa Rada Archiwów ogłosiła konkurs na „nowych profesjonalistów” w dziedzinie archiwistyki i zarządzania dokumentacją. Zaapelowano o wybór nowych zawodowców, którzy mogliby stać się mentorami dla międzynarodowych konferencji i kongresów rady.

Programme Nouveaux Professionnels / New Professionals Programme funkcjonuje jako grupa ekspercka Komisji Programowej MRA (PCOM) od Kongresu w Brisbane w 2012 r.

Celem projektu jest wyłonienie 6 kandydatów na kierowników/mentorów nazywanych „aktywnymi nowymi zawodowcami”, którzy byliby w stanie wspierać i koordynować różne obszary branżowe i tematyczne MRA podczas konferencji i kongresów. Udział takich osób  w konferencjach i kongresach finansowany byłby przez MRA, a ich kadencja trwałaby około 1 roku (12 – 14 miesięcy). Obecnie wybrane osoby wsparłyby doroczną konferencję MRA w Meksyku w dniach 25 – 29 listopada 2017 r. Ich zadaniem będzie pomoc w orientacji programowej konferencji, odpowiedzi na pytania praktyczne i działania w czasie konferencji, gdy będą pracowały różne branże, sekcje i grupy eksperckie. Wyłonionych sześć osób powinno pochodzić z różnych kontynentów. Mile widziany byłoby także udział w dotychczasowych konferencjach lub kongresach. Adresatami programu są także osoby, które w przeszłości brały udział w pracach różnych metodycznych ciał MRA takich, jak Komisja Programowa, branże regionalne, sekcje i komitety. Istotnym jest, aby osoby te przenosiły informacje pomiędzy ciałami MRA, wspomagały organizacje konferencji i kongresów, ale także wypracowane propozycje działań przenosiły do swoich środowisk.

Poprawiony (piątek, 04 sierpnia 2017 13:16)

Więcej…

 

UKRAINA: Mormoni pomagają archiwom ukraińskim

Dzięki pomocy Kościoła Jezusa Chrystusa Świętych w Dniach Ostatnich (Church of Jesus Christ of Latter-day Saints), ukraińskie archiwa państwowe pozyskały kopie cyfrowe utraconych materiałów archiwalnych z terenu obwodu donieckiego (sam Donieck od 2014 r. znajduje się na terytorium samozwańczej Donieckiej Republiki Ludowej).
Szefowa Państwowej Służby Archiwalnej Ukrainy, Tatiana Baranowa, spotkała się 8 czerwca 2017 r. z przedstawicielami organizacji FamilySearch (wcześniej: Towarzystwo Genealogiczne Stanu Utah; największa na świecie organizacja zajmująca się genealogią, zarządzana przez Kościół Jezusa Chrystusa Świętych w Dniach Ostatnich). W trakcie spotkania wiceprezes organizacji, Wayne Metcalfe, przekazał kopie cyfrowe materiałów o charakterze genealogicznym z archiwów obwodu donieckiego, wykonane w latach 1994-2011 w ramach wspólnego projektu Towarzystwa Genealogicznego i Archiwum Państwowego Obwodu Donieckiego. Dzięki pomocy FamilySearch, instytucje archiwalne na Ukrainie będą w stanie przynajmniej częściowo przywrócić możliwość korzystania z tymczasowo utraconych dokumentów, a obywatele Ukrainy i innych krajów prowadzić badania nad swoim pochodzeniem.
Cały zasób Archiwum Państwowego Obwodu Donieckiego, wraz z cyfrowymi kopiami zabezpieczającymi, pozostał na miejscu w Doniecku, na terenach nie kontrolowanych obecnie przez państwo ukraińskie.

Wiecej:
Archiwa Ukrainy

Family Search

oprac. Edyta Łaborewicz,
AP Wrocław O/Legnica

Poprawiony (wtorek, 01 sierpnia 2017 15:26)

 
Instytut Józefa Piłsudskiego


Instytut
Józefa Piłsudskiego
w Ameryce

Dawne pismo


Archiwum Narodowe
w Krakowie

Ogłoszenia




NOMA
Norma opisu materiałów archiwalnych
w archiwach państwowych
dostepna na stronie NDAP

SEJM RP

23 września 2015 r.
ogłosił jednolity tekst ustawy
o narodowym zasobie
archiwalnym i archiwach

(Dz.U. z 2016 poz.352)

Słowniki archiwalne

A Glossary

of
Archival and Records
Terminology

SAA
Online Glossary

Online-Lexikon „Terminologie der Archivwissenschaft“
Terminologie der Archivwissenschaft
Online-Lexikon


Portail International Archivistique Francophone

Portail International
Archivistique Francophone
On-Line Glossaire


ICA
Multilingual
Archival Terminology