Semantic web, social media – SemantycznyWeb

DBpedia od środka cz. 1 – Knowledge Extraction Framework

przez admin dnia paź.10, 2010, w Ogólnie

Czy zastanawiał się ktoś z Was jak działa cały „mechanizm” DBpedii ? Słowem krótkiego wstępu przypomnę, że DBpedia to ustrukturalizowana Wikipedia. Jest to projekt, którego celem jest przekształcenie „zwykłego tekstu” z baz danych Wikipedii rozumianego tylko i wyłącznie przez człowieka, w bazę wiedzy, z której pożytek będą miały także „maszyny” np. semantyczne aplikacje ery Web 3.0.

Na początku artykułu (czyli w części pierwszej) przedstawię tzw. Knowledge Extraction Framework czyli opis tego w jaki sposób DBpedia „dobiera” się do danych Wikipedii i co z nimi robi. W kolejnych częściach opisane zostaną tzw. Infoboxy, czyli szablony zapisu danych Wikipedii, trochę o zapisie danych w bazie wiedzy DBpedii, aplikacjach korzystających z jej dobrodziejstw oraz kilku innych ciekawostkach…


Najważniejsza część mechanizmu składa się z 4 komponentów (ilustracja na końcu artykułu!):

  • PageCollections
  • Extractors
  • Parsers
  • Destinations

PageCollections to lokalne lub zdalne źródła artykułów Wikipedii. To tutaj zaczyna się cały przebieg pracy (work-flow). Ekstraktor danych pobiera nowe informacje na 2 różne sposoby: Dump-based extraction oraz Live Extraction.
Wydobywanie typu „Dump-based” polega na comiesięcznym przetwarzaniu zrzutów bazy danych Wikipedii. Przetworzone dane są umieszczane w tzw. N-Triples Serializers. Zapisane w postaci trójek RDF dostępne są jako Lined Data oraz możliwe do przetwarzania przez endpointy SPARQL.
Wydobywanie typu „Live Extraction” polega na tym, że fundacja Wikimedia udostępnia projektowi DBpedia dostęp do Wikipedia OAI-PMH live feed (protokół OAI-PMH), który na bieżąco informuje o zmianach jakie zachodzą na wszystkich stronach Wikipedii. Gdy wystąpi jakaś zmiana w istniejącym już artykule Wikipedii, istniejący graf RDF zostaje zaktualizowany (SPARQL-Update Destination).
Według danych DBpedii z maja 2009 roku, co 1 sekundę około 1.4 stron Wikipedii zostaje zaktualizowanych. Knowledge Extraction Framework DBpedii był w stanie w tym czasie (1 sekundy) przetworzyć około 8.8 stron, włączając w to wszystkie etapy, o których w dalszej części artykułu.
Pomiędzy miejscami docelowymi (Destinations), a źródłami (PageCollections) istnieje najważniejszy etap tzw. Extraction Job, który składa się z 2 elementów: Extractors oraz Parsers.
Extractors (ekstraktory) mają za zadanie zmienić dane odpowiedniego typu (znaczniki) w trójki RDF. Wspierają ich w tym parsery (Parsers), które określają typy danych oraz dzielą wszystkie znaczniki Wikipedii w uporządkowane listy.
Istnieje około 11 ekstraktorów, z których każdy odpowiedzialny jest za inny typ danych:

  • Labels – tytuły artykułów Wikipedii zapisywane są za pomocą znacznika rdfs:label w przetworzonych grafach
  • Abstract – krótki opis oraz długi opis, który zapisywany jest za pomocą znaczników rdfs:comment oraz dbpedia:abstract
  • Interlanguage links - linki pomiędzy tymi samymi artykułami w różnych wersjach językowych Wikipedii
  • Images – właściwość foaf:depiction
  • Recirects – linki do artykułów „synonimów”
  • Disambiguation - oznaczenie dwuznaczności pomiędzy artykułami za pomocą właściwości dbpedia:disambiguates
  • External links - linki zewnętrzne – dbpedia:reference
  • Pagelinks - wszystkie linki pomiędzy artykułami Wikipedii oznaczone predykatem dbpedia:wikilink
  • Homepages - za pomocą właściwości foaf:homepage oznaczane są linki w artykułach do stron domowych encji w nich znajdujących się
  • Categories – artykuły Wikipedii podzielone są na kategorie według słownika ontologii SKOS (predykaty skos:concepts oraz skos:broader)
  • Geo-coordinates – współrzędne geograficzne (WGS84 lat/long)

źródło: dbpedia.org


W kolejnej części artykuły zostaną opisane tzw. Infoboxy – czyli szablony zapisu danych Wikipedii, z których pobierany jest kontent artykułów Wikipedii przez ekstraktory DBpedii…

:, , , ,

2 Comments for this entry

Zostaw komentarz

Spam protection by WP Captcha-Free




Szukasz czegoś?

Użyj formularza:

Jeśli nadal nie możesz nic znaleźć, napisz do mnie!

Polecane strony