StandardiPositio: Linkitetty avoin tieto - linked open data

Kirjoittaja: Reino Ruotsalainen, Maanmittauslaitos, reino.ruotsalainen[at]maanmittauslaitos.fi
Artikkeli pdf-muodossa (Positio 2/2010)

Linkitys yhdistää tietoverkossa olevan sisällön ja tarjoaa sen tietokoneella käsiteltävässä muodossa.

Nykyinen maailmanlaajuinen tietoverkko linkittää lähinnä sivuja ihmisten katseltavaksi (web of pages). Tällaisen linkityksen automaattinen käsittely sisällön merkityksen perusteella ei onnistu perinteisellä tavalla. Niinpä semanttisen verkon kehittäjät ovat ottamassa käyttöön uuden termin ”linked data”. Tällainen linkitetty tieto muodostaa semanttisen verkon, joka käsitemallien avulla yhdistää tietoa tietokoneella käsiteltäväksi (web of data).

Linkitetyn tiedon idea

Linkitetty tieto (Linked data) on joukko käytäntöjä tietosisällön ja tietojen luokituksen julkaisemiseksi ja jakamiseksi käyttäen sovittua käsitemallia (RDF, Resource Description Framework). Tietokohteet nimetään yksikäsitteisten tunnisteiden (URI, Uniform Resource Identifier) avulla ja asetetaan saataville http-protokollaa käyttäen.

Verkkossa oleva tietosisältö kuvataan siis RDF-mallin avulla. RDF on perinteistä käsitemallinnusta samaan tapaan kuin kohdemallinnus (ER, Entity-Relationship) tai luokkakaaviot (Class diagram). RDF-malli viittaa usein suoraan tietoverkon resursseihin ja tekee sen kolmikon (triple) avulla eli subjekti-predikaatti-objekti -lauseilla (tai resurssi-ominaisuus-arvo).

Esimerkiksi ”verkkosivu” on subjekti, ”on kieltä” on predikaatti ja ”suomi” on objekti. Verkkosivuun voi liittyä monia muitakin predikaatteja, kuten otsikko, tekijä, aihe, kuvaus, julkaisija, päiväys jne. Näitä määrittelee mm. Dublin Core

URI on tapa, jolla tietoverkossa olevalla tiedolle voidaan antaa yksikäsitteinen osoite. Useimmiten käytetään http-osoitetta. Vaihtoehtoisesti voitaisiin käyttää vaikkapa ftp-osoitetta, mutta linkitetyn tiedon yhteydessä suositellaan http-osoitteiden käyttöä.

Linkitetyn tiedon perussäännöt

World Wide Webin isäksi esitelty Tim Berners-Lee on määritellyt linkitetyn tiedon käsittelyperusteiksi neljä sääntöä:

  1. Käytä URI-tunnisteita asioiden nimeämiseksi.
  2. Käytä http URI-tunnisteita, jotta ihmiset voivat tarkastella näitä nimiä.
  3. Kun joku tarkastelee URI-tunnistetta, tarjoa hyödyllistä tietoa käyttäen standardeja (RDF, SPARQL).
  4. Tarjoa linkkejä muihin URI-tunnisteisiin, jolloin voi löytää lisää asioita.

Edellä mainittujen sääntöjen pohjalta on laadittu oppaita linkitetyn tiedon julkaisemiseen ja levittämiseen. Eräs tällainen ohjeistus on Berliinin avoimen yliopiston tekemä: http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/

W3C:n yhteisöprojekti Linking Open Data pyrkii edistämään linkitetyn tiedon avointa jakelua. Projektin tarkoituksena on julkaista avoimia tietoaineistoja RDF-koodattuna ja täydennettynä RDF-linkityksellä eri tietolähteiden välillä. RDF-linkit tekevät mahdolliseksi navigoida tietolähteestä toiseen semanttisen webin selaimia käyttäen. Verkon hakukoneet voivat seurata linkkejä älykkäästi toteuttaessaan monimutkaisia kyselyitä. Koska hakutulokset ovat rakenteista tietoa eikä html-sivujen linkkejä, muut sovellukset voivat edelleen analysoida hakutuloksia.

Linkitetty paikkatieto

Paikkatietoalalla linkitetty tieto koskee toistaiseksi lähinnä paikannimistöä. Suomessa FinnONTO-hankkeessa (www.seco.tkk.fi/projects/finnonto) on tehty kehitystyötä paikannimien ontologian parissa. Geonames-palvelussa (www.geonames.org) on runsaat 8 miljoonaa linkitettyä paikannimeä, jotka ovat vapaasti käytettävissä. Iso-Britannian karttalaitos Ordnance Survey julkaisi huhtikuun alussa avoimen linkitetyn paikannimistön http://data.ordnancesurvey.co.uk/.
Tietoverkkojen koko olemassa olon ajan haaveena on ollut kaiken tiedon kattava saatavuus. Linkitetyn tiedon avulla kuljetaan kohti tavoitetta. Eritoten mikäli tietovarastot olisivat avoimia tai niitä avattaisiin nykyistä enemmän.

Lisää aiheesta http://en.wikipedia.org/wiki/Resource_Description_Framework

Lyhenteitä

  • W3C World Wide Web Consortium on kansainvälinen yritysten ja yhteisöjen yhteenliittymä, joka ylläpitää ja kehittää www:n standardeja.
  • RDF Resource Description Framework on W3C:n standardi, jolla www-sivuille voidaan lisätä tietoa sivun merkityksestä.
  • URI Uniform Resource Identifier on merkkijono, jolla kerrotaan tietyn tiedon osoite tai yksikäsitteinen nimi.
  • SPARQL SPARQL Protocol and RDF Query Language on W3C:n standardisoima RDF-kyselykieli.

31.5.2010 16:28