Ontopia: The Topic Map Company

En åpen og demokratisk kunnskapsbase


Debatten om en nasjonal kunnskapsbase har bølget i hele høst etter at undervisningsminister Kristin Clemet forkastet begge anbudene som var sendt departementet. Konsulent og tidligere redaktør for Cap Lex Pål Steigan og daglig leder Steve Pepper i informasjonsstrukturerings-firmaet Ontopia presenterer her et detaljert forslag til hvordan en brukervennlig kunnskapsbase kan organiseres.

(En forkortet versjon av denne artikkelen ble publisert som kronikk i Aftenposten.)


Da Denis Didérot og Jean d'Alembert skapte Den store encycklopedien i Frankrike på 1700-tallet hadde de som mål å samle all sin tids kunnskap i dette verket. Deres erklærte hensikt var å bryte elitenes kunnskapsmonopol og bringe kunnskapen til folkeflertallet, slik at det kunne bane vei for et folkestyre.

I vår innbød Kulturdepartementet til en anbudskonkurranse om å skape en nasjonal kunnskapsbase, et nasjonalt løft i de franske encyclopedistenes ånd. To grupperinger kom til finalen, Kunnskapsforlaget og en gruppering rundt Cappelens forlag, og stor var overraskelsen og skuffelsen da undervisningsminister Kristin Clemet erklærte at hun hadde forkastet begge anbudene. Men kanskje det er von i hangande snøre. 19. november sa Clemet at hun "oppfordrer både eksisterende og nye aktører til å tenke fritt og uavhengig av dagens teknologi og kommersielle begrensninger." Undertegnede, en tidligere leksikonredaktør og en kunnskapsarkitekt, tar i mot utfordringen.

De ulike partene i dette lille dramaet har gode argumenter på hver sin måte. Kunnskapsforlaget har helt rett i at det ville være en tragedie om det store innholdet og den kompetansen som Stor Norske Leksikon representerer skulle gå tapt. Cappelen-gruppa har rett i at det ville være galt om bare ett forlag skulle bidra til en nasjonal kunnskapsbase og Clemet har rett i at staten ikke bør bli et forlagsmonopol.

Men ingen har egentlig svart på hvordan man så skal kunne skape en nasjonal kunnskapsbase. En nasjonal kunnskapsbase må være noe mer enn en nasjonalencyklopedi, det må være noe mer enn et stort statsfinansiert leksikon. For det første, og det er utrolig viktig, finnes det mange miljøer som bearbeider informasjon og utvikler kunnskap. Tenk på forskningsmiljøene, tenk på biblioteker, museer, arkiver, tenk på statlige nettsatsninger som norge.no, kulturnett, osv., tenk på små og store forlag eller for den del ressurspersoner og fagmiljøer ellers. For det andre, for å sitere den store amerikanske tenkeren Frank Zappa: "informasjon er ikke kunnskap og kunnskap er ikke visdom." Et leksikon bygger på kunnskap, men er først og fremst en informasjonsbase. Det de to anbyderne har gjort er å legge fram interessante forslag til oppbygging av store informasjonsbaser med to ulike leksikonbaser som kjerne.

Det som trengs er å stille enda mer ambisiøse mål, å gjenta Didérots og d'Alemberts bedrift med det 21. århundres teknologi og forutsetninger.

Tenk deg:

  • En kunnskapsbase som er like lett å finne frem i som en bok med et godt stikkordregister, og som kan brukes enten man snakker norsk, samisk, urdu eller et annet språk

  • En kunnskapsbase som tilpasser seg din profil - aldersgruppe, kulturell bakgrunn, interesser, osv. - og hjelper deg luke ut den informasjonen du ikke er interessert i.

  • En kunnskapsbase som du kan slå opp i via en WAP-telefon for å avgjøre en livlig pubdiskusjon om hvem som scoret målene i den berømte kampen mellom Norge og England - og hvilket år det skjedde. Eller når og hvor operæn Tosca først ble oppført; eller for den saks skyld, hvem det var som skrev librettoen, og hvilke andre libretti han sto bak.

  • En kunnskapsbase som har plass til innhold fra både Kunnskapsforlaget og Cappelen, og fra mange andre aktører i tillegg, fra de store offentlige og kommersielle organisasjoner, som NRK, Schibsted, Forskningsrådet og Nasjonalbiblioteket, til universiteter og skoler, interesseorganisasjoner, minoritetsgrupper - ja, endog enkeltpersoner.
  • En kunnskapsbase skrevet av både profesjonelle leksikografer og andre fagfolk - men også av den norske befolkning.

  • En kunnskapsbase som inneholder mange ulike syn på én og samme sak, ikke bare én halvoffisiell, "objektiv" sannhet; en kunnskapsbase som gjør det mulig for utilslørt subjektive meninger om EU, gasskraft og krigen i Afghanistan å komme til uttrykk, men som samtidig tillater brukeren å skille mellom disse, vite hvem som står for hvilke uttalelser, og velge hvem hun vil stole på.

  • En kunnskapsbase som gjør det mulig for Thea og de andre i 5A på Marienlyst å lage sin egen lille "kunnskapsparsell" - f.eks. om miljøeffekten av hamburgerindustriens rovdrift i Amazonas - og hekte den på Nasjonal Kunnskapsbase (med hilsen fra 5A), slik at venninen Nina i Trondheim og fetteren Tom i England kan se den (på hhv. norsk og engelsk), gjenbruke den, og føye til sine egne tanker og koblinger.

  • En kunnskapsbase som blir så verdifull at den kan lisensieres til de som har råd til det - også utenfor Norge, og samtidig så kostnadseffektiv å vedlikeholde at Norge har råd til å gi den bort som u-hjelp.

Slik er visjonen. Vi tror at det er en drøm som kan realiseres, og dét innenfor en forholdsvis kort tidsrom og akseptabel prisramme. Grunnen til vår optimisme er en ny kunnskapsteknologi som synes å ha vært ukjent for de som skrev KUFs tilbudsdokument. Denne teknologien åpner for helt andre muligheter enn de som er beskrevet i anbudene fra Kunnskapsforlaget og Cappelen. Teknologien går under det engelske navnet "Topic Maps". Noen etablert terminologi finnes foreløpig ikke på norsk, så vi foreslår og vil bruke begrepet "emnekart". Emnekart er beskrevet i en internasjonal standard (ISO 13250) og ble utviklet av den samme komitéen som sto for idéene bak XML (Extensible Markup Language). Norge har spilt en sentral rolle i utviklingen av emnekart-standarden gjennom Norsk teknologistandardisering og dens deltakelse i ISO-komitéen SC34. Noen av verdens fremste ekspertise på området sitter her til lands.

Hva går så teknologien ut på? Kort beskrevet er emnekart en form for kunnskapsrepresentasjon med særlig anvendelse innen informasjonshåndtering. Et emnekart kan sees på som en uhyre raffinert og svært kraftig stikkordregister, som gjør det meget enkelt å navigere og finne frem i store informasjonsmengder, men det er også mye mer enn det. Emnekart har en rekke egenskaper som gjør at de er i stand til å realisere visjonene ovenfor, men deres grunnleggende prinsipper er likevel svært enkle.

I emnekartmodellen opererer man med to lag. I det nederste laget ligger informasjonsressurser. De kan være hva som helst: tekstdokumenter, websider, bilder, lyd, video, til og med verdier i en database eller regneark.

Oppå dette laget, og adskilt fra informasjonsressursene, ligger et annet "abstrakt" lag, som består av emner ("topics") og assosiasjoner ("associations"). Typiske emner ville være Henrik Ibsen, Edvard Grieg, skuespillet Peer Gynt, Griegs scenemusikk til Peer Gynt, skikkelsene Peer og Åse, osv. Et emne kan ha mange navn (synonymer), f.eks. på ulike språk, og det er mulig å skilne mellom emner som har det samme navn (homonymer).

Assosiasjonene angir koblinger mellom de ulike emner, som f.eks. "Peer Gynt er skrevet av Henrik Ibsen", "Ibsen var født i Skien", "Griegs scenemusikk er basert på skuespillet Peer Gynt", osv.

Emner og assosiasjoner utgjør et indekseringslag, eller kunnskapsvev om man vil, som avspeiler den assosiative måten vi mennesker tenker på og er derfor meget lett å navigere i. Laget inneholder også lenker som peker til informasjonsressurser (i laget under) som er forekomster ("occurrences") av de enkelte emner. Et emne kan ha mange forekomster, og en ressurs kan være en forekomst av mange emner.

Kunnskapsnett. Indekseringslaget av emner og assosiasjoner er en form for semantisk nett, eller kunnskapsnettverk. Semantiske nett er blitt brukt i flere tiår av forskere innen kunstig intelligens nettopp for å representere kunnskap i en form som er tilgjengelig for maskiner. Lenkene fra emner til informasjonsressurser (altså, forekomstene) utgjør en slags bro mellom kunnskap og informasjon. Det er dette som i første rekke rettferdiggjør vår påstand om at emnekart - topic maps - kan og bør danne grunnlaget for en virkelig nasjonal kunnskapsbase.

Modellen som vi har beskrevet så langt er allerede svært anvendelig, men emnekart har flere egenskaper som gjør dem i stand til å realisere visjonene våre.

Fletting. For det første er det mulig å flette sammen to eller flere emnekart som kommer fra ulike kilder. Dette skjer på grunnlag av en mekanisme som heter emneidentitet, eller "subject identity".

Emneidentitet har noe til felles med URN-mekanismen som er foreslått brukt i Cappelens anbud, men er betydelig mer fleksibelt. Den gjør det mulig å vite at vi snakker om én og samme ting, selv om vi kaller det "Norge" i et emnekart, "Noreg" i et annet, eller "Norway", "Norga" (samisk) for den saks skyld.

Evnen til å flette sammen emnekart er helt avgjørende for en distribuert kunnskapsbase der også andre aktører har mulighet til å komme med sine bidrag.

Perspektiver. En annen vesentlig og revolusjonerende egenskap ved emnekart er deres evne til å romme ulike verdensanskuelser og perspektiver. Dette gjøres ved hjelp av en fasilitet som heter perspektiv ("scope"). Et emnekart består av en rekke påstander ("assertions"); enhver tilegnelse av et navn, en assosiasjon, eller en forekomst til et emne er en påstand som ansees å ha gyldighet innenfor et bestemt perspektiv. Perspektiv uttrykkes som et sett av emner; hvis ikke en påstands perspektiv er spesifisert, ansees påstanden å være almengyldig innenfor dette emnekart. Således brukes perspektiv til å angi at "Norga" er et gyldig navn for emnet Norge innenfor perspektivet Samisk; at en bestemt forekomst (informasjonsressurs) er gyldig i perspektivet VG1 (videregående, 1. trinn); og at assosiasjonen mellom emnene Dinosaur og Robot gir mening i perspektivet til en 10-år gammel gutt!

Standard. Det er ikke tvil om at emnekart er anvendelige nok til å kunne realisere vår visjon. Det faktum at det dreier seg om en internasjonal ISO-standard bør også veie tungt; det betyr at vår kunnskapsbase vil kunne nyttes av et stort og variert utvalg av programvare, og ikke være låst til én proprietær teknologi. Det betyr også at kunnskapsbasen er sikret for fremtiden, idet ISO-standarder varer mye lengre enn andre formater, potensielt i all evighet.

La dette seg gjennomføre? Vil det ikke være for kostbart?

Verktøy. Til det er å si: Ja, verktøyene finnes, til tross for at standarden kun er ett år gammel. Noe av programvaren er gratis, og mye av det er til og med norsk. Demonstrasjoner av noen sider ved denne teknologien kan sees på Ontopias hjemmesider, http://www.ontopia.net/omnigator.

Dessuten er jobben med å skape emnekart absolutt overkommelig. Store Norske Leksikon gir allerede et meget godt utgangspunkt. Vi kan begynne der og la kartet vokse innover og utover. Når vi har skapt et ryggrad av emner og assosiasjoner vil andre kunne komme med sine bidrag, for eksempel vil Ibsen-instituttet kunne fylle ut bildet av Ibsen som allerede står i SNL. Erfaring viser at emnekart har en egen evne til å vokse organisk (gjennom bidrag fra enkeltpersoner) og kvantitativt gjennom sammenslåing med emnekart som stammer fra eksisterende baser (f.eks. hos Statistisk Sentralbyrå). Det betyr blant annet at vi ikke behøver å løse hele oppgaven i ett jafs.

Fremgangsmåte. Hvordan bør vi går frem? Vårt forslag er følgende:

  1. Staten bør umiddelbart kjøpe rettighetene til SNL og sikre dens fortsatte vedlikehold langs de nåværende linjer i to år. En rettferdig pris vil bero på en vurdering av hva det ville koste å gjenskape det samme innholdet fra grunnen.
  2. Samtidig bør det dannes en egen stiftelse, uavhengig av alle forlag og mediainstitusjoner, med midler fra staten og andre interesserte parter (Fritt Ord, næringslivet, velgjørere).
  3. Under ledelse av et styre av folk med kompetanse innen leksikografi, media og teknologi bør det dannes en redaksjon bestående av leksikografer, ontologer, pedagoger, jurister, lingvister og informasjonsarkitekter, hvis oppgave er å skape den initielle "kunnskapsryggrad" av emner og assosiasjoner med utgangspunkt i SNL. Til dette hektes artikkel- og billedstoff fra SNL.
  4. Samtidig utvikles det retningslinjer for håndtering av bidrag fra andre, som dekker både tekniske, juridiske og økonomiske aspekter.
  5. Når ryggraden er på plass, åpnes det for bidrag utenfor, under kontrollerte former. Det er ikke mulig å forutsi idag nøyaktig hva slags form denne kontrollen vil ha, eller hvor omfattende det må være. Målet må være størst mulig åpenhet innenfor loven, men her må veien bli til mens vi går.

Det er fullt mulig å ha førsteversjonen av basen i prøvedrift innen neste sommer, forutsett klarsignal i årets budsjett. I mellomtiden bør nettversjonen av SNL opprettholdes. Etter ett år kan man være klar til å ta imot bidrag fra andre, både i form av nye forekomster av eksisterende emner (f.eks. innhold fra et urdu leksikon, kjøpt inn med midler fra innvandrerorganisasjoner og den pakistanske regjering), og i form av andre emnekart (fra ITU, NFR, SSB, osv.) som flettes inn.

I løpet av denne tiden vil forhåpentligvis andre aktører, som aviser, fjernsyn og forlag, ha fått tilstrekkelig orden på sitt materiale til også å kunne bidra med innhold. Det blir opp til de enkelte; ingen blir forfordelt. Her vil Cappelen kunne bidra på like linje med Kunnskapsforlaget, men også Samlaget, Pax, TV2 eller Norsk filateliforening.

Finansiering. Hva så med prisen?

Vi våger påstanden at emnekart-teknologien gjør det mulig å oppnå langt mer enn de foreliggende løsningsforslag uten å bruke flere statlige midler. Kostnadene kan spres på flere aktører og resultatet kan gjenbrukes på en rekke måter. På forholdsvis kort sikt vil basen kunne gi inntekter som går ut over hva et nettleksikon vil kunne forvente.

  • Indekseringslaget av emner og assosiasjoner vil ha verdi i seg selv, selv løsrevet fra de norske forekomstene. Det vil kunne lisensieres til andre (også i andre land), som dermed slipper å bygge sitt eget "kunnskapsryggrad".

  • Det samme indekseringslaget, med forekomster på urdu, arabisk og andre språk, opprinnelig utviklet for å betjene innvandrere i Norge, vil kunne selges til rike land - og gis bort til fattige land.

  • Deler av basen, med svært spesialisert innhold, vil kunne gjøres gjenstand for abonnementsordninger.

  • Andre deler av basen, særlig emne/assosiasjonslaget, vil kunne distribueres via WAP eller andre telefonbaserte tjenester, og betales via mikrobetalinger administrert av telefoniselskapene.

***

Med dette kan vi bære arven fra Diderot og d'Alembert inn i et nytt århundre og tilpasset vår tids samfunnsforhold og teknologi.

Norge har de fleste forutsetninger for å lykkes: et utmerket utgangspunkt i SNL; toppmoderne infrastruktur; ekspertise i verdensklasse når det gjelder den aktuelle teknologien; en tradisjon med nasjonal dugnad som svarer godt til behovet for en distribuert løsning bygget på samarbeid mellom mange aktører; et lynne som gjør at vi kan godta den disiplinen som er nødvendig for å lykkes; og en økonomi som gjør at vi sannelig har råd til å ta de initielle investeringer.

En av grunnen til at Diderot og d'Alembert lyktes i sitt prosjekt var støtten de fikk fra Russlands eneveldige, men samtidig opplyste hersker, Katarina den Store. Dagens enevoldsherskere er tvilsomme kandidater til denne rollen. Men kanskje kan Kristin Clemet fylle den?

Vårt forslag tar vare på de store verdiene som ligger i SNL, det tar vare på innvendingene fra Cappelen og det tar vare på betenkelighetene som Kristin Clemet har reist. Så da er det bare for ministeren å vise det vidsyn og initiativ som stunden krever...


Relatert:

  • PowerPoint-presentasjon om emnekart og nasjonal kunnskapsbase
  • Innspill til NHD (Nærings- og handelsdepartementet)fra Ontopia og Artemisia i forbindelse med Handlingsplan/strategi for norsk elektronisk innhold og tjenester (eNorge)