Naar een Nieuwe Modulariteit van Wetenschappelijke Informatie

Joost Kircz

Bijdrage symposium ter gelegenheid van de opening van de Walaeus Bibliotheek, Academisch Ziekenhuis Leiden, 28 maart 1996.

In deze bijdrage zal ingegaan worden op de relatie tussen kennisoverdracht en de technologie die daarvoor wordt gebruikt. In het onderstaande wordt beargumenteerd dat met de nieuwe elektronische multimedia-technieken er een fundamenteel andere presentatiewijze van wetenschappelijke informatie zal komen. Een presentatie die breekt met de traditionele vorm van het wetenschappelijk artikel zoals die in de laatste 300 jaar is ontwikkeld.

Inleiding

De laatste decennia hebben wij een fascinerende groei van de hoeveelheid gepubliceerd wetenschappelijk materiaal mogen meemaken. Deze ontwikkeling werd mede veroorzaakt doordat er na de Tweede Wereldoorlog met het Engels een wetenschappelijke lingua franca ontstond die een wereldwijde communicatie mogelijk maakte. De technische mogelijkheid tot deze ontwikkeling was in feite echter al een paar honderd jaar geleden gegrondvest. Met de uitvinding van de drukpers begon de revolutie in het systeem van kennis- en informatievermenigvuldiging. Het nieuwe medium, de gedrukte pagina, betekende een wezenlijke doorbraak in de ontwikkeling van kennis en techniek. Het is hier niet de plaats om een historisch overzicht te geven. Binnen het kader van het onderwerp van deze dag is het echter wel de moeite waard om enige lijnen te trekken die, in extrapolatie, ons kunnen helpen om de toekomst vorm te geven.

De ontwikkeling van het schrift en de ontwikkeling van de verschillende dragers voor het schrift hebben onze cultuur wezenlijk bepaald. Met de overgang van gesproken naar geschreven tekst werd opeens het geheugen in abstracte tekens geobjectiveerd. Ritmische verzen, riten en jaarlijks wederkerende gebeurtenissen verloren hun waarde als geheugensteunen. Los van de jaargetijden en de sterrenstand -tijdloos in feite- konden gedachten, redenaties, bepalingen en ideeën voor altijd worden vastgelegd. In de rechtspraak ontstond toen pas een echte jurisprudentie. Belangrijke verfijningen traden op met de introductie van de spatie tussen de woorden en veel later pas met de paginering van de bladzijden. Het vastleggen (schrijven) werd hierdoor aangevuld met een verdieping in de mogelijkheid tot ontsluiting (lezen en terugbladeren).

De ontwikkeling van het schrift werd bekroond met de uitvinding van de losse letters en de drukpers. Een uitvinding die op dit moment haar hoogtepunt bereikt. De technieken die sinds de uitvinding van de drukpers hun intrede hebben gedaan (denk aan de degelpers, vlakpers, rotatiepers, stencilmachine, matrixprinter en laserprinter) kenmerken zich allemaal door hun capaciteit unieke documenten te vermenigvuldigen. In tegenstelling tot de opslag op papier is elektronische opslag niet gebonden aan de vermenigvuldiging van unieke, ondeelbare exemplaren. Een bestand van een paar terabyte (een riante bibliotheek in oude termen) kan binnenkort snel en eenvoudig in zijn geheel vermenigvuldigd en verspreid worden. Het enkele document heeft haar historisch hoogtepunt gehad. Met de ontwikkeling van het schrift en zijn drager, gaat ook het gebruik veranderen. De magie verdwijnt (de Latijnse mis is nog een van de laatste westerse uitingen daarvan) en de lezer (gebruiker in algemene zin) krijgt een actieve rol. Uitscheuren, plakken en knippen werd mogelijk: citeren, plagiëren, persifleren en imiteren krijgen nieuwe vormen. De lezer kan steeds makkelijker met zijn vingers aan het werk van een ander zitten. De integriteit van een origineel werk wordt steeds moeilijker te bepalen. Op een hoger niveau worden wij nu geconfronteerd met een mate van onbetrouwbaarheid van doorgegeven kennis, die vroeger voorbehouden was aan mondelinge overdracht.

Wij kunnen twee belangrijke historische lijnen onderscheiden. Ten eerste in de ontwikkeling van het schrift zelf. Nadat het schrift langzaam van hiërogliefen (iconen) is `gedigitaliseerd' tot een alfabet, zien we nu een tweede digitalisering waarin het alfabet wordt omgezet in binaire vorm. Het is in deze geobjectiveerde (onmenselijke, want onleesbare) vorm dat het haar ultieme manipuleerbaarheid vindt. Van een picturale (realistische) weergave gaan wij naar een geheel geabstraheerde symbolische representatie.

Ten tweede is met de toename van het belang en de hoeveelheid van in schrift vastgelegde kennis, het dragermateriaal voor het schrift steeds brozer geworden. Het eeuwen houdbare steen en gebakken klei, werden vervangen door kwetsbaar papyrus en later door nog kwetsbaarder papier (zeker in zijn houthoudende variant). Uiteindelijk werken wij in toenemende mate met gedigitaliseerde informatie, op uiterst gecompliceerde en kwetsbare dragers. Hiervan is de duurzaamheid allerminst in te schatten.

Als wij de ontwikkelingen in de informatie-overdracht van een zekere afstand overzien, kunnen we de volgende kenmerken waarnemen:

Het is duidelijk dat de mogelijkheden voor en de middelen tot kennisoverdracht en -representatie zich razend snel ontwikkelen. Hieraan zijn zowel intrinsieke voor- als nadelen verbonden. Wij zullen daar een paar van in kaart brengen.

Opslaan en ontsluiten

Een bekende uitspraak in computerjargon is "Garbage in, Garbage out". Deze uitspraak betekent niet dat als men maar zorgvuldig begint, men ook zonder kleerscheuren verder komt. De werkelijkheid is verre van triviaal: zelfs als men pijnlijk nauwkeurig werkt kan men binnen een mum van tijd geheel verdwalen. Ieder medium heeft zijn eigen kenmerken en al onze opvattingen van nauwkeurig werken zijn gebaseerd op een eeuwenlange ervaring met andere media, dan die welke wij nu onder de knie willen krijgen. Dit betekent, zoals altijd bij het betreden van een nieuw onderzoeksgebied, dat wij de bekende methoden meer als metafoor dan als analogon moeten toepassen (in het nieuwe gebied). Veel zal hetzelfde lijken; weinig zal echter hetzelfde zijn. Op dit moment zien wij dat veel uitgevers wetenschappelijke tijdschriften `op het net zetten'. Dit beschikbaar maken van bestaande publikaties in elektronische vorm is een eerste voorzichtige stap waarin wordt gepoogd de intrinsieke mogelijkheden van dit nieuwe medium te ontdekken. Het zijn over het algemeen nog slechts derivaten van de oude produkten. Pagina's worden gezet (al dan niet overgetikt of vertaald uit een door de auteur gebruikt tekstverwerkingsprogramma), opgemaakt en gedrukt. Er worden nu twee wegen bewandeld:

  1. De gedrukte pagina's worden als plaatje ingelezen (gescand) en als ondeelbaar plaatje beschikbaar gesteld (bitmap). Wil men een term opzoeken dan moet naast deze beeldopslag ook een kale tekstversie aanwezig zijn. Iedere pagina wordt dan in twee complementaire vormen opgeslagen.
  2. Er wordt een zetprogramma gebruikt dat een representatie toestaat op papier alsmede een schermrepresentatie die sterk lijkt op (maar zeker niet gelijk hoeft te zijn aan) het papieren produkt. Op deze wijze kunnen eenmaal gefinaliseerde produkten medium-onafhankelijk opgeslagen worden. Het belangrijkste voordeel van laatst genoemde techniek is de mogelijkheid naar sequenties van taaltekens (woorden, woorddelen, enz.) te zoeken in hetzelfde bestand. Systemen als LaTeX, Postscript en Adobe Acrobate zijn nu voor enige jaren de standaard.

De ontwikkeling van medium- en representatie-onafhankelijke opslag is al enige decennia oud en vindt haar oorsprong in de behoefte aan goede beschrijvingen van documentstructuren in computertalen waarmee de kleinste cognitieve eenheid van een document gemanipuleerd kan worden. Zowel de grafische industrie als de producenten van ingewikkelde apparaten met ingewikkelde handleidingen (computers, vliegtuigen, enz.) voelden de noodzaak om eenmaal deugdelijke zinnen of tekstdelen veelvuldig te kunnen gebruiken. Integriteit en hergebruik van informatie zijn hier de kernbegrippen. Internationale standaards als SGML (Standard Gerneralized Mark-up Language) en ODA (Office Document Architecture) zijn hier de resultaten van.

In een elektronische omgeving kan een eenmaal welgedefinieerde kennis- of informatie-eenheid zonder haar integriteit te verliezen opgeslagen, overgedragen en hergebruikt worden. Dit is een buitengewoon belangrijke ontwikkeling, waarbij wij echter direct met de neus op het feit worden gedrukt dat het helemaal niet zo makkelijk is om de cognitieve eenheden van een document te benoemen. Voor wat betreft de trivia, zoals namen en adressen van auteurs, bibliografische gegevens, literatuurreferenties en presentatie-gerelateerde zaken, als tabellen en foto-onderschriften blijkt dit al moeilijk genoeg. Uiteraard staan wij pas aan een begin en moeten wij de enorme waarde van context-onafhankelijke document beschrijvingen als SGML sterk benadrukken. Gekoppeld aan geavanceerde relationele gegevensbeheersystemen (databases) gaat een geheel nieuwe wereld van bibliografische mogelijkheden open. Wij moeten ons echter wel realiseren dat hiermee nog slechts zaken worden geautomatiseerd die in principe (doch vanwege hun aantal en omvang niet praktisch) ook met systeemkaartjes af te handelen zijn.

Wij hebben nu de mogelijkheid de cognitieve elementen van een klassiek document over te brengen op een superieur medium. In dit alles houden wij echter tot dusverre het klassieke wetenschappelijke document in haar essayvorm, een lopende betogende tekst, als uitgangspunt. De intrinsieke eigenschappen van het medium worden nog niet aangesproken.

Het is interessant te onderzoeken wat de waarde is van de cognitieve eenheden die onderscheiden dienen te worden. Vooralsnog is de hele exercitie zwaar geënt op de typografische vormgeving van het document. Aangezien de typografische vormgeving zelf een uitdrukking is van onderliggende betekenisduiding (vet=belangrijk, !=aandacht, enz.), zou het de moeite waard zijn de betekenis en betekenisopbouw van teksten als grondslag van onderzoek te nemen en niet stil te blijven staan bij de typografische uitdrukkingen daarvan. Op het moment dat wij een beter inzicht hebben in de mogelijkheden voor coherente talige en niet-talige uitdrukkingsvormen kunnen wij deze benoemen in een declaratieve taal, die zich dan in representatie op papier of scherm weer zal kunnen duiden in een (typografische) vormgeving.

Van enkeling naar verzameling

Er is een nieuw weg ingeslagen met de ontwikkeling van hypertekst en talen als HTML (HyperText Markup Language) en HyTime. Naast manipulatie van de documentstructuur wordt nu ook heen- en weerverwijzen multimediaal mogelijk. Niet alleen worden de documentelementen benoemd, zij kunnen ook worden gekoppeld. Sterker nog, voor het eerst in de geschiedenis wordt het afzonderlijke document als transporteerbare eenheid losgelaten en is het mogelijk vrij binnen een grote verzameling van zeer verschillende informatie-eenheden te dolen.

Bij eerste inspectie van een grootschalig hypertekstsysteem zoals het World Wide Web (WWW) zien wij meteen naast de enorme mogelijkheden duidelijke nieuwe problemen. Het vrolijk springen van het ene document naar het andere geeft de fascinerende beleving van het ultieme bladeren en zoeken. Moeilijk wordt het echter al indien de gebruiker behoefte heeft aan coherente informatie. Op WWW zien wij maar al te vaak uitgebreide documenten, waarin om de paar regels al een actieve verbinding (hot link) is aangegeven met een ander document of met een paragraaf verderop in het eigen document (het verschil is vaak allerminst duidelijk, hoewel de getrainde gebruiker natuurlijk onderaan zijn/haar scherm aan het adres kan zien hoe de vork in de steel zit). Het grote voordeel van een document in de vorm van een paar uitgescheurde pagina's is vervangen door een labyrint van keuze-mogelijkheden, waarbij meer dan eens de meanderende zoeker al klikkend en klikkend rondjes maakt tussen steeds dezelfde serie documenten.

Wat hier bovenal duidelijk wordt, is dat de mogelijkheid extra informatie elders te halen nog niet betekent dat deze informatie ook succesvol en eenduidig kan worden ingepast in het oorspronkelijk document. De prachtige typografische hoogstandjes van bijbelinterpretaties en interpretaties daarvan, in verschillende lettertypen en in steeds kleinere corpsen op een pagina gedrukt, zijn nu vervangen door een ultieme losbladigheid. In sommige systemen wordt dit probleem gedeeltelijk opgelost door de `aangeklikte' informatie in een apart venster te laten verschijnen. Hiermee is de nachtmerrie van de typograaf weliswaar opgelost, maar niet die van de lezer.

De doorbraak van enkel document naar documentverzameling maakt duidelijk dat het lineaire document, als afgerond betoog, zijn tijd heeft gehad. In plaats daarvan wordt informatie gestructureerd in (verzamelingen van) cognitieve eenheden. Het probleem is wel dat de relevante delen van een document niet benoemd zijn. Het document is geschreven als een eenheid. Iedere verwijzing naar een document is echter meestal een verwijzing naar een aspect ervan en bijna nooit naar het geheel.

Een andere moeilijkheid is de vraag of het aspect waarnaar wordt verwezen los kan worden gezien van de context van het gehele document (voor getallen is dat eerder mogelijk dan voor problemen of stellingen). Voor de gebruiker is het uiteindelijke belang de informatie die voldoende en noodzakelijk is voor de bevrediging van een behoefte verwerkbaar te kunnen samenbrengen. Niettemin is het wereldwijd rondwinkelen naar gerelateerde documenten zeker een boeiende tijdspassering, vooral omdat het de mogelijkheden en grenzen van een -in principe- totale gekoppeldheid van informatie duidelijk maakt.

Hulpmiddelen voor informatie-ontsluiting

Aan ieder goed document-opslagsysteem worden hulpmiddelen toegevoegd om de toegang tot de documenten zelf of onderdelen daarvan te vergemakkelijken. In algemene termen kunnen wij drie soorten onderscheiden:

  1. De interne informatie-indicatoren. Hieronder valt de algemene bibliografische informatie (auteurs naam, titel, tijdschrift of boektitel, jaar van uitgave, paginanummers, enz.). In de praktijk blijkt dit soort informatie vrijwel compleet aanwezig te zijn in de grote bibliografische gegevensbestanden. Tot dezelfde categorie passen alle woorden zoals zij in de tekst voorkomen. Met snelle zoektechnieken zijn deze woorden als ontsluitingshulpmiddel beschikbaar (free text searching). Hoewel niet strikt intern, zou ik ook zoeksystemen die mede gebruikmaken van synoniemenlijsten en/of woordstam-algoritmen in deze categorie willen onderbrengen. De kracht van dit soort methoden is dat de uiterste grenzen van het gebodene worden verkend. Binnen de onderzoekingen in dit gebied blijkt onmiddellijk dat de meervoudige betekenis van woorden eenduidige hulp uitsluit. Nog moeilijker wordt het natuurlijk met anaforen en metaforen. Vandaar dat werkende systemen slechts binnen een welgedefinieerd domein opereren. Hierdoor beperken de mogelijkheden zich vooral tot vragen van lezers die al min of meer weten waar Abraham de mosterd haalt.
  2. De externe informatie-indicatoren. In het elektronisch tijdperk, waarin de manipulatie van interne indicatoren zo makkelijk schijnt, wordt het ambacht van de indexeerder vaak vergeten. Toch zijn het juist de extern toegevoegde indextermen (thesaurustermen, classificatiecodes, registratienummers, enz.) die ontsluiting van onbekend materiaal mogelijk maken. Ieder vakgebied heeft zijn eigen jargon en in ieder vakgebied is de kennis (zij het onvolledig) te reduceren tot een thesaurus van samenhangende begrippen. De verzameling (of beter de atlas) van deze thesauri omvat in principe een weerslag van de in documenten opgeslagen informatie. Dit biedt een interessant perspectief als er samenhangende overlappende gebieden tussen de verschillende thesauri zouden worden ontwikkeld die de lezer van het ene kennisdomein overvoert naar het nabijgelegen. Helaas bestaat de wereld der thesauri nog uit losbladige eenheden zonder gemeenschappelijk ringbandje. Voor wij onbevangen in de informatie-oceaan kunnen duiken, is er nog veel werk te doen aan de ontwikkeling van dit soort systemen.
  3. De transitieve indicatoren. Vaak is het belang van een document louter dat het de lezer doorverwijst naar een ander document. De literatuurreferenties zijn een essentieel onderdeel van de informatie-ontsluiting. De bibliometrische technieken die op dit niveau ontwikkeld worden, kunnen wezenlijk inzicht leveren in de overdracht van kennis en informatie vanuit het ene vakgebied naar het andere. Deze technieken zouden zeer bruikbaar toegepast kunnen worden in een hypertekst-omgeving, waarbij `links' niet naar het document als zodanig voeren, maar naar een onderdeel daarvan. Deze methoden kunnen dan bijdragen om beter inzicht te krijgen in de rol en functies van de verschillende cognitieve elementen waaruit een document is opgebouwd.

Nieuwe vormen, nieuwe wegen

Behalve de bovengenoemde drie min of meer traditionele soorten indicatoren, kunnen wij ons nu ook afvragen of er niet meer (en andere) zijn in het `document van de toekomst'. Zoals eerder is aangegeven, legt ieder medium zijn eigen wijze van kennisrepresentatie op. Pas in de confrontatie met het nieuwe medium erkennen en beseffen wij de voor- en nadelen van de bestaande technologie. Een technologie die door de eeuwen heen bijgeslepen en gepolijst is. Nu wij ons volop in het proces bevinden van het vertalen van de oude representaties op papier naar (zich ontwikkelende) presentaties op elektronische dragers, staan ons de volgende taken te wachten.

  1. De vaststelling van de intrinsieke voordelen van het papieren, lineaire, document. Zonder meer zullen deze voordelen in getransponeerde vorm terug moeten komen in de media van de toekomst. Het gaat dus om een functionele analyse van het papieren document en haar bouwstenen.
  2. Het analyseren van de kennisoverdracht in het papieren document. Het wetenschappelijk document is opgebouwd als een betogende tekst waarin de auteur de lezer van het begin tot het einde probeert mee te leiden in zijn/haar redenaties. Het huidige document heeft dus een gesloten structuur. Een lezer zal echter slechts zelden het gehele document uitputtend lezen. Een lezer zoekt bepaalde elementen, ter verificatie, ter kennisneming, om doorverwezen te worden, of gewoon uit nieuwsgierigheid. Een analyse van de opbouw van de huidige gestandaardiseerde vorm van het wetenschappelijke artikel kan ons verder brengen in het bepalen van de cognitieve elementen die vervlochten zijn in een lopende tekst. Een veelbelovende methode is de analyse van de dialectische en retorische (argumentatieve) structuur van het wetenschappelijke document. Een onderzoek dat wij nu uitvoeren aan de Universiteit van Amsterdam.
  3. In een multimedia-omgeving zal de rol van figuren, bewegende beelden en geluid geheel veranderen. Historisch maken we hier een volledige cirkelbeweging. Oorspronkelijk kenden wij geluid (gesproken taal) en plaatjes (hiërogliefen), daarna volgde tekst. Weer later stond de techniek ons toe om illustraties bij de tekst aan te leveren. Deze illustraties verluchtigen en verduidelijken de tekst en zijn voorzien van een onderschrift dat de relatie met het geschreven betoog duidt. Zij zijn secondair aan de geschreven tekst. Nu echter krijgen geluiden en beelden weer hun oorspronkelijke glans. Dit zal betekenen dat de betooglijn en de opbouw van een wetenschappelijk artikel totaal zal veranderen. Beeld en geluid zullen eerst als losse elementen toegevoegd worden aan de lopende tekst (als een soort multimediale appendices), maar dit zal zonder meer slechts van korte duur zijn. In het elektronisch tijdschrift voor cardiologie is hartruis niet meer een grafiek met frequentieverdeling, volume en tijd als parameters, maar een object op zichzelf. Wij horen het hart en de begeleidende tekst `illustreert' deze sensore waarneming met uitleg. Hetzelfde geldt voor de integratie van actieve wiskunde (symbolische manipulatie en simulaties met instelbare parameters). Ook hier weer zien wij dat het nu zaak is om diepgaand de verschillende begripsonderdelen van een wetenschappelijke communicatie te bepalen en hun mogelijke verbanden bloot te leggen.

Tot slot

De wetenschappelijke communicatie van de toekomst zal een totaal andere vorm hebben dan de huidige. In plaats van een lineair essay met hier en daar een plaatje, zal het "artikel" gaan bestaan uit een verzameling talige en niet-talige modules. Deze verzameling zal echter wel moeten blijven voldoen aan een aantal voorwaarden die ook voor het huidige artikel gelden, zoals: integriteit van de informatie (iedere vorm communicatie heeft haar eigen samenhang en structuur), authenticiteit (iedere module binnen een verzameling heeft een auteur; als een informatie-eenheid wordt geciteerd, worden de auteursidentificaties meegenomen) en certificatie (het moet duidelijk zijn of het een vrije produktie is of het stempel heeft van 'peer-review'-produkt).

De modules zullen zowel afzonderlijk als in onderlinge samenhang een afgerond geheel moeten vormen. Talige modules die deel uit maken van een betoog zullen veelal zelf ook weer een (sub)betogende tekst vormen. Het zou hier te ver gaan om al uitspraken te doen over de waarde die in dit verband grammatica's in een dergelijke object-georiënteerde taal kunnen hebben. In feite zijn wij net begonnen met het leren hanteren van een nieuw medium, zoals de cinematografie in de eerste helft van deze eeuw leerde omgaan met het verfilmen van romans. Het gaat er niet slechts om documenten over te zetten naar een andere drager. De uitdaging is om nieuwe scenario's te ontwikkelen waarbij wij het wetenschappelijk artikel omschrijven: omschrijven in de dubbele betekenis van be"schrijven" en her"schrijven", waarbij het woord schrijven metaforisch wordt gebruikt.



Bibliografie

Onderstaande bibliografie geeft slechts enkele titels die specifiek voor mijn bijdrage van belang zijn en daarbij ook voor de algemeen geïnteresseerde de moeite van het lezen waard zijn.

Over de ontwikkeling van taal, communicatie, cultuur en uitgeven.

Over document structurering

Over literatuur ontsluiting en de problemen daarbij.



Last modifications on: 27-3 1996


.