ESSAYS OVER ELEKTRONISCH UITGEVEN
Nummer 2, maart 2000
Geen einde aan de bureauredactie
De toegevoegde waarde van het redactionele proces bij elektronisch publiceren
Joost Kircz
Samenvatting
Dit essay gaat in op de overgang van handmatige naar geautomatiseerde documentveredeling.
Vroeger moest er aan een manuscript veel handwerk besteed worden om het te corrigeren,
consistent te maken en te markeren met typografische instructies. Met het gebruik
van goed gestructureerde tekstverwerkingsbestanden kan veel van dat werk nu
uit handen worden genomen. Uitgeven is nu vooral gericht op het verkrijgen van
een veelvuldig bruikbaar oerexemplaar, dat verschillende presentaties op papier
of scherm mogelijk maakt.
Eerst schets ik de ontwikkeling van documentstructureringstalen zoals HTML,
SGML en XML. Daarna ga ik in op de nieuwe vormen van documentveredeling die
dankzij deze ontwikkelingen nu mogelijk zijn. Conclusie: de menselijke arbeid
verdwijnt niet, maar keert terug op een hoger niveau.
Kircz Research Amsterdam
Prins Hendrikkade 141
1011 AS Amsterdam
kra.mail@inter.nl.net
De opkomst van SGML
Voor iedere uitgeverij, of het nu een literaire of een wetenschappelijke uitgeverij
is, of gewoon een groot bedrijf dat veel interne en externe publicaties verzorgt,
is de mogelijkheid tot hergebruik een belangrijk thema. Hergebruik garandeert
dat eenmaal gecontroleerde en geaccepteerde informatie niet nogmaals gecontroleerd
hoeft te worden. Dit voorkomt onnodig werk en verhoogt de betrouwbaarheid van
de informatieoverdracht. Het is dan ook niet verrassend dat juist IBM en Boeing
samen met de grafische industrie zochten naar standaardisatie voor het gebruik
van veel voorkomende formuleringen. Immers, zowel de computer- als de vliegtuigindustrie
produceren kilometers handleidingen en apparaatbeschrijvingen en toch zal steeds
weer die ene waarschuwing dat de gebruiker moet controleren of de schakelaar
wel op 220 volt of op 110 volt staat herhaald moeten worden. Het resultaat van
deze samenwerking was het ontstaan van de SGML-standaard. SGML staat voor Standard
Generalized Markup Language en werd in 1986 een officiële ISO-standaard
onder nummer 8879. Het belangrijkste idee achter SGML is de loskoppeling van
vorm en inhoud.
In de oude typografische wereld wordt een tekst beschreven door haar presentatie.
Koppen kunnen gezet worden in een 24-punts vet Rockwell als ze meedogenloos
uit het papier moeten springen. De lopende tekst van een roman leest daarentegen
juist prima in een 12-punts Bembo. Het grafisch verwerken van tekst was een
kunst en ambacht dat voor elk gedrukt product opnieuw te hulp werd geroepen.
Na de komst van magnetische geheugens, van waaruit teksten steeds weer opnieuw
konden worden opgeroepen, werd het voor het eerst mogelijk om een duidelijke
splitsing te bewerkstelligen tussen de boodschap en de vorm. Met name bij handleidingen,
instructies en ander materiaal dat vaak aan verversing en bijstelling onderhevig
is, is het duidelijk hoe belangrijk deze scheiding is. Bij een nieuwe versie
van een apparaat of een verzekeringspolis blijft immers een belangrijk deel
van de informatie hetzelfde. Die delen van de handleiding of de polis willen
we niet nogmaals intikken, proeflezen en controleren. SGML speelt op deze behoefte
in. Het gaat hier immers om de inhoud van de boodschap en niet om de vormgeving.
Met SGML worden de binnen een document toegestane informatie-eenheden, zoals
een kop, een auteursadres en alinea's, gemarkeerd en samen met hun onderlinge
relaties via een zogenaamde Document Type Definition (DTD) vastgelegd. In de
DTD staan de toegestane elementen van het document en hun vereiste inhoud, zoals
alleen getallen, alleen tekst of beide, alsmede hun eventuele hiërarchische
relaties. De structuur van het document wordt zo aan de hand van de samenstellende
soorten informatie bevroren'. Is dat allemaal goed en wel in een database
opgeslagen, dan kan aan de hand van een stijlblad bepaald worden hoe de uiteindelijke
vormgeving eruitziet. Dit alles gebeurt onafhankelijk van het gebruikte medium.
In druk kan dezelfde tekst er dus anders komen uit te zien dan op een groen-wit
of kleuren computerscherm.
Het belangrijkste voordeel van SGML is dat zij echt database-publiceren mogelijk
maakt. De database is niet een, toevallig elektronisch, opslagmedium voor een
heel document, maar is een reservoir van inhoudelijk gedefinieerde elementen
die elk een eigen rol spelen en die elk, onafhankelijk van elkaar, hergebruikt
kunnen worden in een nieuw document met een eigen vormgeving. We kunnen bijvoorbeeld
alle titels of alle auteurs moeiteloos opvragen uit een archief van vele duizenden
SGML-gecodeerde documenten. Een belangrijk voordeel van SGML is dat zij geschikt
is als uitwisselingstaal: SGML is niet meer dan een rij ASCII-tekens waarmee
de diverse elementen door begin- en eindcodes gekarakteriseerd worden. In een
SGML-tekst kan bijvoorbeeld staan: <head> Dit is een vette kop </head>.
Pas in een later stadium wordt bepaald hoe die kop vormgegeven wordt.
Hoewel langzaam op gang gekomen, is SGML nu een aanpak die door zeer veel grote
partijen, bijvoorbeeld internationale uitgeverijen als REED-Elsevier en het
Amerikaanse ministerie van defensie, als basis wordt gebruikt. SGML is echter
geen gemakkelijke taal en vereist een gedegen aanpak om de DTD vast te stellen.
Binnen een continu productieproces zijn veranderingen daarin niet eenvoudig
en snel door te voeren. Nog het meest belangrijk is dat een diepgaande informatieanalyse
van het te publiceren materiaal vereist is alvorens van de geneugten van een
enorme vrijheid in veelvuldige en gevarieerde productie geprofiteerd kan worden.
HTML en XML
In 1989 ontwikkelde men op het Europese natuurkundig onderzoekscentrum CERN
te Genève een hypertextsysteem om onderling gemakkelijk informatie en
documenten uit te wisselen. Een simpele toepassing van hypertext werd, met een
schuin oog naar SGML, voor die doelen voldoende geacht. Deze simpele versie
werd Hypertext Markup Language (HTML) genoemd. In 1991 werd dit nieuwe systeem
onder de naam World Wide Web (WWW) publiek toegankelijk, terwijl in 1993 de
echte doorbraak plaatsvond met de introductie van Mosaic, de eerste grafische
browser voor het WWW en voorloper van het huidige Netscape. Vanaf dat moment
werd het langzaam voor iedereen duidelijk dat de onderliggende HTML-structuur,
die voldoende was voor een oorspronkelijk regel-georiënteerde hypertextomgeving,
de enorme mogelijkheden van een grafisch-georiënteerde aanpak (zoals bij
tabellen) niet ten volle kon uitbuiten. Al snel werden nieuwe HTML-versies ontwikkeld.
Inmiddels is de huidige versie 4.0 een echte toepassing van SGML, zij het dat
HTML een mengsel is gebleven van inhoudelijke markering en presentatiemarkering.
Omdat het publiceren van webpagina's meer is dan het verzamelen van leuke multimediatrucs
en wat tekst, dringt nu snel het algemene besef door dat voor het uitgeven via
het Web de structuur van de informatie cruciaal is. De beste webpagina's worden
gemaakt door vanuit een database, on-the-fly, de pagina's samen te stellen.
Op veel pagina's staat immers dezelfde informatie, al is het maar het bedrijfslogo
en het contactadres. Het zou onzinnig en ook technisch ondoenlijk zijn om bij
een verandering van bijvoorbeeld het faxnummer van een bedrijf alle pagina's
na te lopen om deze verandering door te voeren. Kortom, webpublishing is databasepublishing.
Deze nadruk op de achterliggende database voor publicaties via Internet vereist
dat er een duidelijke en eenduidige structurering van het materiaal is.
In 1996 heeft het World Wide Web Consortium (W3C), de organisatie die de ontwikkelingen
van, om en op het Web probeert te sturen, een werkgroep opgericht om een nieuwe
web-standaard te ontwerpen. De bedoeling was een variant van SGML te maken die
geoptimaliseerd was voor het Web, maar toch zo simpel mogelijk zou blijven.
Het resultaat hiervan is de eXtensible Markup Language: XML. XML is niet zo
uitgebreid als SGML, maar kent wel het begrip DTD om de coherentie en integriteit
van de verschillende soorten documenten te garanderen. XML vormt nu ook een
basis voor een hele serie toepassingen die specifieke vakgebieden onder handen
nemen, zoals de wiskunde of de scheikunde. Een belangrijk kenmerk van XML is
dat het niet van ASCII, maar van Unicode uitgaat. Unicode is een ISO-standaard
met een internationale tekenset van 65536 tekens (16 bits). Hiermee is het eindelijk
mogelijk om talen die niet het simpele Amerikaans-Engels alfabet als basis hebben
volledig correct te behandelen.
Er zijn op dit moment twee belangrijke nieuwe ontwikkelingen op het gebied van
XML. Ten eerste is het zogenaamde Resource Descriptor Framework (RDF) ontwikkeld,
waarmee meta-data (bijvoorbeeld de prijs van een product na een bepaalde datum)
en hun relaties behandeld kunnen worden . Ten tweede is er een relatietaal ontwikkeld,
de zogenaamde XML Linking Language (XLink), waarmee hyperlinks gekarakteriseerd
kunnen worden. Dankzij deze ontwikkelingen is het nu mogelijk om links te voorzien
van meta-data en de relaties te karakteriseren die weergegeven worden door de
links tussen de verschillende bronnen en doelen te karakteriseren.
Via een sjabloon alles in de database?
Dankzij de hierboven geschetste ontwikkelingen kunnen wij ons nu een situatie
voorstellen waarin de auteur een heel duidelijke sjabloon aangeleverd krijgt
waarin alle verplichte en optionele informatievelden zijn gespecificeerd. Een
dergelijke combinatie van een tekstverwerkingsprogramma en een formulier betekent
dat een belangrijk deel van de instructies aan auteurs nu in de auteursomgeving
geïntegreerd is. Dit heeft als voordeel dat, als het sjabloon gekoppeld
is aan de onderliggende databasestructuur, veranderingen in de auteursinstructies
direct kunnen worden doorgevoerd. Als het bijvoorbeeld verplicht wordt om in
een persoonsveld het fax- en gsm-nummer op te geven, dan kan dit onmiddellijk
in de auteursomgeving worden verwerkt, zonder dat de auteur via een geschreven
instructie hierop geattendeerd hoeft te worden.
Een ander voordeel van het gebruik van sjablonen binnen een databasestructuur
is dat controle op de aanwezigheid van essentiële informatie in de verschillende
velden vergaand te automatiseren is. Omdat een auteur eenvoudig een bestaand
standaard stuk tekst kan importeren zonder de inhoud in eigen woorden te hoeven
herhalen, wordt bovendien het meervoudig gebruik van informatie vergemakkelijkt.
Voorts krijgt het aanleggen van hyperlinks tussen teksten of tekstdelen een
grotere waarde. Verwijzingen zijn niet meer van document naar document, maar
van een specifiek informatieveld naar een ander specifiek informatieveld. De
auteur kan bijvoorbeeld verwijzen naar iemand als auteur door een link aan te
brengen naar het auteursveld van een ander document, of naar dezelfde persoon
als genoemd in een betoog door een link te leggen naar dat betoog, of naar deze
persoon als bibliografische referentie door naar een literatuurlijst te verwijzen.
De eerder genoemde ontwikkelingen van XLink zijn dan ook veelbelovend.
Ook voor zoekers naar informatie biedt een dergelijke aanpak voordelen: in plaats
van blind naar een woord of een combinatie van woorden in een document te zoeken,
kan de zoeker aan zijn zoekvraag context toevoegen door het informatieveld te
specificeren. Het zal duidelijk zijn dat de precisie van de vraag en het succes
van de zoekactie hier aanzienlijk mee verbeterd worden.
Deze aanpak hoeft zich overigens allerminst te beperken tot strak gestructureerde
teksten zoals aanmeldingsformulieren en medische recepten. Op basis van een
gedegen analyse is het zeker mogelijk ook specifieke invoereisen te formuleren
voor complexere tekstgenres. Een dergelijke analyse leidt ook tot het opstellen
van duidelijke eisen per documentelement of veld. Hierdoor is de controle op
de aanwezigheid van essentiële informatie vergaand te automatiseren. Voor
verschillende soorten teksten zijn er verschillende structuureisen. Voor het
genre van het wetenschappelijk artikel wordt hier door mij en mijn collega's
hard aan gewerkt.
Wat is de toegevoegde waarde van het redactionele proces?
Hierboven is beschreven hoe we een aanzienlijke hoeveelheid menselijke arbeid
kunnen vervangen door slimme structuren en krachtige programmatuur. In veel
uitgeverijen bestaat dan ook de neiging om een belangrijk deel van de technische
staf af te stoten. De auteur heeft immers een spellings- en grammaticachecker,
de SGML-parser en de controleprogramma's van de database identificeren prima
ongerechtigheden en de lezer kan gecontextualiseerd zoeken. De vraag moet echter
niet zijn of menselijke arbeid kan worden gedumpt, maar in welke opzichten een
redactioneel proces toegevoegde waarde heeft. Het gaat niet alleen om de loonkosten
als onderdeel van de productiekosten, maar om de toegevoegde waarde van die
loonarbeid. Immers, elke zondagsdichter met een kleurenfotokopieerapparaat kan
prima een klein uitgeverijtje beginnen en iedereen met een mooie XML-omgeving
kan zich in principe als elektronisch uitgever vestigen. Veel bibliotheken willen
de hoge abonnementsprijzen omzeilen door zelf tijdschriften te gaan uitgeven.
Dit is eenvoudig mogelijk, zo redeneren ze, omdat veel van de benodigde technologie
al beschikbaar is. Naar mijn mening wordt hierbij te veel de nadruk gelegd op
de opslag en distributie en te weinig gekeken naar de inhoudelijke documentveredeling
die de kern is van het uitgeverijbedrijf.
Zoals zo vaak bij de introductie van een nieuwe techniek, zien we hier echter
ook het tweesnijdende zwaard van de kosten. Aan de ene kant zien we een kostenreductie
door de vervanging van menselijke arbeid wat betreft bijvoorbeeld taalcorrecties,
spellingcontrole en opmaakinstructies. Aan de andere kant zien we een enorme
kostentoename op het vlak van het productieonderhoud in de vorm van netwerkbeheer,
een helpdesk en voortdurende vernieuwing van hard- en software. Nog afgezien
van de hoge initiële kosten van systeemanalyse en het schrijven van een
omvattende structuur voor het tekst- en beeldmateriaal. Een SGML-achtige aanpak
zal dus vooral vruchten afwerpen bij een grootschalige aanpak.
De centrale vraag is dan: wat is daarbij de toegevoegde waarde van het redactionele
proces? Veel traditioneel redactiewerk op het niveau van spellingcorrectie en
systematiseren van het materiaal kan inderdaad naar de auteur worden toegeschoven,
mits hij duidelijke instructies krijgt. Echter, er is nog steeds een redactionele
slag nodig om de te publiceren artikelen beter leesbaar te maken of aan te passen
aan de schrijfstijl van het blad, zoals veel publieksbladen doen. Een technisch
perfect afgeleverd document is niet a priori ook een goed leesbaar document.
Bovendien zal het redactieproces op minstens twee punten belangrijke nieuwe
toegevoegde waarde hebben: de logistiek en de samenhang van de database.
De logistiek
Voor verschillende soorten informatie gelden verschillende doorvoertijden voor
wat betreft de technische aspecten en de inhoudelijke aspecten. Om te beginnen
is er het technische verschil tussen verschillende soorten informatie, zoals
platte tekst, datasets, grafieken, beeldmateriaal en simulaties. Zodra al dit
soort informatie bij de invoer de juiste codering heeft meegekregen, is het
mogelijk om de verdere behandeling separaat te laten plaatsvinden. De behandeling
van de verschillende soorten informatie kent per soort informatie eigen specificaties
en meestal ook specifieke standaardisering voor database-opslag. Platte tekst
wordt nu eenmaal anders verwerkt dan een audiobestand of een kleurenplaat. De
werkstromen kunnen op deze manier parallel plaatsvinden en opstoppingen en wachtrijproblemen
kunnen worden gereduceerd.
Wat betreft de inhoudelijke aspecten ligt de zaak moeilijker. Ieder soort informatie
heeft immers ook eigen specifieke inhoudelijke kwaliteitseisen. Een gebruiker
moet ervan uit kunnen gaan dat de naam en het adres van de auteur foutloos zijn.
Aan de andere kant kan de gebruiker slechts eisen dat de redenatie van het betoog
van constante en gecontroleerde kwaliteit is, terwijl bijvoorbeeld de cijfers
die in een betoog genoemd worden weer als correct moeten kunnen worden verondersteld.
Een eenvoudig voorbeeld is verkeersinformatie. Stel dat de toestand op onze
autosnelwegen via een gsm-afleesbare website inzichtelijk wordt gemaakt. Via
een landelijk net van meldpunten kan dan bepaald worden dat de informatie om
het uur en in de spits om het kwartier wordt ververst. Als er nu ergens een
vrachtauto omkiepert, moet er echter direct worden ingegrepen: niet alleen moeten
hulpdiensten worden ingeroepen, maar ook het verkeer moet omgeleid worden. Het
is aan de verkeerspolitie om te bepalen welk scenario wanneer en hoe geïmplementeerd
wordt; dit is volledig afhankelijk van de lokale situatie. De verkeerspolitie
treedt dan op als redacteur van het elektronisch bewegwijzeringssysteem: alleen
zij kan bepalen, welke informatie, in welke vorm en in welke mate van detail,
gepubliceerd wordt. Gewoon mededelen dat er een grote ravage is, kan een toeloop
van ramptoeristen en steeds langzamer rijdende tegenliggers veroorzaken, met
alle ellende van dien. Dit betekent dus dat er duidelijke kwaliteitsniveau's
moeten zijn ten aanzien van de verschillende soorten informatie, zoals weersgesteldheid,
verkeersdrukte nu en straks, aanwezigheid van ambulancediensten en ziekenhuizen
alsmede scenario's voor omleidingen.
Het spreekt voor zich dat bij een dergelijk computer-ondersteund uitgeefproduct
de echte waarde pas goed tot uitdrukking komt in gevallen van crisis. In zulke
gevallen is een ervaren en gekwalificeerde redactie een vereiste.
De samenhang
Het unieke van een elektronisch archief is dat diverse documenten of onderdelen
daarvan, bijvoorbeeld via de bibliografische referenties, rechtstreeks aan elkaar
verbonden kunnen worden. Alle grote wetenschappelijke uitgeverijen zijn al druk
doende hier een systeem voor te maken. Interessant daarbij is dat duidelijke
doorberekeningen mogelijk zijn voor auteursrechten, omdat documenten van verschillende
auteursrechthouders aan elkaar geknoopt worden.
De eerste stap van het aan elkaar knopen van documenten kan volledig geautomatiseerd
worden. Immers, als ieder document een uniek documentnummer heeft waarin de
naam van de eigenaar en de bibliografische details staan gecodeerd, is er over-en-weer
verkeer tussen de centrale databases van de diverse eigenaars mogelijk. Moeilijker,
maar ook pas echt interessant, wordt het als er gekarakteriseerde hyperlinks
komen. Deze leggen niet zomaar een verbinding tussen a en b, maar drukken uit
welke relatie tussen a en b bestaat. Een link kan bijvoorbeeld aangeven dat
de informatie waarnaar verwezen wordt een uitbreiding is van de informatie in
het vertrekpunt van de link, of er juist mee in tegenspraak is. Hiervoor is
een stelsel van gekarakteriseerde en gevalideerde linksoorten nodig. Een analyse
van mogelijke linksoorten is nu nog onderwerp van wetenschappelijk onderzoek.
De resultaten zullen prima in een XML-omgeving geïmplementeerd kunnen worden.
Daar waar de mogelijkheid bestaat om automatisch en gratis alle informatie aan
elkaar te koppelen, ontstaat er onmiddellijk de behoefte aan gevalideerde en
geredigeerde informatie. De lezer wil immers to-the-point informatie hebben
en niet overweldigd worden door wat allemaal mogelijk interessant is. De grote
zwakte van alle zoekmachines is juist dat ze heel moeilijk de lezer keuzes kunnen
laten maken. Het zoeken is slechts gebaseerd op woordkeuzen. In een geredigeerd
relatiebeheer wordt het meteen duidelijk hoe diepgaand of oppervlakkig de verwijzingen
zijn en wat de certificatie daarvan is (bijvoorbeeld naar een rapport van de
rekenkamer of naar een dik verhaal in een ochtendkrant). Kortom, ook hier weer
zien we de noodzaak van hoogwaardig redactiewerk, dat veel menselijke inventiviteit
en werk vereist. De kwaliteit van de selectiemogelijkheden op basis van inhoudelijke
linking zal een van de belangrijkste onderscheidende kwaliteiten worden van
de elektronisch uitgever.
Slot
In dit essay is aangegeven dat de nieuwe gereedschappen voor elektronisch publiceren
een enorme stap vooruit betekenen en veel oud routinewerk overboord zullen zetten.
Daarmee zal echter geenszins de automatische uitgeverij' ontstaan. De
nieuwe database-gebaseerde uitgeverij zal zich ten eerste een flinke investering
in invoer-structurering moeten getroosten en ten tweede zich moeten voorbereiden
op een her- en opwaardering van het redactionele werk. Daar waar goedkope arbeid
vervangen zal worden door de computer, komt hoger geschoolde arbeid terug, die
met kennis van het onderliggende databasesysteem de gebruikers de gelegenheid
geeft om in een toegesneden en inhoudelijk gecertificeerde omgeving zoek- en
leesactiviteiten te ondernemen.
Op dit moment vinden veel lezers het nog reuzeleuk om zelf uren op Internet
rond te dolen. Zodra daar de nieuwigheid vanaf is, zal zeker bij de professionele
gebruiker, behoefte zijn aan een database die de gevraagde informatie, desgewenst
samen met daarmee samenhangende bronnen en multimediacomponenten, op een betrouwbare
manier en op het gewenste niveau kan aanbieden. Met andere woorden: de bureauredactie
sterft niet uit, maar ondergaat een metamorfose.
Lees verder
* Over de traditionele vormgeving de twee uitstekende boeken van K. F. Treebos:
Tekstwijzer. Een gids voor het grafisch verwerken van tekst. Den Haag: Staatsuitgeverij,
1982.
Vormwijzer. Een gids bij het vormgeven en produceren van drukwerk. Den Haag:
SDU, 1991.
* Voor een mooi kort overzicht over het verschil tussen SGML, XML, HTML en
PDF, zie:
Nico Poppelier: Hergebruik? Hergebruik!' Bijdrage 8e Dag van het Document.
Ede. 14 september 1999. www.dagdocument.nl/proc99
In dezelfde bundel staat een bijdrage van mijn hand onder de titel: Tijdsplanning en logistiek in de elektronische uitgeverij.
* Voor een algemene inleiding XML:
Charles F. Goldfarb en Paul Prescod: The XML Handbook. 2nd edition.Prentice
Hall, 2000.
Voor XML-RDF: http://www.w3c.org/TR/PR-rdf-schema
Voor XML-XLink: http://www.w3c.org/TR/xlink
* Informatie over een initiatief van de universiteitsbibliotheken van Utrecht en Delft om elektronisch te gaan publiceren is te vinden op: http://roquade.library.uu.nl/roquade/home
* De Digitale Object Identificator (The Digital Object Identifier) DOI is een systeem voor de oormerking van intellectueel eigendom in een digitale omgeving. Dit valt onder een project van de Internationale DOI-stichting ten behoeve van de uitgeefindustrie. Zie: http://www.doi.org/
© J. Kircz, 2000