Excite

Papierloze kantoren komen weer een stap dichter

Nu staatssecretaris De Jager besloten heeft dat Freelancers ook mogen factureren per e-mail met een PDF, wordt dit bestandsformaat nog interessanter dan het al was voorheen. Bovendien schreef The Economist onlangs over papierloze kantoren, wat natuurlijk op alle vlakken een verbetering zou zijn. PDF wordt gebruikt voor bestanden die niet meer gewijzigd dienen te worden. Zo ben je zeker dat opmaak behouden blijft. Er zijn veel artikelen beschikbaar over PDF's creëren, het makkelijkste is een Virtuele printer zoals het kostenloze PDFCreator.

Wat iets moeilijker ligt is een bestaand PDF-bestand omvormen tot een word-document of een doorlopende tekst. De nieuwe website OCRTerminal biedt de oplossing. OCR staat voor Optical Character Recognition. PDF en zelfs afbeeldingen in TIFF, JPEG, GIF en BMP formaat kunnen omgevormd worden tot Word-documenten. Volgens de introductie op hun website blijven lay-out en opmaak volledig bewaard. Daarvoor waren tot voor kort duren softwarepakketten nodig die ook nog eens veel schijfruimte in beslag namen.

De dienst is gelimiteerd tot 30 pagina's per dag. Genoeg voor een briefje, niet genoeg voor een boek. Natuurlijk kan je dan je PDF wel splitsen, ook daar zijn websites voor.

Bij een eerste test, krijgen we de waarschuwing dat de wachttijd wat langer zou zijn aangezien er veel gebruikers op de website bezig waren. De dienst is gloednieuw en de interesse is duidelijk erg groot. Het document dat we inlezen bevat een ingewikkelde kolomstructuur, verschillende kleuren letters en twee lettertypes in verschillende grootten.

Het resultaat neemt grofweg vijf minuten in beslag maar is echt indrukwekkend. De grote lading speciale karakters werden meestal niet juist herkend maar dat is te vergeven als je naar de perfect overgenomen kolommen kijkt, de kleuren en de tekst die juist is overgenomen met weinig fouten. Veel beter dan freeware OCR-programma's en staat de site staat daarmee op hetzelfde niveau als bijvoorbeeld ABBYY Finereader OCR en OmniPage, ook al dienen deze pakketten natuurlijk wel een hoop interessante extra's als spellingscontrole. De grote verrassing komt als we het document downloaden als XML en de structuur bekijken: de software achter de website is Finereader 8.0 zelf! Kennelijk gaat het bedrijf ABBYY een andere, door advertenties gesponsorde, weg op. Voor de gebruiker niet erg, aangezien deze software minstens 149 euro kost in de winkel...

Link naar OCRTerminal

Holland - Excite Network Copyright ©1995 - 2017