Open-Source-Archivierung mit OCR
Durchsuchbare PDFs generieren
Das Schweizer Software-Haus Archivista hat am Freitag seine Archivierungslösung ArchivistaBox 2008/IX vorgestellt. Das System und alle in ihm verwendeten Komponenten stehen vollumfänglich unter der GPLv2.
Der Hersteller gibt an, dass es sich dabei um die erste Open-Source-Texterkennung handelt, die aus gescannten Dokumenten durchsuchbare PDF-Dateien herstellen kann. Vorteil sei dabei, dass alle Komponenten des Systems unter Open-Source-Lizenzen stünden und zur Speicherung lizenzfreie standardisierte Dateiformate verwendeten. Dadurch könne der Anwender auch in Zukunft mit verschiedenen Lösungen auf die archivierten Dokumente zugreifen.
Zur Texterkennung greift das System auf die Komponenten Tesseract und Cuneiform zurück; die PDF-Dateien werden mit hocr2pdf erstellt. Archivista kann direkt von SourceForge kostenlos als CD-Image heruntergeladen werden. Das Linux-basierte System läuft auch auf virtuellen Maschinen; die Hardware-Anforderungen sind bescheiden [256 MB RAM; 40 GB HDD], der Nutzer muss nur darauf achten, dass sein Dokumentenscanner vom Linux-Scanmodul SANE aus angesprochen werden kann.
