Digitalisierung (im Wandel der Zeit) 2005 – 2025

Der Ausgangspunkt für die Erstellung dieser Internetseite

Der Weg zu einer digitalen Version des Shijing war lang und voller Herausforderungen. Meine Mutter, Hildegard Fischer, beschreibt hier in ihren eigenen Worten den aufwendigen Prozess der Digitalisierung.

Im Jahr 2005 hatte ich das über 100 Jahre alte, handschriftliche Buch mit dem Titel „Schi-King – Shijing SINICE cum praeparatione interpretationis“ digitalisiert. Der Prozess war mit mehreren Herausforderungen verbunden.

Zunächst mussten die 623 unnummerierten und sehr dünnen Seiten sorgfältig gescannt werden, ohne den fragilen Einband zu beschädigen. Anschließend erforderte die digitale Nachbearbeitung eine Bereinigung der Scans, da der Text der Rückseiten durchschien und Schatten vorhanden waren.

Zudem mussten Zeichen korrigiert werden, die durch die Buchbindung teilweise verdeckt oder durch die Wölbung der Seiten verzerrt dargestellt wurden. Aufgrund unterschiedlicher Farbintensität der originalen Pinselzeichen wurden tausende Zeichen manuell nachgebessert. Hierfür wurde ein Index aus gut lesbaren Zeichen erstellt, um unklare Stellen zu ersetzen.

Die gesamte Bearbeitung erstreckte sich vom Frühjahr bis in den Herbst des Jahres 2005.
– Hildegard Fischer

Der Weg ins Internet von 2005 bis 2025.

Aufbauend auf diese unermüdlichen Arbeit ist das Werk nun online verfügbar. Der Weg von den ersten Scans aus dem Jahr 2005 bis zur finalen digitalen Nachbearbeitung mit heutigen Mitteln wird hier beschrieben.

Dabei wurde bewusst ausschließlich auf freie Open-Source-Software (hier Arch Linux) gesetzt, um das Projekt unabhängig und für alle zugänglich zu halten.

Konvertierung der „alten“ Bildformate in ein aktuelles platzsparendes Format

Verwendete Software: imagemagick

Bash
sudo pacman -S imagemagick

PSD nach JPG:

Bash
find . -type f -iname ".psd" -exec bash -c ' TARGET="${0%.}.jpg"
if [ ! -f "$TARGET" ]; then
echo "Konvertiere: $0"
magick "$0" -quality 90 "$TARGET"
fi
' {} \;

BMP zu JPG:

Bash
find . -type f -iname "*.bmp" -exec bash -c '
    TARGET="${0%.*}.jpg"
    if [ ! -f "$TARGET" ]; then
        echo "Konvertiere: $0"
        magick "$0" -quality 85 "$TARGET"
    fi
' {} \;

Alternativ zu JPG bietet sich auch PNG an, je nach Bildmaterial.

Zusammenfassung der einzelnen Bilddateien in eine PDF und OCR.

Installation von ocrmypdf und die Tesseract-Sprachpakete für Deutsch und – ganz wichtig – für Fraktur.

Bash
sudo pacman -S ocrmypdf tesseract-data-deu tesseract-data-frk
# sudo pacman -S yay (falls yay nicht schon installiert ist - https://aur.archlinux.org/) 
yay –S ocrmypdf  
  • ocrmypdf: Das Hauptprogramm zur Konvertierung (OCR).
  • tesseract-data-deu: Das Sprachpaket für modernes Deutsch.
  • tesseract-data-frk: Das spezielle Sprachpaket für Frakturschriften.

Vorbereitung der Bilddateien durch Zusammenführung in eine PDF-Datei

  • Alle Bilddateien in einen eigenen Ordner, z.B. ~/Buch-Scan/.
  • Navigieren in den Ordner
Bash
cd ~/Buch-Scan/
  • Verwendung des Tool convert (von ImageMagick), um alle Bilder zu einer PDF zusammenzufügen. Darauf achten, dass alle Dateien alphabetisch korrekt benannt sind (z.B. seite-001.png, seite-002.png, … seite-500.png).
  • Führe dann diesen Befehl aus:
Bash
convert *.png Buch-Rohscan.pdf 
  • Dieser Prozess kann je nach Auflösung und Anzahl der Bilder eine Weile dauern. Am Ende entsteht eine (große) Datei namens Buch-Rohscan.pdf in dem Ordner.

Von der PDF-Datei mit Bildern zur PDF mit digitalem Text.

OCR-Prozess starten

Jetzt kommt die Magie. Im selben Ordner (~/Buch-Scan/) wird ocrmypdf auf die gerade erstellte PDF-Datei ausgeführt.

Bash
ocrmypdf -l deu+frk --jobs 4 Buch-Rohscan.pdf Buch-Fertig-OCR.pdf

Befehl im Überblick:

  • ocrmypdf: Das Programm.
  • -l deu+frk: Das ist der wichtigste Teil. Die OCR-Engine, soll sowohl nach deutschem Text als auch nach Fraktur-Schrift suchen. Das verbessert die Erkennungsrate massiv.
  • --jobs 4: Optional, aber sehr empfohlen. Dies weist das Programm an, 4 CPU-Kerne parallel zu nutzen. Anpassen an die Anzahl der Kerne des verwendeten PCs, um den Prozess erheblich zu beschleunigen.
  • Buch-Rohscan.pdf: Die Eingabedatei.
  • Buch-Fertig-OCR.pdf: Der Name der Ausgabedatei.

Das Ergebnis ist eine voll durchsuchbare PDF-Datei, in der sich der Text nun durchsuchen, markieren und kopieren lässt.

Die technische Optimierung: Kleiner und zukunftssicher

Ein wesentlicher Schritt der finalen Aufbereitung war die Optimierung der PDF-Datei durch ocrmypdf. Dieser Prozess brachte drei entscheidende Vorteile:

  • Effizientere Bildkompression: Die Bilddaten der Scans wurden neu komprimiert, was die Dateigröße der Bilder um 33,5 % reduzierte, ohne die sichtbare Qualität zu mindern.
  • Massive Reduzierung der Gesamtgröße: Die finale PDF-Datei ist um über 80 % kleiner als die ursprüngliche Roh-Datei. Dies verbessert die Ladezeiten und erleichtert den Umgang mit dem Dokument erheblich.
  • Standard für Langzeitarchivierung (PDF/A): Die Datei wurde im PDF/A-Format gespeichert. Dieser internationale Standard garantiert, dass das Dokument auch in ferner Zukunft noch korrekt und lesbar dargestellt werden kann.