OCR4all - Open-Source Texterkennung von der Massenverarbeitung bis zur hochqualitativen Transkription von Manuskripten

Foto: Staats- und Universitätsbibliothek Hamburg
Wann: Mi, 08.11.2023, 17:00 Uhr bis 18:30 Uhr
Wo: Zoom
Ein zentraler Aspekt der Arbeit von geistes- und kultur- und humanwissenschaftlichen Forscher:innen ist die Auseinandersetzung mit historischen Quellen in Form von gedruckten und handschriftlichen Textzeugen. Diese liegen häufig lediglich als Scans vor, was ihre Verwendbarkeit stark einschränkt, da automatische Erschließungsansätze wie die Volltextsuche oder Verfahren der quantitativen Analyse nicht einsetzbar sind. Hierzu muss aus den Digitalisaten zunächst sog. maschinenverarbeitbarer Volltext extrahiert werden, wobei Methoden der automatischen Texterkennung von Drucken (Optical Character Recognition, OCR) oder Handschriften (Handwritten Text Recognition, HTR) eine immer größere Rolle spielen. Gerade sehr alte Drucke und Handschriften stellen dabei aus verschiedensten Gründen häufig noch eine große Herausforderung dar. Erfreulicherweise gab es in den letzten Jahren große Fortschritte im Bereich der historischen OCR/HTR, die einige hochperformanteTools hervorgebracht haben.
Das am Zentrum für Philologie und Digitalität (ZPD) der Universität Würzburg entwickelte frei verfügbare Open Source Werkzeug OCR4all hat zum Ziel, auch technisch weniger versierten Nutzer:innen die Möglichkeit zu geben, anspruchsvolle Drucke und Handschriften selbstständig und in höchster Qualität zu erschließen. OCR4all kapselt den gesamten Texterkennungsworkflow und alle dafür benötigten Tools in einer einzigen Anwendung, die leicht installiert und über eine komfortable grafische Nutzeroberfläche bedient werden kann.
Der Vortrag erläutert die Grundlagen der automatischen Texterkennung und stellt OCR4all und dessen Funktionsweise im Rahmen einer Live-Demo vor. Außerdem wird die Anwendbarkeit und Performanz auf unterschiedlichen Material demonstriert und ein Überblick über aktuelle Arbeiten sowie ein Ausblick auf zukünftige Entwicklungen gegeben.
Eine Veranstaltung im Rahmen der Veranstaltungsreihe ''Digital Humanities – Wie geht das?''des Referats für Digitale Forschungsdienste.