OCR

    Aus WISSEN-digital.de

    Abk. für: Optical Character Recognition, deutsch: optische Zeichenerkennung,


    Verfahren, mit dem gedruckte Texte in den Computer "eingelesen" (digitalisiert) werden. Die Vorlage gelangt zunächst in bzw. unter ein Lesegerät (Scanner). Eine spezielle Software identifiziert dann die einzelnen Buchstaben, Zahlen und sonstigen Zeichen. Dies beginnt mit dem Unterscheiden von Text und Grafik (Segmentieren). Darauf folgt die eigentliche Texterkennung. Früher war dies vor allem ein Vergleich mit Mustern (Pattern Matching). Heute werden zusätzlich typische Merkmale von Zeichen identifiziert (Feature Recognition). Die dabei meist benutzte so genannte Omnifont-Technologie "kennt" die Merkmale der meisten gebräuchlichen Schriften. Die Identifizierung wird meist durch weitere Verfahren unterstützt, die z.B. berücksichtigen, dass einige Buchstabenverbindungen häufig vorkommen (wie etwa: "ie").

    Leistungsfähige OCR-Software arbeitet heute mehrstufig: Sie analysiert zunächst den Seitenaufbau, dann folgt die Zeichenerkennung, und zwar - in Kombination der oben genannten Hauptmethoden - a) eine Überdeckungsanalyse (Übereinstimmung mit gespeichertem Muster) und b) eine Topologieerkennung (Zahl und Verlauf der Linien eines Buchstabens werden analysiert). Abschließend findet ein Vergleich der Wörter mit einem internen Wörterbuch statt. Dies ermöglicht Trefferquoten von über 98 Prozent. Bestimmte Schriftarten und -stile sowie schlechte Druckqualität oder geringe Schriftgrößen bereiten allerdings Schwierigkeiten. Die meisten Programme sind "lernfähig"; der Anwender kann vorgeben, wie nicht erkannte Zeichen identifiziert werden sollen. Diese Vorgaben werden dann berücksichtigt. Handschriften können von OCR-Software in der Regel nicht verarbeitet werden (siehe Handschrifterkennung).

    Kalenderblatt - 19. März

    1921 Russland und Polen unterzeichnen einen Friedensvertrag.
    1953 Der Bundestag billigt die deutsch-alliierten Verträge, die später Deutschlandvertrag genannt werden. In ihnen wird das Ende des Besatzungsstatus und die Wiedererlangung der Souveränität geregelt.
    1956 Die Bundesrepublik erlässt das Soldatengesetz, in dem die Forderungen an eine demokratische Armee dargelegt werden.