OCR Tools

Optical Character Recognition

Optische Zeichenerkennung, oder kurz OCR, ist eine Technologie, die die Umwandlung unterschiedlicher Dokumente, wie beispielsweise gescannter Papierdokumente, PDF-Dateien oder Digitalbilder in editierbare und durchsuchbare Daten ermöglicht.

Stellen Sie sich vor, Sie haben ein Dokument in Papierform – zum Beispiel einen Zeitungsartikel, eine Broschüre oder einen Vertrag, den Ihnen Ihr Partner als PDF-Anhang geschickt hat. Offensichtlich reicht ein Scanner nicht aus, um die relevanten Informationen aus diesen Dokumenten herauszuziehen und beispielsweise im bearbeitbaren Microsoft Word-Format wiederzugeben. Alles, was ein Scanner leisten kann, ist ein Bild des Dokuments zu erstellen. Und dieses ist lediglich eine Ansammlung schwarzer, weißer oder farbiger Bildpunkte, die tabellarisch angeordnet und in der Fachsprache unter dem Begriff Rastergrafik bekannt sind. Zum Auslesen und Weiterverwenden der Informationen aus gescannten Dokumenten, Digitalbildern oder Nur-Bild-PDFs benötigt man eine OCR-Software, die in den Bildern Buchstaben erkennt, diese zu Wörtern zusammensetzt und aus diesen wiederum ganze Sätze baut. Damit ermöglicht Ihnen die Software den Zugang zum eigentlichen Inhalt der Dokumente, den Sie anschließend weiter bearbeiten können.