OCR-Erkennung: Texte aus Fotos und schreibgeschützten PDF-Dateien auslesen

Immer wieder kommt es vor, dass man mit einer Kamera oder dem Handy Texte fotografiert, die man später in das Word-Format umwandeln möchte. Das gleiche gilt für schreibgeschützte PDF-Dateien, wenn man mal wieder das Passwort vergessen hat. In der Vergangenheit stellten wir auch schon Software und Webdienste vor, die per OCR-Technik Texte aus Bildern extrahiert kann. Diesmal möchten wir eine schlanke Software vorstellen, mit der man unkompliziert den Text aus PDF-Dateien herauskopiert, ohne das PDF in eine Bilddatei umzuformatieren.

Das betreffende Tool nennt sich GT Text und ist kostenlos im Web, z. B. bei Softonic herunterladbar.

Nach Download und Installation des Programms, musst du für die (deutsche) Texterkennung noch das entsprechende Sprachenpaket herunterladen. Dazu startest du GT Text per Doppelklick auf das Desktop-Icon. Es öffnet sich zuerst der Windows-Explorer, den du direkt wieder beendest.

Dann erst öffnet sich das GT-Text-Programmfenster. Hier klickst du in der Menüleiste auf File | Preferences

…im nächsten Dialogfenster dann auf Add language

…und wählst dann die erforderliche Sprache, zum Beispiel Download and install German language data, aus. Bestätige deine Auswahl mit der Schaltfläche Install.

Nach erfolgreicher Installation des Sprachpaketes wählst du es in dem Programmfenster Preferences aus und bestätigst die Auswahl mit OK. Nun ist GT Text für die ausgewählte Sprache einsatzbereit.

Text aus Bilddateien herauskopieren

Um einen Text aus einer Bild-Datei zu extrahieren, starte GT Text per Doppelklick und wähle über den Windows Explorer das betreffende Foto aus. Alternativ kannst du es natürlich auch in der Menüleiste über das Ordner-Symbol hochladen.

Mit dem Dokumenten-Icon in der Menüleiste kannst du den Text der kompletten Datei auf einen Schlag extrahieren. Wird aber nur ein Teil des Textes benötigt, dann markiere ihn mit gedrückter linker Maustaste. Der erkannte Text wird in einem Dialogfenster angezeigt. Ist das Ergebnis nicht ganz zufriedenstellend, dann klicke auf Wiederholen bis das Optimum erreicht ist.

Die Schaltfläche Weiter kopiert den extrahierten Text in die Zwischenablage, der dann in Word, Notepad oder in eine E-Mail eingefügt werden kann.

Text aus PDF´s extrahieren

Die Textextraktion aus (geschützten) PDF-Dateien funktioniert ähnlich. Im Gegensatz zu den Bilddateien muss du zuerst das PDF-Dokument mit einem geeigneten PDF-Viewer (z. B. Adobe Reader) öffnen. Danach startest du GT Text und fertigst mit dem Screenshot-Icon ein Foto der PDF-Anzeige an.

Die Textextraktion funktioniert dann genauso wie bei den Foto-Dateien.

Kommentar schreiben

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.