OCR — Text aus Bildern extrahieren
Lesen Sie Text aus Bildern, Screenshots, Fotos oder PDFs — direkt im Browser, kein Upload.
Was dieses Tool macht
Optical Character Recognition (OCR) verwandelt Text innerhalb eines Bildes — ein Screenshot, ein abfotografierter Vertrag, eine Whiteboard-Aufnahme, ein gescannter Beleg, eine Buchseite — zurück in markierbaren, kopierbaren, durchsuchbaren Text. Bild ablegen, Sprache wählen, und der erkannte Text erscheint in Sekunden, fertig zum Einfügen in dein Dokument oder deine Notizen. Das Bild und der erkannte Text verlassen dein Gerät nie — kein Upload, keine Kopie deiner Datei auf einem Drittserver, kein Logging. Diese Datenschutzgarantie ist wichtig, weil die Dokumente, die am häufigsten durch OCR laufen, genau die sind, die du nicht in ein beliebiges Online-Tool einfügen solltest: Ausweise, Reisepässe, Verträge, medizinische Formulare, Gehaltsabrechnungen, Steuerbescheide, Screenshots interner Apps. Wähl die Sprache, die zu deinem Bild passt (Englisch, Portugiesisch oder Spanisch) — die Erkennungsgenauigkeit fällt stark, wenn das falsche Modell genutzt wird. Die Ausgabe lässt sich direkt bearbeiten: du kannst klassische OCR-Verwechslungen (0 vs. O, 1 vs. l vs. I, m vs. rn) korrigieren, bevor du kopierst oder herunterlädst. Optional kannst du die Konfidenz pro Wort aktivieren, sodass jedes Wort markiert wird, wie sicher sich die Engine ist — praktisch, um schnell zu erkennen, welche Stellen eines schlechten Scans noch ein menschliches Auge brauchen.
So funktioniert es
- Bild ablegen — Screenshots und saubere Scans funktionieren am besten. Fotos von Dokumenten klappen ebenfalls, wenn die Beleuchtung gleichmäßig ist und die Kamera gerade gehalten wird.
- Sprache wählen — Stelle die Sprache passend zum Text im Bild ein. Jedes Modell wird einmal heruntergeladen und gecacht. Falsche Modelle liefern Unsinn.
- Extrahieren — Klick auf Text extrahieren. Der erste Lauf lädt die Engine und das Sprachmodell — weitere Läufe in derselben Sprache sind schnell.
- Bearbeiten, kopieren, herunterladen — Das Ausgabefeld ist editierbar. Behebe Fehler und kopiere oder lade als .txt-Datei herunter.
So funktioniert OCR (in 200 Wörtern)
Moderne OCR arbeitet in fünf Schritten. Zuerst wird das Bild binarisiert — also in reines Schwarz-Weiß umgewandelt, damit die Engine Tinte und Hintergrund unabhängig von Papierfarbe oder Schatten unterscheiden kann. Zweitens werden zusammenhängende Pixel zu Formen, dann zu Wörtern und Zeilen gruppiert, dem natürlichen Lesefluss der Seite folgend. Drittens wird jedes Wort in einzelne Buchstaben-Kandidaten segmentiert. Viertens werden diese Kandidaten durch ein auf die gewählte Sprache trainiertes neuronales Netz gefüttert — deshalb ist die richtige Sprachwahl so wichtig: dieselbe Buchstabenform kann im Englischen die wahrscheinlichste Zuordnung sein und im Portugiesischen oder Spanischen ein völlig anderer Buchstabe. Fünftens betrachtet ein Sprachmodell das gesamte Wort im Kontext und wählt die plausibelste Lesart aus einem Wörterbuch gängiger Formen — das fängt Verwechslungen ab, etwa wenn ofice stillschweigend zu office korrigiert wird. Der Konfidenzwert pro Wort ist die selbst eingeschätzte Sicherheit der Engine; sehr hohe Werte sind fast immer korrekt, niedrige Werte sind die Stellen, an denen du auf das Original schauen solltest.
Was gut funktioniert, was nicht
Top: saubere PDF-Screenshots, gut ausgeleuchtete Scans getippter Seiten, Bildschirmaufnahmen von Artikeln, frontal abfotografierte Buchseiten. Okay: abfotografierte gedruckte Seiten mit gleichmäßiger Beleuchtung, leicht schiefe Scans (unter 5°), Belege in gutem Zustand, Beschilderung in mäßigen Winkeln. Schwach: Handschrift (die Engine ist auf Druck trainiert, nicht auf Schreibschrift), stark gedrehte oder verzerrte Seiten, Fotos bei schlechtem Licht, sehr stark komprimierte JPEGs voller Rauschen, dekorative oder stilisierte Schriftarten, sehr kleine Schrift (unter ca. 10 Pixeln Höhe). Bei schwierigen Bildern erhöh die Auflösung vor dem OCR-Lauf — scharfe, gut beleuchtete Pixel zählen viel mehr als die Dateigröße, und ein 1500 Pixel breiter Ausschnitt schlägt meist ein verschwommenes 4K-Original.