OCR — Text aus Bildern extrahieren

Was dieses Tool macht

Optical Character Recognition (OCR) verwandelt Text innerhalb eines Bildes — ein Screenshot, ein abfotografierter Vertrag, eine Whiteboard-Aufnahme, ein gescannter Beleg, eine Buchseite — zurück in markierbaren, kopierbaren, durchsuchbaren Text. Bild ablegen, Sprache wählen, und der erkannte Text erscheint in Sekunden, fertig zum Einfügen in dein Dokument oder deine Notizen. Das Bild und der erkannte Text verlassen dein Gerät nie — kein Upload, keine Kopie deiner Datei auf einem Drittserver, kein Logging. Diese Datenschutzgarantie ist wichtig, weil die Dokumente, die am häufigsten durch OCR laufen, genau die sind, die du nicht in ein beliebiges Online-Tool einfügen solltest: Ausweise, Reisepässe, Verträge, medizinische Formulare, Gehaltsabrechnungen, Steuerbescheide, Screenshots interner Apps. Wähl die Sprache, die zu deinem Bild passt (Englisch, Portugiesisch oder Spanisch) — die Erkennungsgenauigkeit fällt stark, wenn das falsche Modell genutzt wird. Die Ausgabe lässt sich direkt bearbeiten: du kannst klassische OCR-Verwechslungen (0 vs. O, 1 vs. l vs. I, m vs. rn) korrigieren, bevor du kopierst oder herunterlädst. Optional kannst du die Konfidenz pro Wort aktivieren, sodass jedes Wort markiert wird, wie sicher sich die Engine ist — praktisch, um schnell zu erkennen, welche Stellen eines schlechten Scans noch ein menschliches Auge brauchen.

So funktioniert es

Bild ablegen — Screenshots und saubere Scans funktionieren am besten. Fotos von Dokumenten klappen ebenfalls, wenn die Beleuchtung gleichmäßig ist und die Kamera gerade gehalten wird.
Sprache wählen — Stelle die Sprache passend zum Text im Bild ein. Jedes Modell wird einmal heruntergeladen und gecacht. Falsche Modelle liefern Unsinn.
Extrahieren — Klick auf Text extrahieren. Der erste Lauf lädt die Engine und das Sprachmodell — weitere Läufe in derselben Sprache sind schnell.
Bearbeiten, kopieren, herunterladen — Das Ausgabefeld ist editierbar. Behebe Fehler und kopiere oder lade als .txt-Datei herunter.

So funktioniert OCR (in 200 Wörtern)

Moderne OCR arbeitet in fünf Schritten. Zuerst wird das Bild binarisiert — also in reines Schwarz-Weiß umgewandelt, damit die Engine Tinte und Hintergrund unabhängig von Papierfarbe oder Schatten unterscheiden kann. Zweitens werden zusammenhängende Pixel zu Formen, dann zu Wörtern und Zeilen gruppiert, dem natürlichen Lesefluss der Seite folgend. Drittens wird jedes Wort in einzelne Buchstaben-Kandidaten segmentiert. Viertens werden diese Kandidaten durch ein auf die gewählte Sprache trainiertes neuronales Netz gefüttert — deshalb ist die richtige Sprachwahl so wichtig: dieselbe Buchstabenform kann im Englischen die wahrscheinlichste Zuordnung sein und im Portugiesischen oder Spanischen ein völlig anderer Buchstabe. Fünftens betrachtet ein Sprachmodell das gesamte Wort im Kontext und wählt die plausibelste Lesart aus einem Wörterbuch gängiger Formen — das fängt Verwechslungen ab, etwa wenn ofice stillschweigend zu office korrigiert wird. Der Konfidenzwert pro Wort ist die selbst eingeschätzte Sicherheit der Engine; sehr hohe Werte sind fast immer korrekt, niedrige Werte sind die Stellen, an denen du auf das Original schauen solltest.

Was gut funktioniert, was nicht

Top: saubere PDF-Screenshots, gut ausgeleuchtete Scans getippter Seiten, Bildschirmaufnahmen von Artikeln, frontal abfotografierte Buchseiten. Okay: abfotografierte gedruckte Seiten mit gleichmäßiger Beleuchtung, leicht schiefe Scans (unter 5°), Belege in gutem Zustand, Beschilderung in mäßigen Winkeln. Schwach: Handschrift (die Engine ist auf Druck trainiert, nicht auf Schreibschrift), stark gedrehte oder verzerrte Seiten, Fotos bei schlechtem Licht, sehr stark komprimierte JPEGs voller Rauschen, dekorative oder stilisierte Schriftarten, sehr kleine Schrift (unter ca. 10 Pixeln Höhe). Bei schwierigen Bildern erhöh die Auflösung vor dem OCR-Lauf — scharfe, gut beleuchtete Pixel zählen viel mehr als die Dateigröße, und ein 1500 Pixel breiter Ausschnitt schlägt meist ein verschwommenes 4K-Original.

Häufig gestellte Fragen

Wird mein Bild hochgeladen?

Nein. Die OCR läuft komplett auf deinem Gerät. Dein Bild und der erkannte Text verlassen den Browser nie, gehen nicht an unsere Server und werden nicht gespeichert, indexiert, geloggt oder geteilt. Die einzigen Netzwerk-Aufrufe sind die einmaligen Downloads der Erkennungs-Engine und des Sprachmodells beim ersten Einsatz — danach funktioniert die Seite auch offline.

Warum ist der erste Lauf langsam?

Beim ersten OCR-Lauf für eine Sprache lädt der Browser das Sprachmodell (~10 MB) herunter. Folgeläufe nutzen die gecachte Datei und starten sofort.

Kann ich Handschrift per OCR erkennen?

Das Erkennungsmodell ist überwiegend auf Druckschrift trainiert. Saubere Druckbuchstaben funktionieren manchmal; Schreibschrift oder unsaubere Handschrift liefert Müll. Handschrift-OCR ist ein deutlich schwierigeres Problem — Open-Source-Engines im Browser bekommen das noch nicht zuverlässig hin, und wir liefern lieber kein Ergebnis als ein falsches.

Warum verwechselt das Tool 0/O und l/1?

Diese Zeichen sind in vielen Schriftarten optisch identisch — selbst Menschen brauchen Kontext, um sie zu unterscheiden. Die Engine nutzt ein Sprachmodell, um die Wahl zu beeinflussen, rät aber manchmal trotzdem falsch. Der Konfidenz-Modus markiert genau, wo du gegenchecken solltest.

Kann ich weitere Sprachen hinzufügen?

Wir bieten derzeit die drei mit der größten Nachfrage auf dieser Seite (Englisch, Portugiesisch, Spanisch), da jedes Sprachmodell ein ~10-MB-Download ist. Wenn du eine andere Sprache brauchst, melde dich, dann prüfen wir, ob wir sie aufnehmen.

Das Ergebnis ist überwiegend richtig, aber voller kleiner Tippfehler.

Einige Erkennungsfehler sind bei nicht perfekten Bildern normal. Genau deshalb ist das Ausgabefeld editierbar — beheb die offensichtlichen Fehler und kopiere oder lade dann herunter. Bei längeren Dokumenten füge den Text in deinen Editor ein und lass eine Rechtschreibprüfung über den Rest laufen.

OCR — Text aus Bildern extrahieren