OCR — afbeelding naar tekst
Haal tekst uit afbeeldingen, screenshots, foto's of gescande documenten. Tesseract draait volledig in je browser.
Wat is OCR?
Optical Character Recognition (OCR) zet tekst in een afbeelding — een screenshot, een gefotografeerd contract, een whiteboard-snap, een gescande bon, een boekpagina — terug om in selecteerbare, kopieerbare, doorzoekbare tekst. Sleep de afbeelding, kies de taal en de herkende tekst verschijnt binnen seconden, klaar om in je document of notities te plakken. De afbeelding en de herkende tekst verlaten je apparaat nooit — er is geen upload, geen kopie van je bestand op een server van derden, geen logging. Die privacygarantie is belangrijk omdat de documenten die mensen het vaakst door een OCR halen, precies de documenten zijn die je niet in een willekeurige onlinetool wilt plakken: id-bewijzen, paspoorten, contracten, medische formulieren, loonstroken, belastingbrieven, screenshots van interne apps. Kies de taal die past bij je afbeelding (Engels, Portugees of Spaans) — de herkenningsnauwkeurigheid daalt sterk wanneer het verkeerde model wordt gebruikt. De uitvoer is ter plekke bewerkbaar: je kunt klassieke OCR-verwarringen (0 vs O, 1 vs l vs I, m vs rn) corrigeren voordat je kopieert of downloadt. Schakel optioneel de betrouwbaarheid per woord in zodat elk woord wordt gemarkeerd met hoe zeker de engine is — handig om snel te zien welke delen van een scan van lage kwaliteit nog een menselijk oog nodig hebben.
Hoe gebruik je de OCR-tool
- Drop je afbeelding — Screenshots en schone scans werken het best. Foto's van documenten werken ook als de belichting gelijkmatig is en de camera recht wordt gehouden.
- Kies de taal — Stem de taal af op de tekst in de afbeelding. Elk model wordt eenmalig gedownload en gecached. Niet-overeenkomende modellen geven onzin.
- Wacht op herkenning — Klik op Tekst extraheren. De eerste keer worden de engine en het taalmodel gedownload — daaropvolgende keren met dezelfde taal zijn snel.
- Kopieer of download de tekst — Het uitvoervak is bewerkbaar. Corrigeer fouten en kopieer of download als .txt-bestand.
Hoe de herkenning werkt
Moderne OCR werkt in vijf stappen. Eerst wordt de afbeelding gebinariseerd — omgezet naar puur zwart-wit zodat de engine inkt van achtergrond kan onderscheiden, ongeacht papierkleur of schaduw. Ten tweede worden verbonden pixels gegroepeerd tot vormen, en daarna tot woorden en regels volgens de natuurlijke leesvolgorde van de pagina. Ten derde wordt elk woord gesegmenteerd in afzonderlijke kandidaat-tekens. Ten vierde gaan die kandidaten door een neuraal netwerk dat specifiek getraind is op de gekozen taal, en daarom is het kiezen van de juiste taal zo belangrijk: dezelfde lettervorm kan in het Engels de meest waarschijnlijke match zijn en in het Portugees of Spaans een totaal andere letter. Ten vijfde kijkt een taalmodel naar het hele woord in context en kiest de meest plausibele lezing uit een woordenboek met veelvoorkomende vormen — dat vangt verwarringen op zoals ofice dat stilletjes wordt gecorrigeerd naar office. De betrouwbaarheidsscore per woord is de zelfgerapporteerde zekerheid van de engine voor elk woord; zeer hoge scores zijn vrijwel altijd correct, lage scores zijn waar je naar het origineel moet kijken.
Beste afbeeldingstypes voor OCR
Uitstekend: schone PDF-screenshots, goed verlichte scans van getypte pagina's, schermafbeeldingen van artikelen, gedrukte boekpagina's recht van voren gefotografeerd. Oké: gefotografeerde gedrukte pagina's met gelijkmatige belichting, licht scheve scans (onder 5°), bonnetjes in goede staat, bewegwijzering vanuit gematigde hoeken gefotografeerd. Slecht: handschrift (de engine is getraind op druk, niet op cursief), sterk geroteerde of vervormde pagina's, foto's met weinig licht, sterk gecomprimeerde JPEGs vol ruis, decoratieve of gestileerde lettertypes, zeer kleine tekst (onder ongeveer 10 pixels hoog). Verhoog voor lastige afbeeldingen de resolutie voordat je OCR draait — scherpe, goed verlichte pixels zijn veel belangrijker dan bestandsgrootte, en een 1500 pixel brede crop verslaat meestal een wazig 4K-origineel.