PK Systems PK Systems
Afbeeldingstools

OCR — afbeelding naar tekst

Haal tekst uit afbeeldingen, screenshots, foto's of gescande documenten. Tesseract draait volledig in je browser.

OCR — afbeelding naar tekst

Sleep een afbeelding hierheen of klik om te kiezen PNG, JPG, WebP, BMP — max. 12 MB

Herkenning draait lokaal — je afbeelding verlaat de browser nooit.

Status

Wat is OCR?

Optical Character Recognition (OCR) zet tekst in een afbeelding — een screenshot, een gefotografeerd contract, een whiteboard-snap, een gescande bon, een boekpagina — terug om in selecteerbare, kopieerbare, doorzoekbare tekst. Sleep de afbeelding, kies de taal en de herkende tekst verschijnt binnen seconden, klaar om in je document of notities te plakken. De afbeelding en de herkende tekst verlaten je apparaat nooit — er is geen upload, geen kopie van je bestand op een server van derden, geen logging. Die privacygarantie is belangrijk omdat de documenten die mensen het vaakst door een OCR halen, precies de documenten zijn die je niet in een willekeurige onlinetool wilt plakken: id-bewijzen, paspoorten, contracten, medische formulieren, loonstroken, belastingbrieven, screenshots van interne apps. Kies de taal die past bij je afbeelding (Engels, Portugees of Spaans) — de herkenningsnauwkeurigheid daalt sterk wanneer het verkeerde model wordt gebruikt. De uitvoer is ter plekke bewerkbaar: je kunt klassieke OCR-verwarringen (0 vs O, 1 vs l vs I, m vs rn) corrigeren voordat je kopieert of downloadt. Schakel optioneel de betrouwbaarheid per woord in zodat elk woord wordt gemarkeerd met hoe zeker de engine is — handig om snel te zien welke delen van een scan van lage kwaliteit nog een menselijk oog nodig hebben.

Hoe gebruik je de OCR-tool

  1. Drop je afbeelding — Screenshots en schone scans werken het best. Foto's van documenten werken ook als de belichting gelijkmatig is en de camera recht wordt gehouden.
  2. Kies de taal — Stem de taal af op de tekst in de afbeelding. Elk model wordt eenmalig gedownload en gecached. Niet-overeenkomende modellen geven onzin.
  3. Wacht op herkenning — Klik op Tekst extraheren. De eerste keer worden de engine en het taalmodel gedownload — daaropvolgende keren met dezelfde taal zijn snel.
  4. Kopieer of download de tekst — Het uitvoervak is bewerkbaar. Corrigeer fouten en kopieer of download als .txt-bestand.

Hoe de herkenning werkt

Moderne OCR werkt in vijf stappen. Eerst wordt de afbeelding gebinariseerd — omgezet naar puur zwart-wit zodat de engine inkt van achtergrond kan onderscheiden, ongeacht papierkleur of schaduw. Ten tweede worden verbonden pixels gegroepeerd tot vormen, en daarna tot woorden en regels volgens de natuurlijke leesvolgorde van de pagina. Ten derde wordt elk woord gesegmenteerd in afzonderlijke kandidaat-tekens. Ten vierde gaan die kandidaten door een neuraal netwerk dat specifiek getraind is op de gekozen taal, en daarom is het kiezen van de juiste taal zo belangrijk: dezelfde lettervorm kan in het Engels de meest waarschijnlijke match zijn en in het Portugees of Spaans een totaal andere letter. Ten vijfde kijkt een taalmodel naar het hele woord in context en kiest de meest plausibele lezing uit een woordenboek met veelvoorkomende vormen — dat vangt verwarringen op zoals ofice dat stilletjes wordt gecorrigeerd naar office. De betrouwbaarheidsscore per woord is de zelfgerapporteerde zekerheid van de engine voor elk woord; zeer hoge scores zijn vrijwel altijd correct, lage scores zijn waar je naar het origineel moet kijken.

Beste afbeeldingstypes voor OCR

Uitstekend: schone PDF-screenshots, goed verlichte scans van getypte pagina's, schermafbeeldingen van artikelen, gedrukte boekpagina's recht van voren gefotografeerd. Oké: gefotografeerde gedrukte pagina's met gelijkmatige belichting, licht scheve scans (onder 5°), bonnetjes in goede staat, bewegwijzering vanuit gematigde hoeken gefotografeerd. Slecht: handschrift (de engine is getraind op druk, niet op cursief), sterk geroteerde of vervormde pagina's, foto's met weinig licht, sterk gecomprimeerde JPEGs vol ruis, decoratieve of gestileerde lettertypes, zeer kleine tekst (onder ongeveer 10 pixels hoog). Verhoog voor lastige afbeeldingen de resolutie voordat je OCR draait — scherpe, goed verlichte pixels zijn veel belangrijker dan bestandsgrootte, en een 1500 pixel brede crop verslaat meestal een wazig 4K-origineel.

Veelgestelde vragen

Wordt mijn afbeelding geüpload?
Nee. De OCR draait volledig op je apparaat. Je afbeelding en de herkende tekst verlaten de browser nooit, gaan nooit naar onze servers en worden niet opgeslagen, geïndexeerd, gelogd of gedeeld. De enige netwerkverbindingen zijn de eenmalige downloads van de herkenningsengine en het taalmodel bij eerste gebruik, waarna de pagina werkt, ook als je offline gaat.
Waarom is de eerste keer traag?
De eerste keer dat je OCR draait voor een bepaalde taal, downloadt de browser het taalmodel (~10 MB). Daaropvolgende keren hergebruiken het gecachete bestand en starten direct.
Kan ik handschrift OCR'en?
Het herkenningsmodel is voornamelijk getraind op gedrukte tekst. Nette blokletters werken soms; cursief of slordig handschrift levert onzin op. Handschrift-OCR is een veel moeilijker probleem — open-source browsergebaseerde engines kunnen het nog niet betrouwbaar aan, en we geven liever geen resultaat dan een verkeerd resultaat.
Waarom verwart het 0/O en l/1?
Die tekens zijn in veel lettertypen visueel identiek — zelfs mensen hebben context nodig om ze te onderscheiden. De engine gebruikt een taalmodel om de keuze te beïnvloeden, maar gokt soms verkeerd. De betrouwbaarheidsmodus markeert precies waar je extra moet controleren.
Kan ik meer talen toevoegen?
We bieden momenteel de drie talen met de breedste vraag voor deze site (Engels, Portugees, Spaans), aangezien elk taalmodel een download van ~10 MB is. Heb je een andere taal nodig, neem dan contact op en we kijken of we hem kunnen toevoegen.
Het resultaat klopt grotendeels maar zit vol kleine tikfouten.
Wat herkenningsfouten zijn normaal bij imperfecte afbeeldingen. Het uitvoertekstvak is om die reden bewerkbaar — corrigeer de duidelijke fouten en kopieer of download. Plak voor lange documenten in je editor en draai een spellingscontrole om de rest op te ruimen.