Extracteur de texte d'image (OCR)

Ce que fait cet outil

La reconnaissance optique de caractères (OCR) transforme le texte présent dans une image — une capture d'écran, un contrat photographié, une photo de tableau blanc, un reçu scanné, une page de livre — en texte sélectionnable, copiable et indexable. Déposez l'image, choisissez la langue, et le texte reconnu apparaît en quelques secondes, prêt à être collé dans votre document ou vos notes. L'image et le texte reconnu ne quittent jamais votre appareil — il n'y a aucun envoi, aucune copie de votre fichier conservée sur un serveur tiers, aucune journalisation. Cette garantie de confidentialité est essentielle, car les documents que l'on passe le plus souvent à l'OCR sont précisément ceux qu'il ne faudrait pas coller dans un outil en ligne quelconque : pièces d'identité, passeports, contrats, formulaires médicaux, fiches de paie, courriers fiscaux, captures d'écran d'applications internes. Choisissez la langue qui correspond à votre image (anglais, portugais ou espagnol) — la précision de la reconnaissance chute fortement quand le mauvais modèle est utilisé. La sortie est modifiable directement : vous pouvez corriger les confusions classiques de l'OCR (0 et O, 1, l et I, m et rn) avant de copier ou télécharger. Activez éventuellement la confiance par mot pour que chaque mot soit étiqueté avec le degré de certitude du moteur — pratique pour repérer rapidement les parties d'un scan de mauvaise qualité qui nécessitent encore un œil humain.

Mode d'emploi

Déposez l'image — Les captures d'écran et les scans nets fonctionnent le mieux. Les photos de documents fonctionnent aussi si l'éclairage est uniforme et l'appareil tenu droit.
Choisissez la langue — Faites correspondre la langue du texte de l'image. Chaque modèle est téléchargé une seule fois puis mis en cache. Un modèle non concordant donne du charabia.
Extraire — Cliquez sur Extraire le texte. La première exécution télécharge le moteur et le modèle de langue — les exécutions suivantes dans la même langue sont rapides.
Modifier, copier, télécharger — La zone de sortie est modifiable. Corrigez les éventuelles erreurs, puis copiez ou téléchargez en .txt.

Comment fonctionne l'OCR (en 200 mots)

L'OCR moderne fonctionne en cinq étapes. D'abord, l'image est binarisée — convertie en pur noir et blanc pour que le moteur distingue l'encre du fond, quelle que soit la couleur du papier ou les ombres. Ensuite, les pixels connectés sont regroupés en formes, puis en mots et en lignes en suivant le sens de lecture naturel de la page. Troisièmement, chaque mot est segmenté en candidats de caractères individuels. Quatrièmement, ces candidats passent dans un réseau de neurones entraîné spécifiquement sur la langue choisie, ce qui explique pourquoi choisir la bonne langue importe autant : une même forme de lettre peut être la correspondance la plus probable en anglais et une lettre totalement différente en portugais ou en espagnol. Cinquièmement, un modèle de langue examine le mot entier dans son contexte et choisit la lecture la plus plausible dans un dictionnaire de formes courantes — c'est ainsi que l'on rattrape silencieusement les confusions comme ofice corrigé en office. Le score de confiance par mot est la certitude auto-déclarée du moteur pour chaque mot ; les scores très élevés sont presque toujours corrects, les scores faibles sont là où vous devriez jeter un œil à l'original.

Ce qui marche bien, ce qui ne marche pas

Excellent : captures d'écran de PDF nettes, scans bien éclairés de pages dactylographiées, captures d'écran d'articles, pages de livres imprimées photographiées de face. Correct : pages imprimées photographiées avec un éclairage uniforme, scans légèrement inclinés (moins de 5°), reçus en bon état, panneaux pris à des angles modérés. Médiocre : écriture manuscrite (le moteur est entraîné sur l'imprimé, pas la cursive), pages très inclinées ou déformées, photos en faible lumière, JPEG très compressés et bruités, polices décoratives ou stylisées, texte très petit (moins d'environ 10 pixels de haut). Pour les images difficiles, augmentez la résolution avant de lancer l'OCR — des pixels nets et bien éclairés comptent bien plus que la taille du fichier, et un recadrage de 1 500 pixels de large bat généralement un original 4K flou.

Questions fréquentes

Mon image est-elle envoyée sur un serveur ?

Non. L'OCR s'exécute entièrement sur votre appareil. Votre image et le texte reconnu ne quittent jamais le navigateur, ne transitent jamais par nos serveurs, et ne sont ni stockés, ni indexés, ni journalisés, ni partagés. Les seuls appels réseau sont les téléchargements uniques du moteur de reconnaissance et du modèle de langue lors de la première utilisation, après quoi la page fonctionne même hors ligne.

Pourquoi la première exécution est-elle lente ?

La première fois que vous lancez l'OCR pour une langue donnée, le navigateur télécharge le modèle de langue (~10 Mo). Les exécutions suivantes réutilisent le fichier mis en cache et démarrent instantanément.

Puis-je faire de l'OCR sur de l'écriture manuscrite ?

Le modèle de reconnaissance est entraîné principalement sur du texte imprimé. Des lettres bâton soignées fonctionnent parfois ; la cursive ou une écriture brouillonne donnera n'importe quoi. L'OCR manuscrit est un problème bien plus difficile — les moteurs open source côté navigateur ne le gèrent pas encore de manière fiable, et nous préférons ne rien vous donner plutôt qu'un mauvais résultat.

Pourquoi confond-il 0/O et l/1 ?

Ces caractères sont visuellement identiques dans de nombreuses polices — même les humains ont besoin du contexte pour les distinguer. Le moteur utilise un modèle de langue pour orienter le choix, mais il se trompe parfois. L'option de confiance met en évidence précisément les endroits à revérifier.

Puis-je ajouter d'autres langues ?

Nous proposons actuellement les trois langues les plus demandées sur ce site (anglais, portugais, espagnol), car chaque modèle de langue représente un téléchargement d'environ 10 Mo. Si vous avez besoin d'une autre langue, contactez-nous et nous étudierons son ajout.

Le résultat est globalement correct mais plein de petites coquilles.

Quelques erreurs de reconnaissance sont normales sur des images imparfaites. La zone de sortie est modifiable précisément pour cette raison — corrigez les erreurs évidentes, puis copiez ou téléchargez. Pour les longs documents, collez dans votre éditeur et lancez un correcteur orthographique pour finir le travail.

Extracteur de texte d'image (OCR)