Extracteur de texte d'image (OCR)
Glissez une image ou un PDF, récupérez le texte. Aucun envoi, fonctionne hors ligne.
Ce que fait cet outil
La reconnaissance optique de caractères (OCR) transforme le texte présent dans une image — une capture d'écran, un contrat photographié, une photo de tableau blanc, un reçu scanné, une page de livre — en texte sélectionnable, copiable et indexable. Déposez l'image, choisissez la langue, et le texte reconnu apparaît en quelques secondes, prêt à être collé dans votre document ou vos notes. L'image et le texte reconnu ne quittent jamais votre appareil — il n'y a aucun envoi, aucune copie de votre fichier conservée sur un serveur tiers, aucune journalisation. Cette garantie de confidentialité est essentielle, car les documents que l'on passe le plus souvent à l'OCR sont précisément ceux qu'il ne faudrait pas coller dans un outil en ligne quelconque : pièces d'identité, passeports, contrats, formulaires médicaux, fiches de paie, courriers fiscaux, captures d'écran d'applications internes. Choisissez la langue qui correspond à votre image (anglais, portugais ou espagnol) — la précision de la reconnaissance chute fortement quand le mauvais modèle est utilisé. La sortie est modifiable directement : vous pouvez corriger les confusions classiques de l'OCR (0 et O, 1, l et I, m et rn) avant de copier ou télécharger. Activez éventuellement la confiance par mot pour que chaque mot soit étiqueté avec le degré de certitude du moteur — pratique pour repérer rapidement les parties d'un scan de mauvaise qualité qui nécessitent encore un œil humain.
Mode d'emploi
- Déposez l'image — Les captures d'écran et les scans nets fonctionnent le mieux. Les photos de documents fonctionnent aussi si l'éclairage est uniforme et l'appareil tenu droit.
- Choisissez la langue — Faites correspondre la langue du texte de l'image. Chaque modèle est téléchargé une seule fois puis mis en cache. Un modèle non concordant donne du charabia.
- Extraire — Cliquez sur Extraire le texte. La première exécution télécharge le moteur et le modèle de langue — les exécutions suivantes dans la même langue sont rapides.
- Modifier, copier, télécharger — La zone de sortie est modifiable. Corrigez les éventuelles erreurs, puis copiez ou téléchargez en .txt.
Comment fonctionne l'OCR (en 200 mots)
L'OCR moderne fonctionne en cinq étapes. D'abord, l'image est binarisée — convertie en pur noir et blanc pour que le moteur distingue l'encre du fond, quelle que soit la couleur du papier ou les ombres. Ensuite, les pixels connectés sont regroupés en formes, puis en mots et en lignes en suivant le sens de lecture naturel de la page. Troisièmement, chaque mot est segmenté en candidats de caractères individuels. Quatrièmement, ces candidats passent dans un réseau de neurones entraîné spécifiquement sur la langue choisie, ce qui explique pourquoi choisir la bonne langue importe autant : une même forme de lettre peut être la correspondance la plus probable en anglais et une lettre totalement différente en portugais ou en espagnol. Cinquièmement, un modèle de langue examine le mot entier dans son contexte et choisit la lecture la plus plausible dans un dictionnaire de formes courantes — c'est ainsi que l'on rattrape silencieusement les confusions comme ofice corrigé en office. Le score de confiance par mot est la certitude auto-déclarée du moteur pour chaque mot ; les scores très élevés sont presque toujours corrects, les scores faibles sont là où vous devriez jeter un œil à l'original.
Ce qui marche bien, ce qui ne marche pas
Excellent : captures d'écran de PDF nettes, scans bien éclairés de pages dactylographiées, captures d'écran d'articles, pages de livres imprimées photographiées de face. Correct : pages imprimées photographiées avec un éclairage uniforme, scans légèrement inclinés (moins de 5°), reçus en bon état, panneaux pris à des angles modérés. Médiocre : écriture manuscrite (le moteur est entraîné sur l'imprimé, pas la cursive), pages très inclinées ou déformées, photos en faible lumière, JPEG très compressés et bruités, polices décoratives ou stylisées, texte très petit (moins d'environ 10 pixels de haut). Pour les images difficiles, augmentez la résolution avant de lancer l'OCR — des pixels nets et bien éclairés comptent bien plus que la taille du fichier, et un recadrage de 1 500 pixels de large bat généralement un original 4K flou.