Pour traiter numériquement un fichier, il faut tout d’abord le numériser (ou le scanner selon le vocabulaire utilisé), pour obtenir un document informatique que l’on pourra modifier à sa guise.

Sur le principe, l’on transforme le document papier en image, que l’on peut consulter à l’écran, il s’agit ici d’une « numérisation classique ».

Ce procédé peut s’avérer utile, si l’on désire par exemple « compléter des fiches à trous ». Par contre, si l’on désire transformer le contenu du document en texte, comme si on l’avait saisi à la main, sur la base actuelle, c’est impossible sans traitement particulier.

Pour se faire, un traitement de « reconnaissance d’écriture » est requis, sur le document précédemment numérisé. Voici ci-après ces techniques de manière plus détaillée à l’aide d’exemples concrets.

Numérisation classique

La numérisation d’un document se fait à l’aide d’un scanner. Le scanner est un périphérique qui permet de convertir un texte ou une image sous une forme numérique. Il est semblable à un photocopieur, il prend une photo d’un texte ou d’une image et la transfère à l’ordinateur.

Plus concrètement et à titre d’exemple, l’on place un document dans le scanner, puis on exécute un programme de numérisation.

Pour l’exemple, nous prendrons « paint » un logiciel gratuit livré avec Windows. Nous pouvons facilement le trouver en cliquant sur le menu « démarrer », puis « programmes », « accessoires », « paint ».

A l’aide du menu « fichier » l’on peut aisément lancer la numérisation en cliquant sur « d’un scanneur ou d’un appareil photo… », il faut ensuite sélectionner le scanner désiré, puis suivre les instructions à l’écran (chaque scanner comporte une marche à suivre spécifique). Au final, dans tous les cas, le document numérique s’affiche à l’écran. Dès lors, on peut sauvegarder le fichier sous le format image désiré (ex. jpg, etc.). L’extension sera à choisir selon l’usage que vous désirez en faire plus tard.

Il existe une multitude de programmes permettant de numériser un document : Paint, PaintShop Pro, PhotoShop, etc…

Numérisation OCR

Cet acronyme un peu barbare, de l’anglais « Optical Character Recognition », signifie « Reconnaissance Optique de Caractère ». Pas beaucoup plus clair, me direz-vous ! Plus simplement, il s’agit d’une technique qui permet à un système informatique de lire du texte et de le stocker sous forme dactylographiée, sans avoir besoin de le retaper manuellement.

Pratiquement, on place le document dans un scanner, le texte sur papier est numérisé en tant qu’image, l’ordinateur traite ensuite cette image ligne par ligne en comparant chaque caractère par rapports à ceux qu’il connaît et les remplace. L’on obtient ainsi au final un texte dactylographié que l’on peut modifier à sa guise.

Presque magique … sauf que le texte final n’est pas toujours exempt d’erreurs, selon le support papier (article de journaux, papier quadrillé, etc.), le type de police utilisé, la reconnaissance de caractère peut être plus qu’approximative. Une technique permettant de « tricher » et d’augmenter la qualité de la reconnaissance consiste à comparer chaque mot reconnu par rapport à ceux présents dans un dictionnaire. Ce processus permet de corriger une grande partie des erreurs.

La reconnaissance de caractère peut être notamment utilisée pour les individus qui ont des problèmes de lecture (le texte reconnu peut ensuite être lu par une synthèse vocale) ou qui désire insérer ou modifier des paragraphes au sein de ce texte. Par contre, si l’utilisateur peut lire le texte à l’écran lui-même, et/ou qu’il est requis d’ajouter simplement du texte dans des encadrés, il est préférable d’utiliser une technique basée sur une numérisation classique.

Il existe une multitude de logiciels de reconnaissance de caractères : Abby Fine Reader (PC), Omipage (PC), Read-Iris Pro (MAC), etc.