L'OCR Tesseract et Linux Slackware

Installation de Tesseract 42019-08-07T13:53:57Zadmin

Je présente ci-dessous l'installation du logiciel de reconnaissance de caractères ou OCR Tesseract sur une distribution Linux Slackware dans sa version 15.

Tout d'abord il faut ramener les paquets et les scripts perl suivants :

Tesseract version 5	tesseract-5.4.1-x86_64-1_PB.txz	tesseract-5.4.1-x86_64-1_PB.txz.md5	tesseract
Leptonica	leptonica-1.84.1-x86_64-2_PB.txz	leptonica-1.84.1-x86_64-2_PB.txz.md5	leptonica
Couplage avec Xsane	xsane2tess.pl
Couplage Xsane avec sauvegarde des images scannées	xsane2tess-i.pl
Couplage Xsane avec images et paragraphes	xsane2tess-ip.pl

On fait ensuite en étant root (administrateur du système Linux) :

upgradepkg --install-new tesseract-*.txz
upgradepkg --install-new leptonica-*.txz
cp xsane2text*.pl /usr/bin;chmod a+x /usr/bin/xsane2tess*.pl

En mode utilisateur normal, on lance xsane et on le configure comme suit :

Dans XSane, Préférences, Configuration, OCR indiquer :

comme Commande, /usr/bin/xsane2tess.pl -l fra (pour le français — adapter pour d’autres langues),
-i comme option d’entré,
-o comme option de sortie

Dans la fenêtre principale de XSane :

demander Enregistrer, proposer un nom de fichier (sans l’extension .txt que Tesseract ajoutera),
choisir le type TEXT et Gris ou Couleur et 300 dpi,
Si on choisit Visionneuse, il est toujours possible de sauver l’image visionnée à travers l’OCR (commandes du menu Fichier de la visionneuse).

On peut changer xsane2tess.pl par l'un des 2 autres scripts

xsane2tess-i.pl qui sauvegarde les images scannées en png à côté du texte reconnu,
xsane2tess-ip.pl qui sauvegarde les images et regroupe les lignes reconnues en paragraphe.

On peut ensuite tester :

Le nom de fichier saisi plus haut est incrémenté automatiquement de 1 s'il se termine par des chiffres comme page0020.
Si la première ou la dernière ligne n'est pas reconnue, vérifier la taille de la page dans Xsane (menu Fenêtres->Options Avancées) et mettre la bonne taille.
Si la page est mal positionnée sur le scanner, il vaut mieux recommencer.

J'ai testé entre autres avec un manuel de 40 pages, un autre de 127 pages, quelques dizaines de volumes d'un ancien cours d'une centaine de pages chacun, des pochettes de DVD avec du texte blanc sur bleu et d'autres avec images et blocs de texte pas forcément rectangulaires et le texte est reconnu avec très peu de fautes.

J'ai aussi testé avec un livre que j'ai écrit il y a longtemps et que j'ai toujours eu la flemme de retaper et j'ai eu peu de choses à corriger malgré l'âge du papier et des caractères d'une très ancienne machine à écrire (celle de ma grand-mère). J'ai publié ce livre sur Amazon.

La version 4, puis 5 de Tesseract ajoute un réseau neuronal de type LSTM à la version 3. LSTM veut dire mémoire à court et long terme et les réseaux de ce type peuvent encoder des dépendances lointaines. Ils sont un cas particulier des réseaux neuronaux récurrents (RNN). J'ai testé l'influence de cet ajout en utilisant l'option -oem 0 qui le désactive. Avec cette désactivation, la reconnaissance de caractères de mes essais est nettement moins bonne et plus sensible à la qualité des images issues du scanner. On peut trouver ici quelques explications sur ces réseaux neuronaux très à la mode aujourd'hui.

CORPS DU DOCUMENT