Pour tout problème de lecture audio et vidéo, installez VLC ici |
|
|
Je présente ci-dessous l'installation du logiciel de reconnaissance de caractères ou OCR Tesseract sur une distribution Linux Slackware dans sa version current du 31 juillet 2019.
Tout d'abord il faut ramener les paquets et les scripts perl suivants :
Tesseract version 4 | tesseract-4.1.1-x86_64-4cf.txz | tesseract |
Leptonica | leptonica-1.81.1-x86_64-1cf.txz | leptonica |
Couplage avec Xsane | xsane2tess.pl | |
Couplage Xsane avec sauvegarde des images scannées | xsane2tess-i.pl | |
Couplage Xsane avec images et paragraphes | xsane2tess-ip.pl |
On fait ensuite en étant root (administrateur du système Linux) :
En mode utilisateur normal, on lance xsane et on le configure comme suit :
/usr/bin/xsane2tess.pl -l fra
(pour le français — adapter pour d’autres langues),-i
comme option d’entré, -o
comme option de sortieOn peut ensuite tester :
J'ai testé entre autres avec un manuel de 40 pages, un autre de 127 pages et d'autres avec images et blocs de texte et le texte est reconnu avec très peu de fautes.
J'ai aussi testé avec un livre que j'ai écrit il y a longtemps et que j'ai toujours eu la flemme de retaper et j'ai peu de choses à corriger malgré l'âge du papier et des caractères d'une très ancienne machine à écrire (celle de ma grand-mère).
La version 4 de Tesseract ajoute un réseau neuronal de type LSTM à la version 3. LSTM veut dire mémoire à court et long terme et les réseaux de ce type peuvent encoder des dépendances lointaines. Ils sont un cas particulier des réseaux neuronaux récurrents (RNN). J'ai testé l'influence de cet ajout en utilisant l'option -oem 0 qui le désactive. Avec cette désactivation, la reconnaissance de caractères de mes essais est nettement moins bonne et plus sensible à la qualité des images issues du scanner. On peut trouver ici quelques explications sur ces réseaux neuronaux très à la mode aujourd'hui.