Tesseract

From drev
Jump to: navigation, search

Logiciel pour la reconnaissance de characters automatique (OCR)

Installation sous arch linux

pacman -S tesseract 

Il faut aussi installer des fichiers de langages, par exemple pour le japonais

pacman -S tesseract-data-jpn

Les fichiers sont installé sous /usr/share/tessdata

Utilisation en ligne de commande

tesseract nom_image [options] [nom_sortie] [configfile]

Une option importante est la langue (-l)

Les fichiers de config sont sous /usr/share/tessdata/configs

Cas d'utilisation

On a une image ~/Pictures/jpn.png contenant uniquement du texte en japonais

  • Conversion en txt (config par defaut)
tesseract ~/Pictures/jpn.png -l jpn out
  • Utilisation de la config pdf pour convetir vers du pdf sous out.pdf
tesseract ~/Pictures/jpn.png -l jpn out pdf

installer un front end

gimagereader est un bon front end pour selectionner une partie d'une image

pacaur -S gimagereader


Configuration supplementaire

pour le japonais :

chop_enable                         T
use_new_state_cost                  F
segment_segcost_rating              F
enable_new_segsearch                0
language_model_ngram_on             0
textord_force_make_prop_words       F
edges_max_children_per_outline	    40


Sources

https://github.com/tesseract-ocr/tesseract/wiki/ControlParams

https://github.com/tesseract-ocr/tesseract/tree/master/doc

http://manpages.ubuntu.com/manpages/xenial/man1/tesseract.1.html