Workflow de Numérisation

Pour numériser des documents j'ai plusieurs solutions.

Voilà la manière dont je travaille, c'est une sorte de memo perso mais public.

Scan destructif

Lors du passage dans un scanner avec un "chargeur automatique de document" (ADF), mon scanner a une limitation pdv nombre de page, donc je fusionne les PDF avec la commande pdfunite qui est une partie du programme poppler

Ma commande c'est

pdfunite *.pdf ../output.pdf

La dernière partie c'est pour enregistrer le fichier dans le dossier plus haut dans la hiérarchie

Attention que si vous avez des fichier numéroté 1 à 12 par exemple, il pourrait se mélanger les pattes. Le fait de lui donner le résultat d'un tri via la commande LS + sort aide a corriger le soucis

pdfunite $(ls *.pdf | sort -n) ../output.pdf

Après ça je passe mes fichiers dans un logiciel d'OCR.

Mais le résultat n'est pas parfait, le logiciel semble vouloir absolument sortir un truc en A4 même si le fichier source est plus petit. Donc j'ai un cadre blanc autour du contenu.

Pour corriger ça, j'utilise pdfCropMargins

 for FILE in ./*.pdf; do
 pdfcropmargins -v -s -u -p 0 "${FILE}"
 done

J'ai utilisé le scanner ADF que j'avais sous la main. Si vous devez en acheter un, prenez un truc comme le Brother ADS-1300 qui dispose de deux bande des scanner, ça permet de scanner en recto-verso aussi vite qu'en recto seul. (Les autres scanner doivent retourner la page, ça complexifie le mécanisme et surtout ça double le temps de scan)

Scan non destructif

Pour ça j'utilise un Archivist que j'ai fabriqué moi même.

(Comme modification : la barre de levier est une barre d'haltère, ça compense le poids du chariot. Et pour déclencher la prise des photos, j'ai installé un levier de frein de vélo et le câble appuie sur l'appareil photo quand je "freine")

Comme solution derrière je n'utilise pas Scan Tailor ou Book Scan Wizard qu'ils conseillent.

J'ai simplement un dossier page impaire et un autre page paire, dedans je renomme les images avec gprename. Je range les fichiers des deux dossiers dans le même dossier.

Puis conversion des jpg vers PDF. De tête avec

convert *jpeg -quality 100 outfile.pdf

Et pour finir l'OCR

Blog.dedj