[recherche] Bien Debuter en Langage Machine Micro Application

9 sujets de 16 à 24 (sur un total de 24)

Amiga
28 avril 2019 à 23h17 #327886
Merci de tout cœur empichon
à Giants egalement
kamelito
29 avril 2019 à 7h56 #327890
Merci, le mien à la couverture blanche. Tu utilises quoi comme logiciel d’OCR?
Anonyme
29 avril 2019 à 8h54 #327895
You’r welcome.

ça dépends, ici c’est directement avec le moteur OCR d’adobe.
Sinon en général j’utilise ABBYY finder mais omnipage est très bien aussi.

Maintenant les moteurs sont devenus vraiment bon, même un simple OCR gratos fait le d’job correctement.
Ensuite, c’est comme tout, il faut une base nickel donc retouche de l’image avant ET un bon scan.

ça veux dire que l’on scan en 300 ou 600 Dpi
et scan en sortie PNG ou GIF ou BMP
on évite le JPG qui est un format qui à été crée pour l’affichage, de plus il crée des artefacts qui ne sont pas les bienvenus dans la phase d’OCR.
Et pour finir on évite aussi l’interpolation qui ne crée au final que des points alternatifs calculés et n’apporte rien à la phase de qualité de l’image et donc de la phase d’OCR.
Gotcha
29 avril 2019 à 14h09 #327907
@Giants un peu hors sujet, mais je suis actuellement en train de scanner des docs techniques et je ne suis pas content du résultat: fichiers pdf trop gros et qualité d’image moyenne. Comment es tu passé de 60Mo à 8Mo avec une si bonne qualité en y ajoutant même l’OCR ? Quels outils utilises tu ? Y a t’il un topic à propos de ça sur le forum ?
Anonyme
29 avril 2019 à 16h50 #327914
Salut !

Tout dépends déjà de ton scanner, la plus part des scanners ‘grand public’ sont de très mauvaise qualités.
Pour ma part j’utilise mon bon vieux ‘Epson Perfection Pro 2480’ Qui est donc un scan photo.
Ou sinon si be ‘batch’ le tout, j’utilise mon Canon ImageFormula P-215 en le forçant en 300 ou 600Dpi selon.

Alors comment je suis passé de 60Mo en 8Mo en ‘améliorant la qualité’
J’ai déjà dans un premier temps extrait tout les images du fichier pdf original.
Extrait au format jpg puisqu’elles ont été sauvées au format jpg.
Ensuite j’ai passé plusieurs filtre en mode ‘batch’ sur ces images pour les ‘nettoyer’.
En gros ça se joue avec la luminosité et le contraste.
Suivi d’une resize de toute les images vers une taille identique.
Ensuite j’ai crée simplement un fichier pdf de ces images et l’ai chargé sur adobe.
Et j’ai demandé a adobe de passer un coup d’OCR dessus et sauver le tout.

Pourquoi ça semble plus ‘net’, car j’ai passé plusieurs filtres sur chaque image pour les nettoyer.
Pourquoi c’est plus petit, car au final j’ai passé l’OCR dessus et j’ai demandé à adobe de prioriser l’OCR à la qualité.
Du coup la qualité de ‘l’image réel’ stocké dans le pdf est de moins bonne qualité que le fichier image original sur mon dur MAIS comme il passe un coup d’OCR par dessus ET que les images sont ‘propres’, tu n’y vois que du feux.

Ceci explique cela.
Gotcha
29 avril 2019 à 23h28 #327937
@Giants Quand je regarde le document que tu as généré, j’ai l’impression que les caractères du texte ont été vectorisés. En effet, quand je zoom à fond, je ne vois aucun pixel apparaitre. Je pensais que l’OCR ajoutait juste des informations de texte aux images, mais il semble que dans ton cas, Adobe va plus loin en remplaçant les lettres pixelisées de l’image initiale par une version vectorisé presque ‘parfaite’. D’ailleurs, quand un symbole n’a pas été détecté par l’OCR, il reste pixelisé avec les défauts du document original (ça se voit au zoom). Quelle version d’Adobe utilises-tu ?
Anonyme
30 avril 2019 à 9h40 #327943
Re :

Tu as tout à fait raison.

C’est l’effet du passage du moteur de l’OCR d’Adobe.
Tout caractère reconnu dans les images est remplacé par du texte (et donc affiché en tant que vecteur par adobe lors de la lecture).

Je suis sous Adobe 9.0
Si tu ouvres le fichier sous Aobe et que tu exportes les images au format JPG (ou png mais bon… la source est jpg donc jpg), tu verras que la qualité qu’il a stocké des images dans le doc pdf est vraiment pourri.

Et c’est normal, le but, dans notre cas (document ne contenant que du texte) et de nettoyer au MAX les images pour que tout passes, ou presque, à l’OCR et qu’aucun artefact ou piexel ‘a la con’ vienne le perturber dans sa phase d’OCR (et qu’il affiche un bout d’image à la con de mauvaise qualité non reconnu par l’Ocr)

D’où le nettoyage des images en amont.

Ensuite c’est un choix.
Su un document où il n’y a que du texte on peut faire comme ça.

Il est aussi possible de le proposer en scan pure et dur de 300 ou 600 Dpi par Image mais le doc va être lourd.
En général, sur des doc ou il y a du texte et de l’image, exemple le scan du guide de MO5, je scan en sortie BMP ou PNG, comme ça, pas d’artefact.

Je propose ensuite 2 documents :
– 1 lourd contenant les images BMP ou PNG non re-touché par adobe.
– 1 léger qui est passé par la phase d’OCR d’adobe.

Ensuite concernant la qualité de scan que l’on obtient, là il n’y a pas de miracle, il faut un bon scanner et pas tu sais les ‘tout en un’.
J’ai une imprimante dans ce sens, le scanner c’est la cata…
Idem pour les scanner que l’on trouve dans les grandes surfaces comme Darty, boulanger and co, c’est de la merde.

Pourquoi ? Car les gens qui vont dans ces magasins pour acheter un scanner ne vont pas l’utiliser pour faire de la qualité, donc ces grandes surfaces vont proposer des produits d’appel sur les scanner.

Ce n’est pas le même prix 🙂

De ton coté tu Scan avec quoi ?
Gotcha
1 mai 2019 à 8h20 #327969
En fait, je viens d’acheter une imprimante ‘tout-en-un’ pour … scanner mes docs techniques 🙂

J’ai un scanner de meilleure qualité avec une imprimante photo, mais je voulais un scanner avec un chargeur automatique et avec une gestion du double face, car ça fait gagner énormément de temps pour les docs en classeur.

Cette imprimante est plus pour la bureautique et elle n’est ni très bonne en impression photo, ni en scan, mais je suis parti du principe qu’un scan à 300dpi pour du texte devrait être suffisant.

Une erreur a été de générer directement un PDF alors qu’à mon avis, c’est mieux de faire générer des images au scanner car ça facilite le post-traitement.

Mais mon erreur principale a surtout été d’utiliser jpeg qui crée des artefacts qu’il faut ensuit enlever (j’utilise pour ça ImageMagick qui a pas mal de filtres et qui peut travailler en batch).

Il faut donc que je re-scanne en générant du PNG ou du TIFF pour voir déjà la qualité intrinsèque des images crées par le scanner est bien meilleure.

Pour l’OCR, il faut que je vois s’il y a une alternative gratuite à ce que fait Adobe. Pour la ‘simple’ reconnaissance de texte, ça se trouve. Mais j’ai l’impression que pour avoir cette compression exceptionnelle du texte (avec remplacement du texte pixelisé) d’Adobe, il faille payer assez cher.
Anonyme
1 mai 2019 à 8h41 #327970
Je comprends.
C’est dommage le Canon P-215 fait ce que tu veux (scan Double face et chargeur).

Ensuite il faut regarder les caract de ton scan.
Exemple si il fait vraiment du 300 Dpi ou du 300Dpi interpolée.

La résolution interpolée = N’est pas la résolution réel de scan, il y a un moteur qui ajoute des pixels (pour faire court) entre chaque pixel réel scanné.
Ca, pour le texte… pas une bonne idée non plus.

Ensuite tu as raisons, il vaut éviter les format qui effectue un traitement sur l’image de compression, donc on oublie le JPG pour le texte.
On prends plutôt du bmp ou gif, du png.
Le tiff est très gros MAIS il peut servir de base pour créer des images PNG en batch après (via photoshop, linux, ou autre soft, command line)

On oublie aussi la création de PDF ‘à la volé’ direct depuis le scan.
Ca c’est bien mais ce n’est pas compatible avec qualitée car la plus part du temps il ne propose pas de configurer ce qu’il va mettre dans ce pdf.

Pour l’OCR il faut tester, il y a eu des réels proprets ces dernières années. Perso ABBY finder fait le d’job mais, il est payant en effet.

Bref, mais pour résumer oui contrairement a ce que certain pensent ;), pour faire et créer un bon document scanner il faut du temps et une bonne méthode.
Mais c’est accessible à tout le monde, pas besoin d’être technique, juste rigoureux.