Par Francis Pelletier
Copyright © 1996 MOSARCA
Cet article a été publié dans le magazine MOS 142
Conçu à l'origine pour satisfaire un besoin
interne de traitement de documents au sein de EDF, le système
PRASAD (pour &laqno;Prototype de Reconnaissance, d'Analyse
et de Segmentation Automatiques de Documents») devient un produit
commercial. EDF le propose sous forme de licence d'exploitation et devrait
très prochainement le diffuser par l'intermédiaire d'un distributeur.
Prasad qui fonctionne actuellement sous Unix (Sun SparStation-20) possède
des fonctionnalités complexes permettant de récupérer
des informations à partir de documents imprimés.
C'est un système modulaire qui contient en premier lieu un module
de numérisation. Les originaux sont numérisés à
la résolution de 400DPI sur 256 niveaux de gris pour que le résultat
soit toujours satisfaisant, y compris avec des documents intégrant
des photographies. Il effectue le redressement automatique des images, sépare
les photos des textes, reconnaît des graphiques ou des tableaux et
segmente automatiquement ces différents éléments. Pour
la partie texte, il effectue la binarisation (mode bitonal), améliore
le rendu par élimination de fond puis opère la reconnaissance
optique de caractères. Les textes subissent l'analyse successive
de trois moteurs OCR (Caere, Xerox et Mimetics) avec contrôle lexical
pour que le taux d'erreur reste très faible, de l'ordre de 0,2%.
Après analyse, l'utilisateur récupère les fichiers
alphanumériques au format choisi par lui en fonction de leur exploitation
future. Outre une sortie ASCII ou RTF, PRASAD offre le format ODIL basé
sur la syntaxe SGML, qui permet d'obtenir des fichiers structurés
facilement exploitables dans des systèmes de gestion d'informations.
On peut également les associer à des fichiers graphiques comme
des photographies numérisées pour récupérer
un document composite à l'écran. La Direction des Etudes et
des Recherches d'EDF (Clamart) qui est à l'origine de PRASAD va en
sortir une version industrielle sous forme d'API Unix qu'elle proposera
aux intégrateurs et aux développeurs au travers d'un distributeur.
Francis Pelletier
Copyright © 1996 MOSARCA - Tous droits réservés