La solution Prasad de traitement de documents développée par l'EDF


Par Francis Pelletier
Copyright © 1996 MOSARCA
Cet article a été publié dans le magazine MOS 142

Développée par la Direction des Etudes et des Recherches de l'EDF, Prasad est une solution complète de numérisation, de segmentation, de reconnaissance optique et de conversion de documents.


Conçu à l'origine pour satisfaire un besoin interne de traitement de documents au sein de EDF, le système PRASAD (pour &laqno;Prototype de Reconnaissance, d'Analyse et de Segmentation Automatiques de Documents») devient un produit commercial. EDF le propose sous forme de licence d'exploitation et devrait très prochainement le diffuser par l'intermédiaire d'un distributeur. Prasad qui fonctionne actuellement sous Unix (Sun SparStation-20) possède des fonctionnalités complexes permettant de récupérer des informations à partir de documents imprimés.
C'est un système modulaire qui contient en premier lieu un module de numérisation. Les originaux sont numérisés à la résolution de 400DPI sur 256 niveaux de gris pour que le résultat soit toujours satisfaisant, y compris avec des documents intégrant des photographies. Il effectue le redressement automatique des images, sépare les photos des textes, reconnaît des graphiques ou des tableaux et segmente automatiquement ces différents éléments. Pour la partie texte, il effectue la binarisation (mode bitonal), améliore le rendu par élimination de fond puis opère la reconnaissance optique de caractères. Les textes subissent l'analyse successive de trois moteurs OCR (Caere, Xerox et Mimetics) avec contrôle lexical pour que le taux d'erreur reste très faible, de l'ordre de 0,2%. Après analyse, l'utilisateur récupère les fichiers alphanumériques au format choisi par lui en fonction de leur exploitation future. Outre une sortie ASCII ou RTF, PRASAD offre le format ODIL basé sur la syntaxe SGML, qui permet d'obtenir des fichiers structurés facilement exploitables dans des systèmes de gestion d'informations. On peut également les associer à des fichiers graphiques comme des photographies numérisées pour récupérer un document composite à l'écran. La Direction des Etudes et des Recherches d'EDF (Clamart) qui est à l'origine de PRASAD va en sortir une version industrielle sous forme d'API Unix qu'elle proposera aux intégrateurs et aux développeurs au travers d'un distributeur.

Francis Pelletier
Copyright © 1996 MOSARCA - Tous droits réservés