par Francis Pelletier - © Copyright 1995 - MOSARCA
cet article a été publié dans le magazine MOS 134
mai 1995
Disponible à partir de mai prochain, Acrobat Capture possède
les principales caractéristiques d'un logiciel de capture et de traitement
automatique de documents telles qu'elles existent dans les systèmes
de gestion électronique d'informations. Ce programme fonctionne pour
le moment sous MS-Windows 3.x et incorpore un module de reconnaissance optique
de caractères (OCR) qui ne sait pour l'instant déchiffrer
que la langue anglaise. Bien entendu, Adobe Systems envisage de sortir
dans les mois à venir des versions de son programme capables de reconnaître
d'autres signes, notamment les caractères accentués.
Les fonctionnalités d'Acrobat Capture sont multiples. Il est livré
avec des logiciels de pilotage de scanners via les commandes TWAIN pour
les modèles bureautiques ou ISIS pour les numériseurs faisant
usage de l'interface SCSI. Après la numérisation des originaux,
Acrobat Capture prend automatiquement en charge l'ensemble des opérations
qui suivent. Il opère la segmentation du contenu du document en séparant
les illustrations du texte puis enchaîne les colonnes afin de maintenir
la cohérence de ce texte. Il réalise la reconnaissance automatique
de caractères puis l'indexation en texte intégral du contenu
extrait avant de constituer des fichiers PDF (Portable Document Format)
et de sauvegarder une image TIFF compressée de l'ensemble.
Les caractères ou mots non reconnus par l'analyse sont conservés
en mode bit-map afin d'être affichés ultérieurement
avec l'image composite du document PDF. L'utilisateur peut ouvrir un dictionnaire
de mots particuliers ou de caractères spécifiques pour compléter
les modules de base fournis par Adobe. Acrobat Capture permet de traiter
des documents individuellement ou à la volée par lots; il
exécute en tâches de fond l'ensemble des opérations
précédemment décrites. Il sera proposé au prix
public de 2.995 dollars (environ 15.000 francs) par licence et pourra être
associé à des applicatifs GED ou à des bases de données
externes via des liens logiciels sous MS-Windows.
L'avantage majeur d'Acrobat Capture est de réaliser de manière
transparente pour l'utilisateur des opérations complexes puis de
fournir un fichier PDF exploitable dans de nombreux environnements. En effet,
via Acrobat Reader 2.0 - pour l'instant diffusé gratuitement par
Adobe -, les documents traités sont visionnables sous Unix, MacOS,
MS-Windows et sous DOS. De plus, il est possible d'en extraire le contenu
dans différents formats et, dans certains cas, de protéger
leur intégralité par simple sélection dans le programme
de base. Les professionnels et les utilisateurs de la GED/GEIDE ont tout
intérêt à regarder de près cette nouvelle offre
d'Adobe. Elle pourrait devenir l'outil de base de bien des systèmes
de gestion de l'information et cela pour un prix abordable au plus grand
nombre.
Le logiciel Acrobat Capture est, dans sa version MS-Windows, une version
32 bits mais elle n'est pas entièrement compatible Windows-NT pour
l'instant. Il intègre des gestionnaires de pilotage pour les numériseurs
utilisés en bureautique (Canon, Epson, HP, Microtek, Ricoh, Umax
ou l'astucieux PaperPort de Visioneer). Acrobat Capture est également
utilisable avec les scanners généralement utilisés
en GED; à savoir ceux de Fujitsu (SP10, M3096Gm, M3097Gm, M3099)
et ceux de Ricoh (IS-410, 510, 520); certains pouvant être interfacés
via une carte Kofax ou autre. Acrobat Capture supporte également
ces périphériques munis de leur alimentation automatique (ADF)
pour la saisie par lots et gère des documents jusqu'au format 431,8
x 558,8 mm. La version de base que livrera Adobe Systems en mai prochain
intégrera 41 fontes de substitution pour permettre une visualisation
de textes enrichis proches de celle des originaux. Le module Multiple Master
Technology ainsi que ATM (Adobe Type Manager) font partie de ce package
de même que le programme reviewer de correction interactive de défauts
de reconnaissance optique de caractères, ceux-ci apparaissant surlignés
pour faciliter leur localisation.
En dehors des documents acquis par numérisation, Acrobat Capture
accepte des images déjà numérisées et archivées
aux formats PCX, BMP ou TIFF. Certains pourront être de type compressé
LZW (Lempel-Ziv-Welch) ou aux normes CCITT G3/G4, par exemple des télécopies
directement reçues sur ordinateur. La partie OCR ou reconnaissance
optique de caractères incluse dans Acrobat Capture est actuellement
basée sur un moteur développé par la société
OCR Technology, acquise par Adobe. Il présente le désavantage
de ne pas connaître les spécificités des alphabets européens
accentués. Ce problème devrait être résolu à
l'avenir par l'adjonction de modules spécifiques lors de la commercialisation
de ce logiciel hors des pays anglophones.
La partie indexation et recherche en texte intégral d'Acrobat Capture
est basée sur le moteur Topic de la société Verity
dont Adobe Systems est l'un des principaux actionnaires. On peut regretter
que les versions actuelles du lecteur Acrobat 2.0 n'offre pas la combinaison
d'opérateurs de recherche (et, ou, proximité, etc.) et ne
gère pas les index. Il se révèle néanmoins efficace
lorsque la recherche s'effectue sur un support de stockage rapide. Sur un
CD-ROM, lorsque le document PDF contient plusieurs centaines de pages, mieux
vaut s'armer de patience. L'exportation des fichiers textuels peut s'avérer
utile pour des révisions de documents tels que des manuels. Acrobat
Capture intègre plusieurs filtres d'exportation vers les traitements
de textes classiques (MS-Word, WordPerfect, AmiPro) ainsi qu'au format enrichi
RTF (Rich Text Format) ou en ASCII. Comme pour les logiciels Distiller et
PDF Writer, Acrobat Capture intègre plusieurs options de compression
des éléments graphiques ou des photographies intégrées
dans un document composite PDF. Elles incluent les algorithmes JPEG et CCITT
G3/G4 ainsi que le mode LZW pour le format TIFF.
Une configuration minimale est requise pour qu'Acrobat Capture fonctionne
de façon correcte. Il faut un compatible PC-486 avec seize méga-octets
de mémoire vive (RAM), 15 méga-octets de libre sur le disque
dur et 20 méga-octets d'espace swap auxquels s'ajoute MS-Windows
3.1. Nous avons testé la première version d'Acrobat Capture
lors de l'AIIM Show'95. Son fonctionnement s'avère effectivement
des plus simples. Pour corser le test, nous avons procédé
à un essai sur une page de ce magazine. Acrobat Capture n'a pas pu
reconnaître les mots comprenant des caractères accentués
comme le signale Adobe; par contre, il a restitué l'intégralité
de la page en mixant des zones bit-map pour les mots/caractères non
reconnus et des fontes de substitution pour le reste. Bien que le résultat
soit lisible à l'écran, il présente deux inconvénients.
Le premier est d'alourdir la taille des fichiers PDF; le second, plus grave,
est qu'il ne permet pas une indexation en texte intégral sur l'ensemble
du contenu du document; seuls les mots reconnus par l'OCR étant pris
en compte. De plus, le module de reconnaissance optique de caractères
d'Acrobat Reader a procédé à plusieurs passes avant
de renoncer à interpréter certains mots, ce qui a donc nécessité
plus de temps qu'un document en langue anglaise. Nous procéderons
à d'autres tests lorsque le module pour caractères accentués
sera intégré dans les versions ultérieures.
Quelques sociétés de la GED ont d'ores et déjà
passé des accords avec Adobe pour utiliser Acrobat Capture en complément
de leur offre de base. C'est le cas de Cornerstone qui prévoit une
interopérabilité avec son InputAccel ainsi que Vertec pour
son logiciel de workflow Verzions. De son coté Merex prévoit
d'utiliser Acrobat Capture avec son offre Miximage.
Francis Pelletier
© copyright 1995 MOSARCA - Tous droits réservés.