MOS Magazine Server - Serveur du magazine MOS

Le logiciel Acrobat Capture d'Adobe Systems

par Francis Pelletier - © Copyright 1995 - MOSARCA

cet article a été publié dans le magazine MOS 134 mai 1995

Lors de l'AIIM Show'95, Adobe Systems présentait son logiciel Acrobat Capture, un programme de saisie et de traitement de documents numérisés qui donne des fichiers au format portable PDF d'Acrobat, indexés pour la recherche en texte intégral.

Disponible à partir de mai prochain, Acrobat Capture possède les principales caractéristiques d'un logiciel de capture et de traitement automatique de documents telles qu'elles existent dans les systèmes de gestion électronique d'informations. Ce programme fonctionne pour le moment sous MS-Windows 3.x et incorpore un module de reconnaissance optique de caractères (OCR) qui ne sait pour l'instant déchiffrer que la langue anglaise. Bien entendu, Adobe Systems envisage de sortir dans les mois à venir des versions de son programme capables de reconnaître d'autres signes, notamment les caractères accentués.

Les fonctionnalités d'Acrobat Capture sont multiples. Il est livré avec des logiciels de pilotage de scanners via les commandes TWAIN pour les modèles bureautiques ou ISIS pour les numériseurs faisant usage de l'interface SCSI. Après la numérisation des originaux, Acrobat Capture prend automatiquement en charge l'ensemble des opérations qui suivent. Il opère la segmentation du contenu du document en séparant les illustrations du texte puis enchaîne les colonnes afin de maintenir la cohérence de ce texte. Il réalise la reconnaissance automatique de caractères puis l'indexation en texte intégral du contenu extrait avant de constituer des fichiers PDF (Portable Document Format) et de sauvegarder une image TIFF compressée de l'ensemble.

Les caractères ou mots non reconnus par l'analyse sont conservés en mode bit-map afin d'être affichés ultérieurement avec l'image composite du document PDF. L'utilisateur peut ouvrir un dictionnaire de mots particuliers ou de caractères spécifiques pour compléter les modules de base fournis par Adobe. Acrobat Capture permet de traiter des documents individuellement ou à la volée par lots; il exécute en tâches de fond l'ensemble des opérations précédemment décrites. Il sera proposé au prix public de 2.995 dollars (environ 15.000 francs) par licence et pourra être associé à des applicatifs GED ou à des bases de données externes via des liens logiciels sous MS-Windows.

L'avantage majeur d'Acrobat Capture est de réaliser de manière transparente pour l'utilisateur des opérations complexes puis de fournir un fichier PDF exploitable dans de nombreux environnements. En effet, via Acrobat Reader 2.0 - pour l'instant diffusé gratuitement par Adobe -, les documents traités sont visionnables sous Unix, MacOS, MS-Windows et sous DOS. De plus, il est possible d'en extraire le contenu dans différents formats et, dans certains cas, de protéger leur intégralité par simple sélection dans le programme de base. Les professionnels et les utilisateurs de la GED/GEIDE ont tout intérêt à regarder de près cette nouvelle offre d'Adobe. Elle pourrait devenir l'outil de base de bien des systèmes de gestion de l'information et cela pour un prix abordable au plus grand nombre.

Acrobat Capture, l'intégré de la gestion de documents et d'informations

Le logiciel Acrobat Capture est, dans sa version MS-Windows, une version 32 bits mais elle n'est pas entièrement compatible Windows-NT pour l'instant. Il intègre des gestionnaires de pilotage pour les numériseurs utilisés en bureautique (Canon, Epson, HP, Microtek, Ricoh, Umax ou l'astucieux PaperPort de Visioneer). Acrobat Capture est également utilisable avec les scanners généralement utilisés en GED; à savoir ceux de Fujitsu (SP10, M3096Gm, M3097Gm, M3099) et ceux de Ricoh (IS-410, 510, 520); certains pouvant être interfacés via une carte Kofax ou autre. Acrobat Capture supporte également ces périphériques munis de leur alimentation automatique (ADF) pour la saisie par lots et gère des documents jusqu'au format 431,8 x 558,8 mm. La version de base que livrera Adobe Systems en mai prochain intégrera 41 fontes de substitution pour permettre une visualisation de textes enrichis proches de celle des originaux. Le module Multiple Master Technology ainsi que ATM (Adobe Type Manager) font partie de ce package de même que le programme reviewer de correction interactive de défauts de reconnaissance optique de caractères, ceux-ci apparaissant surlignés pour faciliter leur localisation.

En dehors des documents acquis par numérisation, Acrobat Capture accepte des images déjà numérisées et archivées aux formats PCX, BMP ou TIFF. Certains pourront être de type compressé LZW (Lempel-Ziv-Welch) ou aux normes CCITT G3/G4, par exemple des télécopies directement reçues sur ordinateur. La partie OCR ou reconnaissance optique de caractères incluse dans Acrobat Capture est actuellement basée sur un moteur développé par la société OCR Technology, acquise par Adobe. Il présente le désavantage de ne pas connaître les spécificités des alphabets européens accentués. Ce problème devrait être résolu à l'avenir par l'adjonction de modules spécifiques lors de la commercialisation de ce logiciel hors des pays anglophones.

La partie indexation et recherche en texte intégral d'Acrobat Capture est basée sur le moteur Topic de la société Verity dont Adobe Systems est l'un des principaux actionnaires. On peut regretter que les versions actuelles du lecteur Acrobat 2.0 n'offre pas la combinaison d'opérateurs de recherche (et, ou, proximité, etc.) et ne gère pas les index. Il se révèle néanmoins efficace lorsque la recherche s'effectue sur un support de stockage rapide. Sur un CD-ROM, lorsque le document PDF contient plusieurs centaines de pages, mieux vaut s'armer de patience. L'exportation des fichiers textuels peut s'avérer utile pour des révisions de documents tels que des manuels. Acrobat Capture intègre plusieurs filtres d'exportation vers les traitements de textes classiques (MS-Word, WordPerfect, AmiPro) ainsi qu'au format enrichi RTF (Rich Text Format) ou en ASCII. Comme pour les logiciels Distiller et PDF Writer, Acrobat Capture intègre plusieurs options de compression des éléments graphiques ou des photographies intégrées dans un document composite PDF. Elles incluent les algorithmes JPEG et CCITT G3/G4 ainsi que le mode LZW pour le format TIFF.

Une configuration minimale est requise pour qu'Acrobat Capture fonctionne de façon correcte. Il faut un compatible PC-486 avec seize méga-octets de mémoire vive (RAM), 15 méga-octets de libre sur le disque dur et 20 méga-octets d'espace swap auxquels s'ajoute MS-Windows 3.1. Nous avons testé la première version d'Acrobat Capture lors de l'AIIM Show'95. Son fonctionnement s'avère effectivement des plus simples. Pour corser le test, nous avons procédé à un essai sur une page de ce magazine. Acrobat Capture n'a pas pu reconnaître les mots comprenant des caractères accentués comme le signale Adobe; par contre, il a restitué l'intégralité de la page en mixant des zones bit-map pour les mots/caractères non reconnus et des fontes de substitution pour le reste. Bien que le résultat soit lisible à l'écran, il présente deux inconvénients. Le premier est d'alourdir la taille des fichiers PDF; le second, plus grave, est qu'il ne permet pas une indexation en texte intégral sur l'ensemble du contenu du document; seuls les mots reconnus par l'OCR étant pris en compte. De plus, le module de reconnaissance optique de caractères d'Acrobat Reader a procédé à plusieurs passes avant de renoncer à interpréter certains mots, ce qui a donc nécessité plus de temps qu'un document en langue anglaise. Nous procéderons à d'autres tests lorsque le module pour caractères accentués sera intégré dans les versions ultérieures.

Quelques sociétés de la GED ont d'ores et déjà passé des accords avec Adobe pour utiliser Acrobat Capture en complément de leur offre de base. C'est le cas de Cornerstone qui prévoit une interopérabilité avec son InputAccel ainsi que Vertec pour son logiciel de workflow Verzions. De son coté Merex prévoit d'utiliser Acrobat Capture avec son offre Miximage.

Francis Pelletier
© copyright 1995 MOSARCA - Tous droits réservés.