Traitement multiechelle

Disponible uniquement sur Etudier
  • Pages : 13 (3227 mots )
  • Téléchargement(s) : 0
  • Publié le : 8 novembre 2009
Lire le document complet
Aperçu du document
Segmentation texte /graphique : Application au manuscrits Arabes Anciens
Wafa Boussellaa 1 − Abderrazak Zahour 2 − Bruno Taconet 2 − Abdellatif Benabdelhafid 2− Adel Alimi1
REsearch Group on Intelligent Machines (REGIM) Université de Sfax, ENIS, DGE, BP. W-3038 - Sfax – Tunisie Université du Havre, IUT du Havre, Place Robert Schuman, F-76 610 Le Havre Wafa.boussellaa@gmail.com,adel.alimi@ieee.org {abderrazak.zahour, bruno.taconet,benabdelhadid} @benuniv-lehavre.fr Résumé : Cet article présente une nouvelle méthode de segmentation d’images de documents couleur de type manuscrits arabes anciens. La méthode développée opère directement sur la luminance. L’analyse multiéchelle permet une séparation entre le fond et l’avant plan. Des caractéristiques statistiques ont extraites de l’avantplan obtenue et sont utilisées par l'algorithme de classification c-moyen floue pour la segmentation texte/graphique de l’avant plan. Notre méthode a été testée sur 50 images de documents manuscrits rares, à structure complexe, extraits d’une base de 2000 manuscrits de la Bibliothèque Nationale Tunisienne. Les tests menés montrent des résultats satisfaisants pour la segmentation avant/arrière plan.La segmentation de l’avant plan en texte/graphique reste à améliorer. Mots-clés : Segmentation, ondelettes, c-moyen floue, fond/texte/graphique, manuscrit arabe ancien.
2

1

1 Introduction
Les ouvrages anciens conservés dans la bibliothèque nationale de la Tunisie forme une bonne partie de son patrimoine culturel et scientifique. Le traitement automatique de ces documents en vue de leurrestauration, indexation et exploitation offre un avantage certain. Cependant, on est confronté à de nombreuses difficultés dues au mauvais état de conservation de ces manuscrits et à la complexité de leur contenu. Les manuscrits composés de texte et de graphique forment une collection rare. Ils sont à structure complexe et ont de nombreuses particularités qui mettent en échec les algorithmesclassiques de segmentation. La figure 1 illustre une variété de documents anciens à structure complexe.

FIG. 1- Images de documents manuscrits arabes anciens A notre connaissance, peu de travaux concernant la segmentation texte/graphique des manuscrits anciens sont référencés dans la littérature. Le système DEBORA1 a proposé une méthode pour la séparation texte/graphique des images de documentsanciens du XVIème siècle en niveaux de gris. Cette approche est basée sur la morphologie mathématique [MUG 00] pour l’extraction des zones graphiques et la détection des zones texte. Des opérations d’érosion et de dilatation permettent de séparer ou de fusionner des formes particulières plus ou moins éloignées. Li et al [LI 00] et Menoti et al [MEN 03] ont proposé un algorithme de DEBORA: Digital AccEssto BOoks of the RenAissance.
1

segmentation d’images de documents en quatre classes : fond, texte, image, et graphique. Les caractéristiques utilisées pour la classification sont basées sur les modèles de distribution des coefficients d’ondelettes dans les bandes à haute fréquence. Chuai-Aree et al [ARE 01] ont développée une méthode de segmentation de l’image de document en trois classes :fond, texte et image. Cette technique se base sur l’algorithme de classification des C-moyen flous et utilise des caractéristiques statistiques. La méthode proposée par Hamza et al [SMI 05] est basée sur une classification par la carte organisatrice de Kohonen. L’algorithme des Kmoyennes est utilisé pour le regroupement des classes. Quatre classes sont considérées: fond, lettrine, écriture avantplan, écriture arrière plan. Cet article présente une nouvelle méthode de segmentation pour la séparation fond/texte/graphique pour les images manuscrits arabes anciens couleur. La méthode proposée opère en deux phases : utilisation de l’analyse multi-échelle pour la segmentation avant/arrière-plan, puis segmentation texte/graphique par l’algorithme des C-moyen flous. . Le reste de l’article...
tracking img