Atelier edition numérique

834 mots 4 pages
I. La chaine de numérisation :

• 1ere étape : le livre papier > nécessite un livre non rare car va être massicoté + état de l’encre qui doit être de suffisamment bonne qualité. Pb des livres anciens du 16e par exemple.
• 2e étape : le scan. Soit scanner de livre tourne les pages et les scanne une à une ou alors scanner à chargeur qui demande un massicotage du livre (découpage) et demander un scan de chaque page manuellement
• 3e étape : le pdf. C’est le format de sortie du scanner, cad un format image brut sans aucune méta-données.
• 4e : l’océrisation (l’OCR) ou « reconnaissance optique des caractères »: le format image est converti en format texte. Permettra de faire des recherches textuelles. Procédé informatique qui permet de reconnaître dans une image les lettres qui composent un texte. Une des étapes les plus problématiques, demande de la patience. Il existe de nbx logiciels OCR. Celui du Labex est : abby *** > rendement de l’ordre de 95% dans le meilleur des cas. Analysera 95 mots sur cent > demandera donc malgré tout beaucoup de corrections. Marge d’erreur s’explique par le fait qu’il y a des imperfections dans les pages, que la police est particulière (les t dans les Pléiades) etc. De plus, logiciel qui a une bonne qualité d’apprentissage.
Outre la correction, OCR détermine la structuration globale du texte. En théorie, le fait automatiquement (titre, corps de texte, notes de bas de page…) sauf que marge d’erreur conséquente.
• 5e étape : la relecture. On corrige les fautes, notamment d’orthographe.
• 6e : le traitement de texte. A ce moment-là que se fait véritablement la structuration du texte (OCR a laissé bcp d’erreurs). 2 niveaux de structuration :
- La macro-structuration (structuration d’ensemble)
- La micro-structuration (ex : constituer des index)
• 7e : le passage à la TEI > c’est un format, un langage de description du texte. Il s’agit d’un langage qui appartient aux langages à balises. S’appuie sur les balises pour structurer

en relation

  • Vae bts muccomplé et validé
    12392 mots | 50 pages
  • La planche de julie
    730 mots | 3 pages
  • Vae bp
    3608 mots | 15 pages
  • Math
    4888 mots | 20 pages
  • Evolution secteur livre numérique
    1202 mots | 5 pages
  • La representation visuelle du monde
    339 mots | 2 pages
  • Explication historique de texte "les assemblées législatives", mémoires d'outre tombe, chateaubriand
    3630 mots | 15 pages
  • Circuit Du Livre
    535 mots | 3 pages
  • Balzac et la petite tailleuse chinoise
    524 mots | 3 pages
  • Histoire des autoroutes
    20946 mots | 84 pages
  • L'écriture de soi serguei
    456 mots | 2 pages
  • Restitution organisée
    422 mots | 2 pages
  • Sdfgzhjlkbjkzdgjkb
    296 mots | 2 pages
  • dilemme déontolpgique
    11699 mots | 47 pages
  • récit de fiction
    520 mots | 3 pages