Page d'accueil | Cours précédent

INU 1030 - Cours 4
Les formats de données : Images et images en mouvement


Plan du cours

  1. Les formats textuels dans une perspective de conservation : Récapitulatif
  2. Le poids des fichiers
  3. Introduction à la préservation des images numériques
  4. Stratégies de préservation des images
  5. Complément bibliographique

Les formats textuels dans une perspective de conservation : Récapitulatif


Le clan des admis

1. Le format texte
ASCII

  • 1 caractère = 27 bits
    2x2x2x2x2x2x2 = 128 caractères possibles
    Exemple: la lettre a = 0010010


  • Table limitée. N’inclue pas les caractères en français ou d’autres caractères spéciaux dans les autres langues.
ASCII étendu

  • 1 caractère = 28 bits
    2x2x2x2x2x2x2x2 = 256 caractères possibles.


  • Les 128 caractères supplémentaires varient en fonction de la langue ou de la plate-forme.

Exemple : Windows en français: Table ANSI (ISO Latin 1)



Le format ASCII et la préservation :

  • Norme officielle, format non strict


  • Série de bits traduisibles directement avec la table de code.


  • S’ouvre avec n’importe quel éditeur de texte.


  • Format pérenne mais sans indication de mise en page.


2. Les formats structurés

Pour donner une forme au document, le logiciel procède à une structuration syntaxique.

Pour effectuer ce type de structuration, des chaînes de caractères sont ajoutées pour délimiter le début et la fin d’un segment qui correspond à un objet conceptuel: ce sont des balises (visibles comme dans les formats structurés) ou des codes (cachés comme avec Word).

Il y a deux types de balisage ou de codage :

Le balisage procédural (opérations de mise en page) et le balisage descriptif (logique).


SGML : Standard Generalized Markup Langage

  • SGML: « le père » de HTML et XML


  • Norme ISO, format non strict


  • Langage de description lourd et complexe
HTML : Hypertext Markup Langage

  • La vedette depuis 1994 : langage d’Internet


  • Simplicité: WYSIWIG


  • Malgré le concept des feuilles de style (.css), les balises mêlent le balisage procédural et le descriptif.


  • Liens hypertextuels difficiles à conserver

XML : Extended Markup Langage

  • À la rescousse depuis 1998


  • Plus structuré que son frère


  • Il y a tellement de sous-ensembles au langage qu’on le considère parfois comme un langage de programmation.


Les formats structurés et la préservation :

  • Ce sont des "méta-formats" codés en ASCII


  • Permettent la séparation du procédural et du descriptif


  • Pérennité : ce que l’on conserve, c’est de l’ASCII structuré



3. Portable document format (.pdf)

  • Format de fichier développé par Adobe.


  • Très populaire car interopérabilité élevé, vitesse de conversion et préservation de l’aspect visuel : format strict.


  • La recette est disponible publiquement mais Adobe conserve le monopole du développement : format propriétaire public.

Le format PDF et la préservation :

  • Il est possible de supposer que, malgré la disparition d’Adobe, les documents codés seront lisibles puisque la recette peut être connue de tous.


  • Apporte plusieurs avantages que html ne peut combler : vitesse de création, conservation de l’aspect exact. Cependant, les fichiers sont lourds ce qui constitue un désavantage pour la diffusion.



Le clan des rejetés

Les formats Word(.doc) et Rich text format (.rtf)

  • Format de traitement de texte de Microsoft


  • Format strict, format propriétaire très secret


  • Pour favoriser l’échange entre Mac et Windows, Microsoft a développé RTF dont la recette est disponible pour tous : format propriétaire public, format non strict.

Les formats doc et rtf et la préservation :

  • Puisque ces formats ne sont pas normés et demeurent la propriété de Microsoft, ils ne sont pas des formats de conservation recommandés.




Le poids des fichiers


Unité de mesure Mesure Exemple
1 bit Unité de base 0 ou 1
1 octet 8 bits 1 caractère d’imprimerie
1 kilo-octet 1024 o 2 Ko équivalent à une page de texte simple
1 mega-octet 1024 ko 500 pages de texte simple
2 Mo égalent le poids d’une photo haute résolution
1 giga-octet 1024 mo 1 Go équivaut à un film en qualité TV
15-20 Go un disque dur
1 Teraoctet 1024 go 10 To, la totalité des volumes de la bibliothèque du Congrès américain
1 Petaoctet 1024 to 8 Po, l’ensemble de l’information disponible sur Internet
1 Exaoctet 1024 po 5 Eo : l’ensemble des mots prononcés depuis l’aube de l’humanité
1 Zettaoctet 1024 eo Pas encore d’exemple…
1 Yottaoctet 1024 zo
(Exemples empruntés à Lemesle)



Introduction à la préservation des images numériques


Types d'images

Dessin : Un type d’image qui utilise de grands blocs d’une seule couleur ou des tons de gris plutôt que des petits points séparés. (Savage)

Image en simili : Un type d’image qui simule les échelles grises en utilisant des points de tailles variées, comme on en utilise communément dans les photos de journal en noir et blanc. (Savage)

Photographie : Un type d’image avec une haute définition, incluant plusieurs tons différents de gris ou de couleurs.<(A HREF="#Savage">Savage)

Animation : Technique cinématographique qui permet par des prises de vues image par image de créer le mouvement d'objets et de personnages animés. (Animation GIF ou Flash…) (OLF, http://www.gouv.qc.ca/)

Vidéo : Ensemble des techniques permettant la formation, l'enregistrement, le traitement, la transmission ou la reproduction d'images (y compris les techniques de reproduction du son associé à ces images) sur un écran de visualisation. (OLF, http://www.gouv.qc.ca/)


La taille des images

Le nombre total d’octets dans une image. Influencé par 4 attributs :

  1. Le format du fichier
  2. La profondeur des couleurs
  3. La résolution
  4. Les dimensions

1. Formats des fichiers graphiques :

Un format d’image inclut les 3 autres attributs...

À cela peut-être ajouté un taux de compression :

Méthodes employées à l’aide d’algorithmes de compression pour réduire la taille d’un fichier. Il y a la compression à perte (souvent plus efficace) et la compression sans perte. La compression sans perte donne une image identique à celle qui existait avant la décompression.

Quelques algorithmes de compression :

LZW: Gif et PNG
DCT: Jpeg
Format MPEG-4
Format DIVX

A. Formats à trames

Stockent l’information au sujet des pixels individuels.(Shapiro)

Pixel
Élément le plus petit d'une surface d'affichage auquel on puisse associer individuellement une couleur (ou un niveau de gris) et une intensité.

Le pixel étant la plus petite surface homogène d'une image, il est en quelque sorte l'équivalent d'un point. Dans le cas d'un écran monochrome, le pixel s'identifie avec le point et, dans le cas d'un écran couleur, il est constitué de trois points de couleurs différentes (rouge, vert, bleu). En variant l'intensité de chacun des points, on peut faire apparaître des milliers de couleurs différentes.

(Dictionnaire de l’OLF, http://www.gouv.qc.ca/)

B. Formats vectoriels

Stockent l’information au sujet des lignes et des courbes qui composent un dessin. (Shapiro)

Vectorisation
Opération qui consiste à convertir une image en mode point en une image en mode vectoriel à l'aide d'un programme informatique prévu à cet effet.

Dessin Vectoriel
Contrairement au dessin à trames où les objets sont composés de pixels, le dessin vectoriel est composé d'objets qui sont des courbes mathématiques (dites de Bézier, du nom du mathématicien qui les a inventées) ou des droites et segments qui ont une couleur et une taille. Leur principal avantage est de ne pas souffrir du phénomène de pixellisation lorsqu'on cherche à faire un zoom sur une partie de l'image. Automatiquement les courbes composant le dessin sont recalculées pour être mises à l'échelle.

Comme le dessin ne comporte que des cordonnées mathématiques, son poids numérique ne varie pas avec la taille de l'image, mais plutôt avec l'accumulation de tracés différents, contrairement au format à trames qui voit sa taille augmenter avec le nombre de pixels.

Référence : (http://perso.wanadoo.fr/cyberial/webmaster/Photoshop/Tutoriaux/vectorisation.htm)



                                       Exemple :

La lettre V (à trames) La lettre V (vectorisée)

à trames


vectorisée




Quelques formats communs


Formats à trames Formats vectoriels

GIF (Graphics Interchange Format)
  • 1987: Compuserve Incorporated
  • 256 couleurs
  • Format comprimé par l'algorithme LZW: affichage rapide
  • Fonctions d'entrelacement et de transparence
  • Images, icônes, barres d'outils, gif animés
  • Format de diffusion
  • Norme de facto
PDF (Portable Document File)

Se référer à la page 2...
  • Peut-être aussi considéré comme un format d'image.

JPEG (Groupe mixte d'experts en photographie)
  • Ce n'est pas un format mais un algorithme de compression (différents niveaux permis)
  • 16 millions de couleurs
  • Niveaux de compression mais avec perte
  • Format de diffusion
  • Norme
  • JPEG 2000 : mode de compression différent, permet de stocker plusieurs résolutions d'une même image dans un même fichier et des métadonnées.

SVG (Scalable Vector Graphics)
  • Inventé en 1998 par un groupe Microsoft, Autodesk, Adobe, IBM, Sun, Netscape, Xerox, Apple, Corel, HP, ILOG...
  • Format normalisé (W3C) pour les images et les animations basées sur XML et sur des fichiers textes
  • Format ouvert " plug-in " gratuit développé par Adobe
  • Vise à remplacer swf, flash de Macromédia : http://svgmap.free.fr/carte.htm
Fichiers en mode point (Bitmap)
  • Format développé par Windows
  • Format propriétaire
  • Ce n'est pas un format de diffusion, ni un format de préservation.

SMIL (Synchonized Multimedia Integration Language)
  • Synchronise divers éléments multimédias, tels que de la vidéo du son, du texte...
  • Recommandation officielle du W3C
  • Pour développer: Smilme (Aurora-Linux)
  • Pour visionner: player RealMedia de RealNetworks
  • Encore aux balbutiements

PNG (Portable Network Graphics)
  • 1994, Unisys et 1996 W3C
  • Vise à remplacer GIF
  • 16 millions de couleurs
  • Format sans perte, transparence et correction en fonction des moniteurs
  • Format de diffusion et Norme

Moving Picture Expert Group (.mpeg)
  • Norme de compression pour vidéo
  • Consiste à ne coder, pour certaines images, que la différence avec l'image précédente ou à la fois par rapport à l'image précédente et à l'image suivante.
  • Fonctionne sur toutes les plates-formes mais est de qualité inférieure.

TIFF (format d'étiquette de fichier image)
  • 1998, Aldus Corporation
  • Stocke une grande quantité de données au sujet de l'image (supporte métadonnées)
  • Conserve l'apparence optimale des images
  • Fonction de transparence
  • Largement pris en charge par les logiciels d'édition d'images
  • Format de préservation privilégié



Notions de transparence et d'entrelacement

La transparence
Les formats qui supportent la transparence peuvent choisir une couleur comme étant transparente, ce qui signifie que les pixels de cette couleur apparaîtront identiques aux pixels directement "derrière" eux à l'écran. Par exemple, si une page W3 comporte un fond rose et qu'un "transparent GIF" s'affiche sur cette page, les pixels transparents apparaîtront en rose, même s'ils affichent une couleur différente dans un logiciel de dessin.

L'entrelacement
Lors de l'affichage de l'image (processus de décompression), les trames de pixels qui composent l'image ne s'affichent pas par ordre séquentiel de haut en bas. Au lieu de cela, des tranches du graphique s'affichent dans toute l'image, qui se recompose graduellement durant le processus de décompression. L'effet à l'écran se traduit par une image complète, même si elle est au départ très embrouillée, et elle se précise graduellement après une série de passages. Il s'agit du cheminement inverse d'une image non entrelacée qui apparaît comme une trame à définition complète au haut de l'image, puis qui baisse comme un rideau vers le bas. L'avantage de l'entrelacement, c'est qu'il procure rapidement un aperçu de l'image avant qu'elle ne soit représentée en détail.

(Explications empruntées à Shapiro, 1996)

2. La profondeur des couleurs

Aussi appelé amplitude des nombres en mémoire : Si la couleur ou le contraste est important, il faut établir le nombre de couleurs ou de nuances de gris à utiliser. Un nombre plus grand de couleurs ou de gris augmente la taille de l'image. L'amplitude des nombres en mémoire est indiquée habituellement en bits, comme 8-bits (256 couleurs) ou 24-bits (16 millions de couleurs).

Plus l'amplitude est grande, plus la taille des fichiers est élevée.

a) L'image bit map

b) L'image 256 niveaux de gris

c) L'image 256 couleurs

dégradé 256 couleurs

C. Boudry, URFIST, 2002

d) L'image 16 millions de couleurs (True Color)

dégradé 16 millions

C.Boudry, URFIST, 2002

3. La résolution

La concentration de points par pouce dpi (dots per inches) ou ppp (points par pouce).

La résolution d'une image numérique définit le degré de détail qui va être représenté sur cette image.

Plus la résolution est élevée, plus le poids du fichier augmente.


4. Les dimensions de l'image

Se calcule en pixels (hauteur X largeur)

                                               Exemple:

La taille d'un écran = 800 X 600 pixels environ

Plus l'image est grande, plus le poids sera élevé



Stratégies de préservation des images


La stratégie doit s’implanter dès le début du processus archivistique…

Rappel des fonctions archivistiques :

  1. La création
  2. L’acquisition
  3. L’évaluation
  4. La classification
  5. La description
  6. La diffusion
  7. La préservation

Quelques paramètres à considérer au niveau de la description, de la diffusion et de la préservation...


La description: exigences

a) Récupération des informations :

La récupération efficace des informations dépend de la capacité d'accéder à une base de données précise et indexée. L’indexation des images comporte des défis tels que :

b) Conserver le contexte :

Des en-têtes de fichiers d'images sont nécessaires pour que l'on puisse inclure toutes les métadonnées pour préserver le contexte et l’intégrité des images. Or, peu de formats supportent les métadonnées (tiff, jpeg2000).


La diffusion: exigences

a) L’écran ou l’impression : le résultat variera en fonction de plusieurs paramètres. Cette problématique doit être envisagée avant la création ou l’acquisition.

Sur l’écran Sur papier

  • Profondeur des couleurs (c'est-à-dire la gamme de couleurs qui peuvent être affichées);
  • Dimension de la zone d'affichage;
  • Résolution de l'écran (c'est-à-dire la finesse des détails que le moniteur peut afficher);
  • Mémoire vidéo (c'est-à-dire la vitesse à laquelle le moniteur peut produire l'image).

  • Type de papier et encre (taille, absorption)
  • Couleurs de l’écran vs celles de l’imprimante
  • Résolution de l'imprimante
  • Taille de la mémoire de l'imprimante.

(Résumé des articles de Savage et Boudry)

b) La largeur de la bande passante : si la diffusion se fait à travers un réseau.

Il faut réaliser un compromis entre la qualité acceptable d'une image et la taille optimale du fichier en regard à l’utilisation.


La préservation: exigences

Les formats de préservation privilégiés par les institutions ?


                   L’étude du RLG

Formats d'image utilisés pour la préservation

Résultats : TIFF (80.6%) JPEG (38.9%) PDF et GIF (30.6%), MPEG





Complément bibliographique

  • Carmel, Lucie. Sources et ressources d'information sur Internet: Types de fichiers distribués sur Internet. Conférence donnée dans le cadre du cours BLT6056 - Sources et ressources d'information. Automne 2000.
  • DLM Forum '96. Electronic Records - Co-operation Europe-Wide. Guide de l’information numérique. Luxembourg: Office des publications officielles des Communautés européennes, 1997. Adresse URL : http://europa.eu.int/ISPO/dlm/documents/guide_fr.html. Page consultée le 20 janvier 2003.
  • Kuny, T. (1995). Introduction aux technologies et aux problèmes de la numérisation. Flash réseau, no. 14. Adresse URL : http://www.nlc-bnc.ca/9/1/p1-213-f.html. Page consultée le 20 janvier 2003.

Retour vers le haut

École de bibliothéconomie et des sciences de l'information, Université de Montréal
Dernière mise à jour: 5 janvier 2003
Site développé par Emmanuël Colinet et Inge Alberts