Miklos
« Je donne mon avis non comme bon mais comme mien. » — Michel de Montaigne

This blog is © Miklos. Do not copy, download or mirror the site or portions thereof, or else your ISP will be blocked. 

18 mai 2003

Attention, ce livre s’auto-détruira…

Classé dans : Livre, Sciences, techniques — Miklos @ 11:44

Une brève de Reuters annonce la sortie, en août, de DVDs de Disney qui ne seront plus lisibles au-delà des 48 heures suivant la sortie de leur emballage. « La technologie ne peut être piratée par des programmateurs désirant regarder les disques plus longtemps que 48 heures parce que le mécanisme d’inactivation du DVD est chimique et n’a aucun lien avec la technologie informatique. »

On semble ainsi se rapprocher dangereusement d’un futur possible (mais que je suis loin de souhaiter) dont j’avais parlé dans l’article « La numérithèque entre réalités et fantasmes » (Livres Hebdo, n° 381 (p. 80-84), 12 mai 2000) dans lequel je décrivais un tel mode de diffusion pour les livres (électroniques)…

[Publié à l’origine dans Biblio-FR]

12 mai 2003

Numérisation de livres en masse

Classé dans : Livre, Sciences, techniques — Miklos @ 11:59

Un article du New York Times décrit un robot développé en Suisse par 4DigitalBooks (un autre du même type est développé aux US par Kirtas), et capable de numériser des livres, en tournant leurs pages, à des vitesses de plus de 1000 pages/heure. Lorsqu’il tourne par mégarde plus d’une page, il s’arrête et envoie un jet d’air comprimé pour séparer les pages.

Il va sans dire qu’un tel équipement est plutôt cher, et il n’est rentable que pour des projets de numérisation de plus de 5,5 millions de pages.

L’article décrit des projets en cours (Stanford, Carnegie Mellon…) d’un grand intérêt.

[Publié à l’origine dans Biblio-FR]

22 novembre 2002

Peut-on conserver indéfiniment l’information ?

Classé dans : Livre, Sciences, techniques — Miklos @ 20:17

Ceci est le titre provocateur de la Rencontre du café des techniques qui s’est tenue hier au CNAM à Paris, avec la participation de Catherine Dhérent (chef du département innovation technologique et normalisation à la Direction des Archives de France), de Marie-Claude Delmas (conservateur général du département conservation au Centre historique des Archives nationales), Françoise Flieder (dir. de recherche émérite au CNRS, présidente de l’ARSAG) et de Serge Chambaud (resp. du département documentation et information de l’INPI).

Parmi les nombreuses questions posées par le public, l’une des plus récurrentes concernait l’information numérique, ce qui n’a pas empêché bien heureusement d’entendre des exposés fort intéressants sur la conservation des supports « traditionnels ». Pour résumer un peu brièvement les réponses de Mme Dhérent et de Mr Chambaud sur le numérique : à ce jour, on ne sait comment récolter cette information, ni comment la conserver à long terme pour une consultation/utilisation ultérieure.

Je ne parlerai pas ici de l’aspect conservation numérique (problématiques des supports passifs qui s’altèrent, des supports actifs – ordinateurs, périphériques, logiciels… –, des normes, des formats… qui changent de plus en plus rapidement), mais mentionnerai pour mémoire les informations passionnantes fournies notamment par Madame Flieder sur la conservation des documents (livres, papyrus…) anciens.

L’aspect récolte numérique a été abordé à titre expérimental dans de nombreux projets qui ont essentiellement mis en oeuvre des robots, ou processus automatisés de « survol » de l’internet et de recopie des pages (tel l’Internet Archive – www.archive.org qui fournit des archives – lacunaires et parfois épurées – remontant à 1996). Or, ces projets se heurtent, comme l’ont indiqué ces intervenants, sur la difficulté technique de parcourir un site dans son intégrité (plutôt que son intégralité), pour nombre de raisons :
- le temps requis pour parcourir l’ensemble ;
- les liens inaccessibles (pannes ou limites sécuritaires – e.g., intranet) ;
- les bases de données (via formulaires), les objets hypermédia (e.g., animations avec liens) …

La recopie des bases de données est elle-même une question difficile : il ne s’agit pas uniquement de conserver « toutes les données », mais (pour parler en termes généraux) tous les processus qui traitent ces données et les lient entre elles. Il en va de même pour d’autres « objets », telles que les animations, qui ne sont pas uniquement composées de données, mais aussi de programmes qui font « fonctionner » l’objet. Enfin, il est illusoire de vouloir séparer la notion d’objet de celui de procédé en disant qu’on garde les données et un modèle abstrait du procédé (il existe des langages informatiques dits fonctionnels où cette séparation n’existe pas vraiment). En d’autres termes, il ne suffit plus de recopier « ce qui est visible » pour en garder une image fonctionnelle, la partie visible pouvant n’être qu’une parmi une quasi infinité d’autres vues possibles du même objet.

Il me semble que l’approche utilisée dans ces expériences continuera à se heurter à cette problématique incontournable d’une façon qui ne fera que s’accroître, avec la mise en place de techniques de plus en plus dynamiques, avec l’accroissement des volumes, etc. S’il paraît évident qu’il est illusoire de penser pouvoir préserver une copie à l’identique de « tout » le web à « chaque instant », il me semble que, contrairement à ce qui a été dit, on peut arriver à en donner des images instantanées et localisées beaucoup plus précises, fiables et complètes (dans le sens de sous ensemble) que ce qui se fait actuellement et qui pourra se faire si on ne change pas de méthode. Pour prendre une analogie, c’est comme si, pour tenter de préserver tous les livres imprimés, on allait chez les libraires pour tenter de les trouver ; certains sont fermés, d’autres en rupture de stock…

Je me base pour cela sur un constat : il est rare qu’un organisme visible sur le web (avec ou sans pages dynamiques, avec ou sans bases de données) n’effectue pas des sauvegardes informatiques de toute son infrastructure, données et logiciels servant à cette visibilité y compris ; en théorie du moins, cette sauvegarde peut permettre de réutiliser ultérieurement cette sauvegarde, pour peu que l’architecture informatique (le type d’ordinateur, l’environnement…) ne change pas.

Pour ce faire, il existe des logiciels de sauvegarde qui fonctionnent dans un mode appelé « client serveur » : tout poste informatique qui doit être sauvegardé est « interpelé » par le serveur de sauvegarde ; à ce moment, ce poste envoie au serveur tout ce qui doit y être sauvegardé (et qui peut être sélectif, périodique et non pas forcément exhaustif et permanent – quoiqu’il existe des systèmes de journalisation qui peuvent garder des traces de tout).

Ne faudrait-il pas alors tenter d’inverser le modèle et utiliser celui (bien plus simple conceptuellement) du dépôt légal utilisé pour l’imprimé, où c’est à la charge du « producteur » de déposer les exemplaires ? Ne devrait-on pas réfléchir à la mise en place d’un dispositif dans lequel des organismes auraient l’obligation légale de déposer, sous des formes et avec des moyens à définir, l’ensemble des éléments nécessaires à la réutilisation, à l’image d’un cédérom (on les dépose bien) qui comprend tout ce qui est nécessaire à son fonctionnent sur une architecture donnée ? Ceci faciliterait l’abord de la problématique de la conservation de la « structure profonde » des sites (autant dans leur architecture que dans leurs contrôles d’accès – ces éléments étant connus du producteur).

En réponse à la question posée au début de cette rencontre, les intervenants se sont accordés pour dire que tout a un début et tout a une fin… On ne pourra probablement jamais tout conserver pour toujours (et c’est peut-être salutaire), mais en tout cas, on peut probablement en améliorer certaines tentatives.

[Publié à l'origine sur Biblio-FR]

15 novembre 2002

Fermeture de serveurs d’information scientifique

Classé dans : Livre — Miklos @ 17:55

Sous la pression d’éditeurs regroupés sous l’égide de la SIIA (Software and Information Industry Association), le site Web PubScience, mis en ligne par le Département américain de l’énergie et qui offrait un accès gratuit à des articles et de l’information scientifique, vient de fermer. Les éditeurs, comprenant Elsevier, prétextaient que c’était une utilisation « impropre » des fonds publics pour une concurrence déloyale avec les services d’information commerciaux.

La SIAA a exprimé sa satisfaction et annoncé son intention de s’attaquer à d’autres services d’informations publics américains, offrant des contenus sur le droit et l’agriculture.

Quant aux associations de bibliothèques qui s’étaient mobilisées pour tenter d’éviter cette fermeture, elles ont annoncées que cette décision aurait un impact néfaste sur leurs finances et donc sur les services qu’ils offrent au public, ayant dorénavant à payer (jusqu’à 40$ par article parfois) pour accéder à l’information qui était auparavant disponible gracieusement.

Pour plus de détails, cf. l’article de William Matthews.

On ne peut que rester stupéfaits. Entre la floraison des logiciels libres ou ouverts et l’établissement de réseaux du genre OAI d’une part, et la mercantilisation à outrance du savoir (et de la culture) d’autre part, on est en droit d’espérer le meilleur mais de craindre le pire.

[Publié à l’origine sur Biblio-FR]

12 mai 2000

La numérithèque entre réalités et fantasmes

Classé dans : Livre, Progrès, Sciences, techniques — Miklos @ 0:01

Lorsque les bibliothèques débattent de leur avenir à l’ère du nu­mé­ri­que, c’est en général pour affirmer qu’on ne pourra pas tout numériser et que leur rôle sert de trier et servir de médiateur entre les documents et le public. Michel Fingerhut, directeur de la médiathèque de l’Ircam, pose la problématique autrement. Et si justement on pouvait tout numériser un jour, tout diffuser sur Internet, via ce qu’il estime l’invention la plus prometteuse : le papier électronique (digital e-paper), lisible sans souris, sans clavier, sans stylet. La numérithèque du futur ne posséderait plus alors que des livres blancs où chaque lecteur pourrait tout inscrire. Dans cette optique, avant de se demander quoi numériser, le problème crucial est aujourd’hui celui de la conservation des supports et des formats numériques, mille fois plus problématique que celle du papier.

La numérisation est un procédé aussi vieux que l’informatique (si on exclut ses débuts analogiques) : les descriptions des processus et les données qu’ils manipulent y sont codées de façon binaire. C’est ce qui permet de stocker des documents de toute nature (textes, images fixes ou animées, sons…), d’y effectuer des recherches (dans leurs contenus ou dans des métadonnées associées) et de les éditer à la demande, de près ou de loin, sur écran ou papier.

La chute des prix des moyens de stockage1 et du matériel et logiciels nécessaires à la numérisation du texte2, et surtout l’explosion du Web et le développement de standards de codage numérique plus aptes à la diffusion et à l’édition3, ont créé un tsunami de numérisation et de mise en ligne, individuelle ou institutionnelle, de quantité de documents de toute nature (texte, image fixe ou animée, son…), récents ou anciens, avec ou sans respect des droits afférents, disparates ou formant une collection cohérente.

Ce phénomène indiscutablement bénéfique a rendu disponible des textes jusque là inaccessibles à la majeure partie du public – parce qu’ils étaient anciens, rares, épuisés, confidentiels voire secrets ou simplement consultables en des lieux limités ou difficilement accessibles. Dans certains cas, leur mise en ligne a été enrichie d’outils permettant d’y effectuer des recherches tout à fait impossibles manuellement.

De tels développements ont entraîné les espoirs les plus fantasmatiques : on peut tout numériser, on peut tout mettre sur Internet, tout est sur Internet4. De ce point de vue se pose alors la question du futur de la bibliothèque (ou, par euphémisme, celle de la « bibliothèque du futur »), et de celui des éditeurs (doit-on encore en avoir, puisqu’on peut publier soi-même sur le Web). Le débat « La bibliothèque du futur : Les usages du livre électronique laisseront-ils encore une place à la bibliothèque ? », qui s’est tenu lundi 20 mars sur le stand eBook du Salon du livre, abordait ainsi la problématique du positionnement des bibliothèques face au phénomène du numérique. Les participants à cette table ronde, et non des moindres5, ont loué les vertus de la numérisation comme la solution tant attendue aux problèmes de conservation et de diffusion, tout en mentionnant qu’« on ne pouvait tout numériser » ni tout publier : le rôle de la bibliothèque – et celui des éditeurs en amont – sera donc, encore plus, celui de médiation : les uns choisissent les textes qui valent la peine d’être publiés, les autres proposent une offre collective organisée, comme l’a si bien dit Martine Blanc-Montmayeur, directrice de la Bibliothèque publique d’information. Mais l’ont-ils dit pour se rassurer  ? Et si, avec des développements futurs, on pouvait un jour tout numériser  ? Envisagerait-on alors une bibliothèque sans livres  ? Et entre temps, que faut-il numériser, et que faut-il garder sur papier  ?

Pour tenter de répondre à cette question, il aurait fallu analyser la nature et le devenir de cette fameuse offre numérique : or cet aspect n’a pas été abordé. Pour tenter de le faire, nous allons considérer deux aspects techniques : le support sur lequel on enregistre le document numérisé, et le format dans lequel il est codé numériquement.

Les supports s’altèrent

Les sup­ports d’en­re­gis­tre­ment in­for­ma­tique com­pren­nent prin­ci­pa­lement des ma­té­riels de type bande (magné­tique) ou disque (mou, dur, opto­nu­mé­rique, compact, DVD…), de ca­pa­cité va­ria­ble mais crois­sante : il y a une ving­taine d’an­nées, les dis­ques durs offraient un volume de stockage de quel­ques dizaines de méga­octets, tandis qu’aujour­d’hui ils en possè­dent mille fois plus pour un coût dix fois moins élevé (soit un facteur de 10 000 en réduction de prix/octet). Ces sup­ports peuvent être com­bi­nés en des sys­tè­mes de plus en plus so­phis­ti­qués, pré­sen­tant des volu­mes de stockage de l’ordre de téra­octets en un espace physique réduit à la taille d’un tiroir. On peut donc y emma­ga­siner les textes numé­risés de milliers de livres et créer ainsi des éta­gères vir­tuelles de bi­blio­thè­ques quasi-in­fi­nies.Contrairement aux livres physiques qui tapissent les murs de nos anciennes bibliothèques, les supports de stockage informatique ont une durée de vie estimée à une dizaine d’années. En d’autres termes : pour assurer la pérennité d’une information stockée sur des médias de ce type, il faudrait régulièrement les recopier (ce qui, dans certains cas, peut être fait en partie implicitement, notamment dans les systèmes redondants de type RAID).

Non seulement la durée de vie de ces supports est limitée dans le temps, mais leur nature évolue : on n’est plus assuré de pouvoir remplacer une bande magnétique par une bande d’un modèle identique, ni même d’assurer le bon service d’un lecteur de médium (bande, disque) au fil des années, leur obsolescence étant tout aussi rapide que celle des médias qu’ils permettent de lire. Il va sans dire que les ordinateurs auxquels sont reliés ces équipements, évoluent tout aussi rapidement.

Les formats évoluent

Ce n’est pas uniquement le support qui vieillit vite, ce sont les représentations numériques de l’information qui changent rapidement : du codage du texte6 à sa mise en forme7, une pléthore de formats et de logiciels nécessaires à leur traitement, loin d’être immuables ou universels, paraissent et disparaissent, rendant plus ardue l’accès « universel » à l’information numérique. Il est parfois difficile de lire sur un PC un fichier Word réalisé sous Macintosh, et la consultation d’un site Web peut différer d’un navigateur à l’autre.

Pour ce qui en est de l’image ou du son, la multiplicité des formats est tout aussi spectaculaire : si MP3 a atteint une grande notoriété pour la diffusion des clips audio, il existe une grande variété de systèmes de codage numérique du son8. Or, ces standards évoluent et sont atteints eux aussi d’obsolescence.

Jusqu’à quand  ?

Il est peu probable que cette évolution – dans la nature (et qualité) des supports et des formats – s’arrête : elle reflète, d’une part, des innovations intéressantes, et permet ainsi de nouvelles représentations  ; mais elle fait aussi partie de la stratégie des industries qui souhaitent proposer de nouveaux produits, plus novateurs que ceux de leur concurrence, et renouvelant ainsi l’intérêt pour leurs propres produits. En sus, il est de leur intérêt (commercial, stratégique) de ne pas trop assurer de compatibilité avec les formats précédents (qui possède encore aujourd’hui un lecteur de disques tournant à 96, voire 78 ou 45 tours ?) ou avec ceux de la concurrence (voyez les divergences entre Netscape et Internet Explorer), ce qui leur permet aussi de rééditer – et donc de vendre – des anciens documents sur de nouveaux supports et de fidéliser ainsi leur clientelle.

La numérisation sert-elle à conserver  ?

On est donc en droit de se demander si la numérisation pourra assurer, comme on le prétend, la conservation d’un patrimoine qui aurait disparu autrement, ou principalement une diffusion (bien plus vaste qu’auparavant, on ne le conteste pas). Si un livre peut être encore lu cinq cents ans après avoir été imprimé, peut-on être assuré de pouvoir accéder au contenu d’un « disque floppy 8 pouces » tel qu’il en existait il y a dix ans ? Pourra-t-on lire, dans cinq cents ans, les textes codés aujourd’hui en PDF ou SGML ? Pour pouvoir assurer cette pérennité de l’information numérique, il faudra peut-être réinventer le métier antique de copiste, chargé, cette fois-ci, de reprendre périodiquement les collections et les transférer d’un support à l’autre et d’un format à un autre.

Là où il est nécessaire de passer par un moyen de reproduction – le son enregistré – on est contraint de le faire : du disque de cire au vynil, puis au laser, mais, on le sait, ces recopies ne se font pas sans déperdition : combien de documents rares disparaissent, faute d’intérêt économique pour leur reproduction ? Retrouve-t-on sur disque compact l’enregistrement de la voix de Johannes Brahms, prononçant quelques mots avant d’attaquer au piano une de ses danses hongroises ?

Quant bien même les éditeurs et les bibliothèques pourront assurer, lors de projets modestes ou pharaoniques, la numérisation de volumes importants de documents, auront-ils les moyens d’assurer leur disponibilité pour les générations futures ?

Le livre du futur

Là on l’on peut « craindre » le numérique, c’est pour son influence possible sur l’objet-livre au quotidien et sur la lecture. Cette dernière est déjà fort malmenée par le zapping : d’abord introduit par l’invention de la télécommande du petit écran, puis renforcé par l’utilisation de l’hypertexte popularisé par le Web et enfin repris par les livres électroniques.

Toutefois, une invention bien plus intéressante et passée sous silence9 est susceptible de changer fondamentalement le paysage du livre et son économie. Il s’agit du papier électronique (digital e-paper, en anglais), matériau fin, léger et souple, tout comme une feuille de papier – et réutilisable. À la différence des écrans informatiques, il est réflectif : la lumière ambiante suffit pour en lire le contenu, tel le papier, différence primordiale dans la qualité de lecture qu’il offre. Pas besoin de souris, de clavier ou de stylet.

On peut alors imaginer le livre futur : un volume de quelques centaines de ces pages vierges, vides, blanches, prêt à accueillir tous les livres du monde. On y insère une carte à puce, et le contenu, texte et images, s’inscrit sur toutes ses pages, le titre sur sa couverture et le nombre de cartes vendues en 4e de couverture… On peut le feuilleter, le lire n’importe où, même sur une île déserte (équipée tout de même d’électricité !).

Mais alors, la bibliothèque du futur, déchargée de la nécessité de garder ses fonds en étagères et réserves, n’aurait-elle plus qu’un livre (blanc) par place assise  ? Une seule étagère comprendrait ces quelques livres aveugles, et les cartes électroniques contenant les livres remplaceraient les anciennes fiches des catalogues manuels qui ne contenaient que leurs titres  ?

Et la librairie du futur pourra se réduire à la taille d’un bureau de tabac, débitant ces cartes à puces rangées dans des boîtes à chaussure telles les cartes postales anciennes chez les bouquinistes, désormais seuls repositaires des livres à contenu perpétuel.

Les éditeurs, profitant de cette manne, proposeront alors ces cartes à durée déterminée, à lire dans la semaine ou le mois suivant l’achat, leur contenu s’effaçant ce délai passé. Procédé fort utile pour la diffusion des quotidiens, appliqué au livre il en rendra la lecture une mission impossible.

Et enfin, notre bibliothèque personnelle disparaîtra, remplacée par une cartothèque à puce et un seul livre de chevet. Ou un exemplaire par membre du foyer. Ou plusieurs, pour ceux qui aiment lire plus d’un livre à la fois.

Papier : conserver  ; numérique : diffuser

Le texte (ainsi que l’image fixe) se situe ailleurs que les documents nécessitant un mode de reproduction codée (musique, image animée…) : son support principal ne requiert pas forcément l’utilisation de moyens intermédiaires (électriques, électroniques) pour y accéder, et bénéficie d’une pérennité remarquable, tandis que les documents numérisés doivent être reproduits périodiquement pour être conservés. On serait donc tenter de conclure que la numérisation est une technologie qui se prête particulièrement bien à la diffusion, mais que, pour le texte du moins, c’est encore le papier qui en assure la conservation.

On peut alors se demander si les choix de numérisation et de publication électronique, dans le cas du texte au moins, ne devraient pas concerner surtout des documents à contenus que l’on sait périssables ou éphémères, plutôt que ceux qu’on voudrait préserver pour les générations futures (ce qui implique le devoir d’effectuer des choix – mais, excepté au dépôt légal peut-être, on doit toujours en faire). Pour ces derniers, les modes de reproduction stables – papier, microfiche, microfilm… – auraient probablement plus de chance d’être lisibles par nos descendants, comme nous pouvons déchiffrer les papyrus de nos ancêtres.

La bibliothèque se verra alors chargée du rôle-clef de charnière entre le passé et le futur, celui de conservateur d’un patrimoine écrit et imprimé de nature constante et structurée, et de guide dans un monde numérique en perpétuelle mutation.

Daté 21 mars 2000, publié le 12 mai 2000 dans Livres Hebdo n° 381 (p. 80-84).


1 Disques durs, disques compacts (ré)inscriptibles, bandes numériques…
2 Scanners, logiciels de reconnaissance
3 HTML, XML ou PDF pour le texte ; GIF et JPEG pour l’image ; RealAudio, Quicktime, MP3 pour le son…
4 Voir : « Le titre d’un livre n’est pas le livre », dans Livres Hebdo 346 du 27.8.99.
5 Cette table ronde était animée par François Dupuigrenet-Desroussilles, directeur de l’Enssib, avec, comme intervenants : Claude Jolly, sous-directeur des bibliothèques et de la documentation de l’enseignement supérieur, Daniel Renoult, directeur général adjoint de la BNF, Martine Blanc-Montmayeur, directrice de la BPI, Patrick Bazin, directeur de la Part-Dieu de Lyon, Danielle Roger, directrice de la bibliothèque de l’ENS-Lettres, Emmanuel Aziza, DLL, Jean-Pierre Sakoun, P-DG de Bibliopolis, Michelle Huignard, Xerox.
6 Codage en 5 bits (pour le telex), puis en 7 bits (ASCII), 8 bits (EBCDIC, ASCII avec ses variantes d’une plate-forme informatique à l’autre, voire d’un logiciel à un autre), enfin un codage « universel » (Unicode) mais encore très rarement utilisé
7 RTF, Postscript et PDF, HTML, XML ou SGML, TeX…
8 AU, AIFF, ALAW, MP3, MPEG, MP3, MOD, MULAW, SND, VOC, WAV…
9 Annoncé en juin 1999 [cf. « Le titre d’un livre n’est pas le livre »], le papier électronique est le fruit d’une nouvelle technologie développée pendant quatre ans par Xerox. Il est composé de « billes bichromatiques », qui représentent chaque point, et suspendues individuellement dans une cavité remplie d’huile  selon la face qu’elles exposent suite à un changement de voltage, une image ou un texte s’y compose. Pour en savoir plus, consulter par exemple cet article.

The Blog of Miklos • Le blog de Miklos