Miklos
« Je donne mon avis non comme bon mais comme mien. » — Michel de Montaigne

This blog is © Miklos. Do not copy, download or mirror the site or portions thereof, or else your ISP will be blocked. 

11 septembre 2008

Ça presse

Classé dans : Livre, Sciences, techniques — Miklos @ 1:18

« Les pauvres yeux atterrés se firent violence pour retenir leurs grosses larmes. » — Eugène-Melchior de Vogüé, Les Morts qui parlent, 1899.

« Quotidianum da nobis hodie. »

« Si la presse n’existait pas, il faudrait ne pas l’in­ven­ter. » — Honoré de Balzac, « Les Jour­na­listes. Mono­gra­phie de la presse pari­sienne », in La Grande ville, nouveau tableau de Paris, comique, critique et philo­so­phique, t. 4, p. 87-208, 1843.

Gaudeamus igitur, Google communique sur son entreprise de numérisation en masse de milliards de pages d’articles de presse publiés dans des journaux depuis plus de 200 ans à la surface du globe et de les mettre en ligne indexés. Ils se sont aussi associés aussi avec quelques grands éditeurs de presse (à l’instar du New York Times et du Washington Post) qui détiennent déjà des archives numériques. Ces documents historiques se rajouteront à leur service d’accès à la presse quotidienne actuelle. On rêve des recherches et des découvertes qu’on pourrait y faire…

Entreprise démesurée ? En tout cas, à la mesure de son intention affirmée d’« organiser toute l’information du monde », et ils y mettent les moyens. L’annonce fournit l’adresse du nouveau service en version « beta » (c’est ainsi qu’ils avaient procédé pour le lancement d’autres projets). On peut effectuer des recherches dans les textes (et titres) des articles, la restreindre à une période spécifique, à ne vouloir obtenir que les réponses gratuites – certaines étant fournies par des archives payantes de partenaires du projet. Mais on n’a aucune indication claire du corpus disponible – il s’agit de toute évidence de quelques grands éditeurs américains, de documents juridiques de la Cour suprême (curieuse définition de la presse…) et d’un nombre de journaux nord-américains plus ou moins connus – ni de la période couverte – on retrouve quelques documents (une douzaine parmi les gratuits) datant du XVIIIe s., mais rien de systématique.

On aurait aimé lire les échos de la Révolution française dans la presse américaine de l’époque, mais rien n’est encore entré à ce sujet dans (la partie gratuite de) l’archive. En avançant dans le temps, on trouve trace de Napoléon ; ainsi, la Gazette de Pittsburgh datée du 26 mai 1807 rapporte les revers militaire de « l’invincible Napoléon » (italiques dans le texte) face aux Russes, et ajoute : « When tyrants meet with a reverse of fortune suspicion always haunts them. The invincible Napoleon imputing his want of success to his officers, is said to have accused several of them of treason. His former favorite Duroc is reported to have incurred his displeasure, and to have been sent back to France under an escort of gens d’armes. » À cette époque, le torchon brûlait entre les États Unis et Sa Majesté Britannique : le journal rapporte dans le même numéro que le Président [Jefferson] avait enjoint à un navire de guerre britannique de ne jamais entrer dans les eaux territoriales américaines, et que ce bâtiment avait enfreint à l’interdit.

Contrairement au service de livres numérisés, les contenus eux-mêmes ne sont pas forcément hébergés dans les serveurs de Google : c’est le cas pour les détenteurs d’archives numériques, que Google ne fait qu’indexer et référencer et y fournir l’accès (gratuit ou payant, selon le choix du partenaire). Par contre, Google numérise probablement des microfilms d’autres partenaires, et en héberge le résultat avec des degrés très variables de qualité : pour certains, il identifie de façon assez remarquable les contenus (mot par mot) et la mise en page (les titres), ce qui permet d’en retrouver le contenu, de l’afficher et de s’y déplacer aisément en glissant les pages à l’écran (pour autant qu’elles se soient chargée entièrement). Par contre, on y trouve des pages entières noircies, tachées, déchirées, illisibles et donc souvent inutilisables, comme on peut le voir ci-contre : il est patent que le traitement de masse, automatisé, n’est pas suivi d’un contrôle de qualité. Triste comparaison avec la haute qualité de leur numérisation de livres, et probablement due au fait qu’ici ils n’ont pas utilisé les journaux eux-mêmes mais des microfilms de qualité parfois très médiocre. En théorie, il aurait été utile d’en estimer l’état avant le procédé, et de revenir – si possible – à l’original papier si nécessaire, mais il ne semble pas que cela ait été effectué ; vu l’ampleur du projet, il est peu plausible que cela se fasse, et l’on serait alors condamné, dans ces cas, à accéder à une version dégradée d’une mauvaise photographie de l’original.

Un autre défaut, qu’on a aussi identifié dans leur rubrique de livres numérisés (mais dû probablement à d’autres raisons) est l’indexation incorrecte des dates des documents. Le Victoria Daily Standard daté de 1873 se retrouve classé en 1783, et des milliers de journaux, classés de 1600 à 1699, ont été publiés des centaines d’années plus tard (le Mckenzie River Reflection ne date pas du 10 juin 1664 mais du 10 juin 1994, le numéro de la Tribune qui annonce son édition web n’a probablement pas été publié le 4 janvier 1600…).

C’est donc effectivement une version « beta », et on peut s’attendre à – ou du moins espérer – que la qualité technique des contenus et la couverture des fonds (périodes, pays) s’amélioreront. On ne peut manquer d’établir quelques comparaisons superficielles avec des projets similaires. On se souviendra de l’annonce de la Bibliothèque nationale, le 16/2/2005, de numériser rétrospectivement la presse française couvrant la période 1826-1944, « les archives complètes des quatre premiers [Le Figaro, La Croix, L’Humanité et Le Temps] pourront être consultés sur l’internet dès le début d’année 2006 [… sur] Gallica ». On y trouve effectivement des titres en ligne, mais la consultation ne se fait que par date de parution et en « mode image » : il est impossible d’effectuer une recherche dans le contenu des articles, ce qui revient au mode de consultation des exemplaires papier. Quant à Gallica2, la version « beta » de la BnF, elle annonce bien sur sa page d’accueil « Nouveauté : retrouver les périodiques et la presse dans Gallica 2. Près de 1200 titres de périodiques », mais comment diantre fait-on pour les y retrouver rapidement, les feuilleter ou y effectuer une recherche ? Il semblerait qu’il faille, pour ce faire, aller dans la recherche avancée, cocher « périodique », indiquer son nom dans « titre », puis après quelques autres clics trouver finalement le journal en mode image (une recherche d’un mot très visible dans les contenus n’a rien donné). Pas évident…

Quant au projet de réseau francophone de bibliothèques nationales numériques, « né en 2006 parallèlement à la Biblio­thèque numérique européenne » (qui sera inaugurée sous le nom d’Europeana en novembre 2008), il a révélé au public son prototype de portail lors du Congrès mondial des bibliothèques et de l’information, il y a un mois. Par son entremise, on peut accéder aux documents numérisés par les partenaires ; en ce qui concerne la presse, on y trouve un nombre impressionnant de numéros (133 541 de France, 66 670 du Québec, 3639 du Luxembourg, 1311 de Haïti, etc.). Les documents provenant de France (et de Haïti) sont en fait fournis par Gallica (et non pas Gallica2) dans son interface traditionnelle et portent souvent la mention « Le document que vous avez demandé n’est pas accessible » tout en affichant son contenu… Ils ne sont donc pas (encore) indexés mot à mot, mais uniquement accessibles par date.

D’autres projets sont en cours. On lira ce qu’en dit le New York Times dans son article consacré au projet de Google. En tout cas, nous en sommes encore aux balbutiements de l’accès tout numérique aux archives de la presse. On suivra avec curiosité et intérêt ces divers projets qui se pressent (c’est le cas de le dire) pour être…

© Michel Fingerhut, 1985.

2 commentaires »

  1. [...] en revenir à Google Books, on avait déjà signalé la fantaisie dans le signalement des dates d’édition de certains titres. Mais il ne s’agit pas [...]

    Ping par Miklos » Cherche et tu trouveras Molière chez Gallica, Google Books et Europeana — 26 décembre 2008 @ 20:26

  2. [...] la recherche au mois près (très utile pour une éventuelle intégration de leur service de presse numérisée à celui-ci) : ces deux cases sont remplacées par des menus déroulants, comprenant d’une [...]

    Ping par Miklos » Google Books, ou quand le mieux est l’ennemi du bien — 13 mars 2009 @ 4:11

Flux RSS des commentaires de cet article. TrackBack URI

Laisser un commentaire

XHTML: Vous pouvez utiliser ces balises : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

The Blog of Miklos • Le blog de Miklos