Miklos
« Je donne mon avis non comme bon mais comme mien. » — Michel de Montaigne

This blog is © Miklos. Do not copy, download or mirror the site or portions thereof, or else your ISP will be blocked. 

15 novembre 2009

Avant le commencement d’Europeana était le verbe

Classé dans : Livre, Sciences, techniques — Miklos @ 11:46

Une bibliothèque numérique qui ne contienne pas que des livres

« Comme le montre l’emprise de Google, le patrimoine en question ne se limite pas à l’écrit – ce qui se reflète d’ailleurs dans la variété des collections de la Bibliothèque nationale de France – il sera donc inévitable à terme d’articuler un tel projet avec celui de l’accès aux autres fonds : estampes, cartes, musique, film. Là aussi s’impose une réflexion qui prendrait en compte ce futur. » (23 février 2005)

C’est le cas d’Europeana. Se distinguant de Google Books qui ne contient que des livres, c’est un portail qui fournit l’accès à des livres, des images fixes et animées et des enregistrements sonores. Mais la musique en est encore la parente pauvre à deux égards au moins : peu d’enregistrements (le problème des droits, que la Commission européenne veut enfin aborder), et pas de distinction pour la notation musicale (les partitions) : dans le modèle actuel, une partition imprimée sera indexée « texte », tandis qu’une partition manuscrite sera identifiée comme une « image fixe ».

Une bibliothèque 2.0

« Le numérique est un des avatars de l’écrit ; dans sa forme actuelle, il a tendance à supprimer la médiation. Mais les techniques offrent des moyens de la réintroduire autrement ; certaines bibliothèques fournissent des services d’accès à distance par courriel, mais rien n’empêche d’envisager d’autres modes de mise en relation de lecteurs avec des bibliothécaires et avec d’autres lecteurs (…). » (23 février 2005)

« Envisageons une bibliothèque offrant une interface de ce type : les lecteurs peuvent communiquer, le cas échéant, entre eux, pour échanger des conseils, collaborer sur un travail commun. Un documentaliste de service est aussi présent : le lecteur ayant besoin d’aide dirige ainsi son avatar vers celui du documentaliste et l’interroge (à l’aide du clavier ou via un microphone) ; le documentaliste répond de la même façon et déplace éventuellement son propre avatar pour guider le lecteur vers une section de la bibliothèque. À la différence des représentations anthropomorphiques utilisées dans certaines interfaces dont l’intelligence n’excède pas celle d’un robot mécanique, il s’agit d’une mise en rapport avec une compétence humaine bien réelle : là est peut-être une des clés d’une certaine (ré)humanisation de l’informatique. » (mai 2000)

On peut en voir ici et là les prémices : la Médiathèque de l’ESC Lille (médiation en ligne), les quelques réseaux sociaux autour du livre : Libfly (échanges autour des bibliothèques personnelles des internautes), Points communs (site de rencontre par affinités culturelles…).

La bibliothèque numérique : plus qu’un portail, un fonds en réseau

« Je verrai bien la bibliothèque européenne du futur sous forme d’un réseau dynamique permettant le raccordement de bibliothèques petites et grandes – certifiées, c’est essentiel (autant pour la « validité » des fonds que l’adéquation technique) –, avec leurs fonds numérisés (qu’ils auraient constitués selon leurs propres critères), s’intégrant facilement dans un maillage (utilisant probablement des protocoles de type OAI plutôt que Z39.50) qui offrirait, entre autres outils, recherche dans les contenus et accès réparti (DOI ?) à l’ensemble des fonds ainsi disponibles, de façon répartie. » (17 mai 2005)

« On pourrait envisager ainsi un dispositif dans lequel chaque bibliothèque nationale faisant partie de ce réseau, ayant numérisé ses fonds propres dans des formats compatibles4, en ait le contrôle5, au lieu d’avoir à les transférer à une tierce partie qui en aurait la maîtrise, comme Google le souhaiterait pour son projet. Quant à cette bibliothèque virtuelle, elle offrira des modes d’accès, de présentation de collections et de contextualisation des ouvrages6, de recherche dans les métadonnées et dans les contenus eux-mêmes7. » (24 mars 2005)

Dans sa version actuelle, Europeana utilise effectivement le protocole OAI afin de récupérer les informations (métadonnées) concernant les documents numérisés chez ses partenaires. Elle permet donc de les localiser si on en connaît un bout du titre ou de l’auteur : c’est donc bien un (vaste) portail. Mais contrairement à Google Books, Europeana n’indexe pas les contenus : il est donc impossible d’y retrouver un livre contenant un mot ou une phrase souhaitée. C’est en ce sens qu’Europeana n’est pas (encore) une bibliothèque numérique. Cela tient à deux facteurs indépendants : la version actuelle est un prototype, Europeana version 1.0 étant prévu pour 2010 ; mais surtout, c’est la problématique des droits d’auteur (que Google aborde, comme on le sait, tel un corsaire) : variable d’un pays à l’autre, elle peut ne pas autoriser la récupération par Europeana de fichiers numériques (par exemple : des livres) stockés chez ses partenaires pour les indexer en texte intégral. Il y aurait bien une alternative technique – que chaque partenaire effectue cette indexation et ne fournisse que les indexes à Europeana au lieu des fichiers – mais cela nécessiterait des développements chez chacun des partenaires, ce qui est exclu. À moins… à moins que le droit n’évolue dans le sens qui offrirait à des bibliothèques, physiques et numériques, des exceptions qui permettraient un bien meilleur partage des ressources culturelles, sans léser les ayants droits, mais sans léser non plus les lecteurs ni faire peser un poids financier insupportable sur les bibliothèques.

Europeana comme garantie de l’accès au patrimoine culturel numérisé

« Ce danger – de concentration dans les mains d’une entreprise à visées purement commerciales (voire financières) – concerne aussi les contenus numériques culturels patrimoniaux. Ainsi, le projet de numérisation des fonds universitaires par Google créera une “bibliothèque numérique universelle” dans son propre réseau, qui ne pourra être indexée par d’autres moteurs de recherche. Cette concentration est inquiétante à un autre égard, que j’avais déjà soulevé en 1999 : “imaginez un embargo d’une grande puissance sur une plus petite, qui aurait pour effet de lui couper l’accès aux réseaux…”. » (13 février 2006)

« Ce genre de problème [les erreurs de numérisation, les erreurs dans les métadonnées] démontre, s’il le fallait, que le numérique ne doit pas être considéré comme l’unique moyen de conservation à long terme : la préservation de l’original est primordiale. Il démontre aussi le danger d’une stratégie de numérisation qui voudrait éviter, pour des raisons d’économie, de numériser un document qui l’aurait déjà été ailleurs : imaginez qu’un hapax se trouve dans la page d’un livre mal numérisé, mais dont il n’existerait qu’un seul et unique exemplaire numérique : il sera impossible de trouver ce mot. Raison de plus de l’importance de l’existence de bibliothèques numériques concurrentes… » (14 novembre 2009)

Les arguments invoqués alors et hier à l’encontre du monopole et de l’exclusivité de Google sont d’autant plus valables aujourd’hui, et justifient, s’il le fallait, l’effort important que fait l’Union européenne pour fournir, non pas un service concurrent à Google, mais une ressource – probablement surtout complémentaire – reflétant le patrimoine culturel européen dans sa variété et dans sa richesse. On lui souhaite de réussir à s’imposer comme référence incontournable, aux côtés des quelques autres grandes références disponibles sur l’internet, qu’elles soient publiques ou privées.

26 avril 2007

Quand la BnF se confie à Google

Classé dans : Sciences, techniques — Miklos @ 18:06

Il ne faudrait pas un mauvais procès à notre Bibliothèque nationale en prétendant qu’elle ne fait que défier l’Aspirateur géant de l’information (« de toute l’information ») tant aimé (par) ailleurs ou partout. Elle en fait aussi usage pour indexer les pages de la bibliographie nationale française qui ne propose malheureusement pas de recherche par champs indexés : comment faire pour y trouver aisément la date de la première édition d’un titre particulier – en l’occurrence Les Racines du ciel, de Romain Gary, récemment cité ? Il faut alors se rabattre sur le catalogue de la BnF, et y rechercher l’ouvrage ; on trouve trois notices pour « Les Racines du ciel », dont la plus ancienne remonte à 1972, tandis que sous « Les Racines du ciel, roman » se trouvent trois autres notices dont deux remontent à 1956.

Puisqu’on évoque les moteurs, il ne faut pas ignorer l’existence du nouveau bolide français, Exalead, qui tente de sortir1 de sa chrysalide. Celui-ci se qualifie sur son blog comme « l’autre moteur de recherche » dans un style résolument djeun’. Dans un style plus sobre, il annonce sur son serveur corporate que « l’ambition d’Exalead n’est pas de “gagner” la compétition contre Google, mais d’offrir une alternative crédible, offrant un service de qualité équivalente ou meilleure pour l’ensemble de la problématique “search”, et de se positionner les cinq meilleurs moteurs de recherche mondiaux. » (sic). Une des fonctionnalités très utiles qu’il propose (et que l’on retrouve dans Europeana, le prototype de bibliothèque numérique européenne proposé par la BnF) est la possibilité de préciser la recherche après réception d’une liste de réponses (ce qu’ils appellent « la zapette thématique ») : par termes associés (ce n’est pas nouveau en soi – on le trouvait dans l’ancien Altavista2 – mais fort utile, et absent dans les principaux moteurs), par type de site (avec recherche limitée aux blogs, par exemple), par type de document multimédia, par langue… Ce type de recherche par affinages successifs est, pour certains, plus utile qu’une « recherche avancée » initiale, puisqu’il fait remonter des catégories dans les réponses trouvées, auxquelles on n’aurait pas forcément pensé.

Exalead vient de rajouter une autre fonctionnalité intéressante à la recherche d’images, celle permettant de limiter les réponses uniquement aux visages. La recherche par contenu significatif dans le multimédia (images fixes ou animées, documents sonores – paroles ou musique) pour le grand public est un défi qui, une fois relevé, fera date dans le développement des moteurs de recherche : qui n’a cherché à identifier une photo (celle d’un tableau ou d’une personne, par exemple), à trouver une image qui ressemble à une autre, ou qui contient des éléments (objets, personnes, paysages, scènes…) qui ne sont pas forcément décrits dans le texte l’accompagnant ? Même si des recherches très savantes sont effectuées depuis longtemps pour l’analyse sémantique des contenus (que ce soit des images fixes, des vidéos ou de la musique, par exemple), elles ne sont pas encore disponibles pour le grand public3, et loin d’être intégrées dans les moteurs de recherche. Il n’est donc pas étonnant qu’Exalead tente de le relever, dans le cadre du projet Quaero dont le partenaire allemand s’est retiré fin 2006. Est-il encore temps ? Ils ne sont pas les seuls.

Enfin, un autre moteur qui a du mal à s’imposer est Live de Microsoft, qui vient de perdre sa place de « première marque de la planète » au profit de Google. Pourtant, il innove certainement de son côté : utilisant de nouvelles techniques d’interface, sa recherche d’images fournit une « page continue » de réponses : il n’est plus nécessaire de passer de page à page, il suffit de parcourir l’unique page des vignettes à l’aide de l’ascenseur ; il n’est plus nécessaire de cliquer sur une vignette pour obtenir des informations à son sujet (taille, site, commentaires…), il suffit de l’effleurer avec la souris. Cette présentation est bien plus efficace que celles des concurrents : d’un coup d’œil, on localise les images potentiellement intéressantes – aucun texte n’intervenant entre elles ; puis on vérifie ce qui pourrait être pertinent. Live fournit aussi la possibilité d’effectuer des recherches par proximité géographique : une librairie à Paris ? un cinéma à Sydney ? La liste des réponses affiche, outre leur adresse, une carte avec leur localisation et l’itinéraire pour s’y rendre.

Dans cette version new age des 24 heures du Mans, c’est le moteur superboosté en technologie, hypersimple à utiliser et permettant de « tout » faire d’un clic d’un seul qui prendra le dessus. Surtout si son nom de marque accroche. Les enjeux financiers sont si gigantesques qu’ils obscurcissent certaines considérations sociales, éthiques ou morales.


1 On peut se demander en effet pourquoi la BnF n’a pas choisi d’utiliser ce moteur sur ses pages. On vient aussi d’apprendre qu’AOL France a lâché Exalead pour Google.
2 Ce n’est pas un hasard : François Bourdoncle, PDG d’Exalead, avait travaillé en 1993-4 sur le moteur de recherche Altavista, où il avait précisément créé cette fonction d’affinage des recherche.
3 Certaines le sont pour des secteurs stratégiques – industriels, militaires, policiers…

17 décembre 2005

Les nouveaux maîtres du monde

Classé dans : Politique, Publicité, Sciences, techniques, Société — Miklos @ 22:09

C’est Google qui semble avoir raflé le gros lot sous le nez de Microsoft – 5% des actions d’AOL pour la coquette somme d’un milliard de dollars. Mais le prix que les fans de Google payeront, eux, sans le savoir, sera bien plus élevé : un meilleur placement des contenus d’AOL dans les réponses que ce moteur fournit aux affamés du Web, qui se rajoute à la place prééminente qu’il accorde à la publicité (pour le moment, encore distincte, elle, des réponses).

Et pourtant, comme l’avaient analysé deux spécialistes déjà en 1998 :

« Le modèle actuel des moteurs de recherche à vocation commerciale est basé sur la publicité. Le business model de celle-ci ne correspond pas toujours aux critères de choix de contenus de qualité pour l’utilisateur (…). Pour ces raisons et comme le montre l’histoire des médias, il nous semble que les moteurs de recherche financés par de la publicité seront biaisés, de façon inhérente. Il est donc crucial d’assurer l’existence d’un moteur de recherche transparent et situé dans le secteur universitaire. » (Reporté par Nick Carr dans son excellent blog.)

Il s’agit de Sergey Brin et de Larry Page, les co-fondateurs de Google. Comme quoi, leurs principes n’ont pas résisté longtemps à l’appât du lucre. Disons-le clairement et une fois pour toutes : Google est biaisé. J’avais d’ailleurs écrit en février 2005, à la suite de leur annonce de création de ce qui serait la bibliothèque numérique mondiale :

« L’omniprésence de Google impose sa vision. La somme des connaissances est telle qu’elle nécessite des partis pris, explicités ou non : c’est vrai dans le virtuel comme dans le réel, pour les moteurs de recherche comme pour les journaux ou les bibliothèques. Mais les partis pris des moteurs de recherche, dans la sélection et dans la présentation de leurs sources, incluent, à grande échelle, des considérations commerciales (notamment pour ceux qui sont cotés en bourse) et technologiques (sélection des sources, critères de recherche, algorithmes, mesures de pertinence…), qui priment sur le devoir d’information du public ou celui de préservation, de diffusion et de valorisation du patrimoine humain (culturel, scientifique). Un des critères les plus pernicieux de sélection des sources en est leur popularité ; ce hit parade n’est pas un critère de qualité mais il devient le principal critère de pertinence dans le monde massifié de la mondialisation numérique, où le maître-mot de son darwinisme est la statistique et le chiffre d’affaire. »

Leur stratégie de mainmise sur « toute l’information au monde » a été explicitée – il s’agit bien de contrôle : la façon dont on y accède, d’une part, mais aussi l’utilisation de leur contenu personnel et privé (l’analyse des courriels, par exemple). Ce qui n’est pas sans soulever périodiquement des tollés de la part d’organismes, voire de pays– que ce soit sur la violation du respect de la propriété intellectuelle (les photos dans Google News, les livres sous copyright dans Google Print), ou de la sécurité nationale (les photos dans Google Earth). Et pourtant, le particulier (le consommateur de Google) ne semble pas s’en émouvoir, lui, tandis qu’il est concerné au premier chef par ce monopole croissant et inquisiteur, qui, soit dit en passant, le dérange bien moins que ceux, passés ou présents, d’IBM, de Microsoft ou de Coca Cola.1

Est-ce parce que l’information, de nature immatérielle, fait moins peur ? Est-ce que la mémoire est si courte, pour oublier ce à quoi ont servi des « fichiers » infâmes en des temps loin d’être encore révolus ? En tout cas, c’est l’une des raisons pour lesquelles la mise en œuvre de sources d’information et de savoir alternatives2 et indépendantes pour leur fonctionnement des lois du marché est essentielle. Un tel contre-pouvoir a besoin, pour faire levier, d’un soutien conséquent et durable, de ceux que peut fournir la puissance publique dans le cadre de ses missions citoyennes. Si cette mise en œuvre requiert des moyens importants, ceux-ci ne pourront que bénéficier à la recherche et au développement, et donc aux industries, qui s’y seront impliquées. Cette démarche ne profitera pas uniquement au citoyen en lui accordant la liberté de choisir ses sources et de s’informer honnêtement, mais aussi à la construction collective de la culture et du savoir, ainsi qu’à l’économie des pays qui s’y seront attelés.


1 Bien au contraire, il voudrait encore étendre son emprise, lorsqu’il conseille de leur remettre les fonds que les bibliothèques nationales européennes souhaitent numériser. Qui ne seront accessibles – recherche comme contenus – que via le moteur de Google, et qui ne pourront être indexés par nul autre moteur de recherche.

2 Il ne s’agit pas « lutter contre » Google, mais de proposer des alternatives valables et viables.

The Blog of Miklos • Le blog de Miklos