Google labs Books Ngram Viewer : un nouvel outil pour les historiens ?

La gamme des services de Google s’est récemment enrichie d’un outil qui mérite une attention particulière de la part des historien(ne)s : Google Books Ngram Viewer.

Qu’est-ce que c’est ?

Ce service découle directement de Google Books, le projet de numérisation de « tous les livres du monde ». À ce jour, et depuis 2004, Google aurait déjà numérisé plus de 15 millions de livres (source) ce qui représenterait 11% des livres publiés depuis 1473 (source).

Sur cette base, un corpus d’environ 500 milliards de mots issus de 5,2 millions de livres a été constitué et divisé en sous-corpus par langues : en anglais (361 milliards de mots), français (45 milliards), espagnol (45 milliards), allemand (37 milliards), russe (35 milliards), chinois (13 milliards) et hébreu (2 milliards). L’ensemble représenterait 4% de « tous les livres jamais publiés ».

Google Books Ngram Viewer permet d’interroger ces sous-corpus (excepté l’hébreu) et d’afficher des représentations graphiques la fréquence de l’utilisation d’un mot (ou d’une suite de deux à cinq mots) pour chaque année.

Un simple gadget ?

A priori non… l’ouverture de ce service sur la plateforme Google Labs accompagne la parution d’un article dans Science magazine par une équipe de chercheurs dirigée par Jean-Baptiste Michel et Erez Lieberman Aiden, tous deux actuellement en poste à Harvard (plus d’infos):

Jean-Baptiste Michel et al., “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science magazine, published online on “Sciencexpress”, 16 December 2010, 12 p. [Science DOI: 10.1126/science.1199644] (voir ici)

Les auteurs y présentent ainsi les résultats de 4 années de travaux qui ont permis de créer ce corpus de mots* et de le rendre exploitable.

*ou plutôt de 1-grams, i.e. une suite de caractères ininterrompue par des espaces, qui peuvent donc être des nombres… comme ici par exemple. Un n-grams est une suite de n 1-gram.

Pour consulter l’article, il suffit de s’inscrire gratuitement sur le site de Science (cliquez ici). Certaines de leurs conclusions ont été rapportées sur divers sites et blogs (voir ici, ou là en français, et là en anglais pour un compte rendu un peu plus complet) et une annexe méthodologique à l’article est librement accessible sur le site de Science (voir ici).

L’objectif de cette équipe de chercheurs est de proposer une nouvelle approche quantitative de l’étude de la culture humaine en très longue période, basée sur des très grands corpus de données et baptisée « culturomics ».

Si, pour le moment, les auteurs se sont limités à un corpus basé sur des livres, ils envisagent d’y ajouter des journaux, manuscrits, cartes, œuvre d’art et « des myriades d’autres créations humaines » (source, p. 5)

Dans l’article de Science, l’intérêt d’une analyse de longue durée est montré à travers une focalisation sur le sous-corpus en anglais (361 milliards de 1-grams anglais et américains, soit plus de 70% du corpus complet) pour 1800-2000 (le nombre de livres référencés pour la période précédente étant trop limité).

Les auteurs y présentent ainsi quelques exemples concernant :

l’évolution du vocabulaire (i.e. du nombre de mots dans le lexique anglais) ;
les transformations de la grammaire ;
les références aux passé (occurrences de dates) et aux innovations (occurrences de références à des inventions) ;
la popularité ou la célébrité de certains individus (sur la base des 740.000 entrées de Wikipédia concernant des personnes) ;
la censure, notamment par une analyse des occurrences (et de la disparition) de certains noms dans le sous-corpus en allemand dans les années 1933-1945.

Le service Ngram Viewer permet donc, via une interface très simple, d’interroger le corpus afin d’évaluer les occurrences des mots de votre choix sur une très longue durée.

S’il semble dépasser la simple fonction de gadget, c’est que l’on dispose d’un minimum d’informations concernant la façon dont les données ont été construites :

au minimum, via la page « Google Books Ngram Viewer » (voir ici)

de façon un peu plus approfondie via l’article de Science et son annexe (déjà citée, voir ici)

surtout, les données sont mises à disposition au format .csv (voir ici) sous licence CC.

De plus, une fois un résultat affiché, il est possible de rechercher les termes choisis pour créer le graphique dans Google Books par un simple clic.

Pour quoi faire (en histoire) ?

En tâtonnant un peu on entrevoit rapidement de nombreuses possibilités offertes aux historiens. Par exemple, il est possible d’évaluer la prégnance de certains débats en interrogeant le corpus à travers des termes significatifs. Dans l’exemple qui suit, « dirigisme » et « étatisme » :

On peut aussi voir des applications possibles en historiographie. Dans l’exemple suivant, sont comparées les fréquences d’usage des termes « histoire politique », « histoire sociale », « histoire économique » et « histoire culturelle » :

On pourrait multiplier les exemples intéressants a priori (comme ici, là ou là : la simplicité d’utilisation rend Ngram Viewer un peu addictif…). Toutefois, une fois ces graphiques générés, une question demeure : que faire de tels résultats ?

Passés les premiers enthousiasmes, quelques réflexions critiques commencent déjà à être développées, qu’il s’agisse, par exemple, de l’emploi de termes « culturomics » et « n-grams » (voir ici) ou des limites propres à la technique d’identification des mots via OCR (voir ici, le premier article d’une série de trois consacrés à Ngram Viewer) [merci à Franziska pour ces indications]. En français, on lira avec grand profit l’analyse proposée par Francis Chateauraynaud et Josquin Debaz, « Prodiges et vertiges de la lexicométrie » sur le carnet Socio-informatique et argumentation.

Il serait très difficile ici (compte tenu des limites à mes propres connaissances en statistiques et lexicométrie… mais aussi de notre manque de recul par rapport à un service lancé il y a seulement quelques jours) de proposer une analyse complète des apports et limites d’un tel outil pour la pratique historique.

Toutefois, il me semble important d’insister sur quelques limites posées à une utilisation historienne de Ngram Viewer.

4 % de « tous les livres jamais publiés » ?

Ngram Viewer permet sans conteste de changer d’échelle en mettant à notre disposition un corpus dont la taille est totalement inédite.

Toutefois, il ne me semble pas résoudre une difficulté relevée depuis longtemps par les historiens de l’édition et des pratiques de lecture : tous les livres qui se trouvent dans toutes les bibliothèques du monde ne sont pas « tous les livres publiés » mais tous ceux qui nous sont parvenus, par divers hasard et choix subjectifs de collectionneurs, conservateurs, etc. Comme l’expliquait Robert Darnton dès 1971 :

« Parce que chaque génération choisit ce qui lui convient dans le corpus des « classiques », l’histoire littéraire côtoie inévitablement l’anachronisme. Nul historien ne lit l’ensemble de la production livresque de la société qu’il étudie ; déjà tributaire de sélections subreptices ou d’effacement oubliés, il ne connaît souvent que les livres triés par la tradition. Il risque donc de donner une image déformée des habitudes de lecture du temps passé. »

Robert Darnton, « De la sociologie de la littérature à l’histoire de l’édition », repris dans Bohème littéraire et Révolution, Paris, Gallimard, « tel », 2010, pp. 8-45. [1971 pour l’édition originale]

Est-on véritablement capable de connaître le nombre de tous les ouvrage publiés depuis Gutenberg ? Les estimations proposées et utilisées par les concepteurs de Ngram Viewer semblent montrer que non…

Dans l’annexe à leur article de Science, J.-B. Michel et al. conviennent eux-même (p. 13) que leur estimation du nombre total d’ouvrage publiés (voir ici) doit être considérée avec une « grande prudence ». Ils renvoient aussi à une étude menée à Berkeley (voir ici), qui conduirait a une « estimation très grossière » (toujours p. 13) de 74 à 175 millions.

Fonction de celle que l’on choisira parmi toutes ces estimations peu fiables, le corpus proposé correspondrait à 2,9% (estim. basse), 4% (estim. google) ou 7% (estim. haute) de « tous les livres publiés »…

Surtout, si Ngram Viewer permet d’interroger des sous-corpus en français, allemand, espagnol etc. : aucune estimation – même peu fiable – ne semble (à ma connaissance) possible concernant la proportion que représentent ces sous-corpus dans les publications dans ces langues…

Ce n’est pas la taille qui compte…

Ces limites conduisent aussi à nuancer le caractère révolutionnaire annoncé de cet outil pour la lexicométrie. Sans entrer dans dans une analyse de fond, je me contenterai ici de citer Claire Lemercier et Claire Zalc en ce qui concerne l’intérêt de la lexicométrie en histoire :

« Tout logiciel de traitement de texte permet de repérer, voire de compter les occurrences d’un mot dans un texte. L’apport supplémentaire de la lexicométrie réside dans l’étude d’un corpus à plusieurs échelles, de l’entourage de chaque mot à la distribution globale des noms ou des verbes. (…)
La notion de construction de corpus est dès lors centrale : tous les résultats obtenus sont relatifs à sa définition, donc dépendent d’un choix éclairé du chercheur. Une recherche philologique s’impose avant le traitement du corpus, afin de choisir entre plusieurs versions d’un même texte ou d’identifier précisément le(s) auteur(s) »

Claire Lemercier et Claire Zalc, Méthodes quantitatives pour l’historien, Paris, La Découverte, « Repères », 2008, p. 51.

Certes, Ngram Viewer permet de compter des occurrences à une beaucoup plus grande échelle qu’avec un simple traitement de texte… mais il ne permet pas d’effectuer la moindre de ces opérations de contrôle préalable. Perdre la maîtrise du corpus pour en augmenter la taille me semble être un prix un peu trop lourd à payer…

Un « nouvel outil pour l’histoire intellectuelle » ?

Avant de revenir sur quelques limites et erreurs possibles de Ngram Viewer (voir ici), Daniel Littel (sur son excellent blog d’épistémologie des sciences sociales Understanding Society) a annoncé son lancement par le titre « un nouvel outil pour l’histoire intellectuelle » (voir ici).

Les exemples pris par Daniel Littel font sans aucun doute apparaître d’intéressantes perspectives pour une histoire de l’usage de certains termes ou de la citation de quelques auteurs. Celles-ci sont toutefois très limitées : le corpus est construit de telle façon qu’absolument aucun accès au contexte n’est et ne sera jamais possible. Qui a écrit le terme recherché ? dans quel sens le mot est-il employé ? dans quel type d’ouvrage ? autant de questions fondamentales qui restent en suspend.Si l’on revient à l’exemple fourni plus haut sur les occurrences des termes « histoire politique », « histoire culturelle » (etc.) : rien ne nous permet de vérifier dans le corpus interrogé si l’augmentation de la fréquence d’utilisation d' »histoire culturelle » en fin de période est dû à un franc succès de cette approche sous-disciplinaire, ou à une contestation de sa pertinence.

Partant de ce constat, et en considérant avec Jean-Claude Perrot qu’au regard d’une l’histoire intellectuelle prenant les « processus d’abstraction » pour objet, « les textes ne sont que des bilans d’arrivée, dressés à partir des réalités perçues » (source, p. 59), alors l’apport d’un tel outil, si puissant soit-il, restera très limité.

Bien entendu, rien n’empêche de mener d’autres analyses qualitatives et/ou quantitatives sur la base d’un autre corpus, dont on aura mieux maitrisé la constitution. Mais, à ce stade de développement de l’outil, cela n’en fait qu’un « simple » générateur d’hypothèses très générales… et malheureusement pas toujours vérifiables.

Google labs Books Ngram Viewer : un nouvel outil pour les historiens ?

Qu’est-ce que c’est ?

Un simple gadget ?

Pour quoi faire (en histoire) ?

You might also like

4 Comments

Leave a Comment Annuler la réponse

Qu’est-ce que c’est ?

Un simple gadget ?

Pour quoi faire (en histoire) ?

Partager :

You might also like

4 Comments

Leave a Comment Annuler la réponse