Qu’est-ce que c’est ?
Ce service découle directement de Google Books, le projet de numérisation de « tous les livres du monde ». À ce jour, et depuis 2004, Google aurait déjà numérisé plus de 15 millions de livres (source) ce qui représenterait 11% des livres publiés depuis 1473 (source).
Sur cette base, un corpus d’environ 500 milliards de mots issus de 5,2 millions de livres a été constitué et divisé en sous-corpus par langues : en anglais (361 milliards de mots), français (45 milliards), espagnol (45 milliards), allemand (37 milliards), russe (35 milliards), chinois (13 milliards) et hébreu (2 milliards). L’ensemble représenterait 4% de « tous les livres jamais publiés ».
Un simple gadget ?
A priori non… l’ouverture de ce service sur la plateforme Google Labs accompagne la parution d’un article dans Science magazine par une équipe de chercheurs dirigée par Jean-Baptiste Michel et Erez Lieberman Aiden, tous deux actuellement en poste à Harvard (plus d’infos):
Jean-Baptiste Michel et al., “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science magazine, published online on “Sciencexpress”, 16 December 2010, 12 p. [Science DOI: 10.1126/science.1199644] (voir ici)
Dans l’article de Science, l’intérêt d’une analyse de longue durée est montré à travers une focalisation sur le sous-corpus en anglais (361 milliards de 1-grams anglais et américains, soit plus de 70% du corpus complet) pour 1800-2000 (le nombre de livres référencés pour la période précédente étant trop limité).
Les auteurs y présentent ainsi quelques exemples concernant :
- l’évolution du vocabulaire (i.e. du nombre de mots dans le lexique anglais) ;
- les transformations de la grammaire ;
- les références aux passé (occurrences de dates) et aux innovations (occurrences de références à des inventions) ;
- la popularité ou la célébrité de certains individus (sur la base des 740.000 entrées de Wikipédia concernant des personnes) ;
- la censure, notamment par une analyse des occurrences (et de la disparition) de certains noms dans le sous-corpus en allemand dans les années 1933-1945.
- au minimum, via la page « Google Books Ngram Viewer » (voir ici)
- de façon un peu plus approfondie via l’article de Science et son annexe (déjà citée, voir ici)
- surtout, les données sont mises à disposition au format .csv (voir ici) sous licence CC.
Pour quoi faire (en histoire) ?
En tâtonnant un peu on entrevoit rapidement de nombreuses possibilités offertes aux historiens. Par exemple, il est possible d’évaluer la prégnance de certains débats en interrogeant le corpus à travers des termes significatifs. Dans l’exemple qui suit, « dirigisme » et « étatisme » :
On peut aussi voir des applications possibles en historiographie. Dans l’exemple suivant, sont comparées les fréquences d’usage des termes « histoire politique », « histoire sociale », « histoire économique » et « histoire culturelle » :
On pourrait multiplier les exemples intéressants a priori (comme ici, là ou là : la simplicité d’utilisation rend Ngram Viewer un peu addictif…). Toutefois, une fois ces graphiques générés, une question demeure : que faire de tels résultats ?
Passés les premiers enthousiasmes, quelques réflexions critiques commencent déjà à être développées, qu’il s’agisse, par exemple, de l’emploi de termes « culturomics » et « n-grams » (voir ici) ou des limites propres à la technique d’identification des mots via OCR (voir ici, le premier article d’une série de trois consacrés à Ngram Viewer) [merci à Franziska pour ces indications]. En français, on lira avec grand profit l’analyse proposée par Francis Chateauraynaud et Josquin Debaz, « Prodiges et vertiges de la lexicométrie » sur le carnet Socio-informatique et argumentation.
Il serait très difficile ici (compte tenu des limites à mes propres connaissances en statistiques et lexicométrie… mais aussi de notre manque de recul par rapport à un service lancé il y a seulement quelques jours) de proposer une analyse complète des apports et limites d’un tel outil pour la pratique historique.
- 4 % de « tous les livres jamais publiés » ?
« Parce que chaque génération choisit ce qui lui convient dans le corpus des « classiques », l’histoire littéraire côtoie inévitablement l’anachronisme. Nul historien ne lit l’ensemble de la production livresque de la société qu’il étudie ; déjà tributaire de sélections subreptices ou d’effacement oubliés, il ne connaît souvent que les livres triés par la tradition. Il risque donc de donner une image déformée des habitudes de lecture du temps passé. »Robert Darnton, « De la sociologie de la littérature à l’histoire de l’édition », repris dans Bohème littéraire et Révolution, Paris, Gallimard, « tel », 2010, pp. 8-45. [1971 pour l’édition originale]
- Ce n’est pas la taille qui compte…
« Tout logiciel de traitement de texte permet de repérer, voire de compter les occurrences d’un mot dans un texte. L’apport supplémentaire de la lexicométrie réside dans l’étude d’un corpus à plusieurs échelles, de l’entourage de chaque mot à la distribution globale des noms ou des verbes. (…)
La notion de construction de corpus est dès lors centrale : tous les résultats obtenus sont relatifs à sa définition, donc dépendent d’un choix éclairé du chercheur. Une recherche philologique s’impose avant le traitement du corpus, afin de choisir entre plusieurs versions d’un même texte ou d’identifier précisément le(s) auteur(s) »Claire Lemercier et Claire Zalc, Méthodes quantitatives pour l’historien, Paris, La Découverte, « Repères », 2008, p. 51.
- Un « nouvel outil pour l’histoire intellectuelle » ?
Avant de revenir sur quelques limites et erreurs possibles de Ngram Viewer (voir ici), Daniel Littel (sur son excellent blog d’épistémologie des sciences sociales Understanding Society) a annoncé son lancement par le titre « un nouvel outil pour l’histoire intellectuelle » (voir ici).
Les exemples pris par Daniel Littel font sans aucun doute apparaître d’intéressantes perspectives pour une histoire de l’usage de certains termes ou de la citation de quelques auteurs. Celles-ci sont toutefois très limitées : le corpus est construit de telle façon qu’absolument aucun accès au contexte n’est et ne sera jamais possible. Qui a écrit le terme recherché ? dans quel sens le mot est-il employé ? dans quel type d’ouvrage ? autant de questions fondamentales qui restent en suspend.Si l’on revient à l’exemple fourni plus haut sur les occurrences des termes « histoire politique », « histoire culturelle » (etc.) : rien ne nous permet de vérifier dans le corpus interrogé si l’augmentation de la fréquence d’utilisation d' »histoire culturelle » en fin de période est dû à un franc succès de cette approche sous-disciplinaire, ou à une contestation de sa pertinence.
Partant de ce constat, et en considérant avec Jean-Claude Perrot qu’au regard d’une l’histoire intellectuelle prenant les « processus d’abstraction » pour objet, « les textes ne sont que des bilans d’arrivée, dressés à partir des réalités perçues » (source, p. 59), alors l’apport d’un tel outil, si puissant soit-il, restera très limité.
Bien entendu, rien n’empêche de mener d’autres analyses qualitatives et/ou quantitatives sur la base d’un autre corpus, dont on aura mieux maitrisé la constitution. Mais, à ce stade de développement de l’outil, cela n’en fait qu’un « simple » générateur d’hypothèses très générales… et malheureusement pas toujours vérifiables.
4 Comments