La boîte à outils des historien·ne·s

« Culturomics » : présentation du projet par Jean-Baptiste Michel (IEP de Paris, 9 mars 2011)

Posted on 6 mars 2011 by Émilien Ruiz / 0 Comment

Jean-Baptiste Michel, X2002 et chercheur post-doctorant à l’université de Havard, présentera les « Culturomics » à Sciences po. Paris le 9 mars 2011 (voir ici – sur inscription, nombre de places limités).

Il a déjà été brièvement question ici des « Culturomics » (voir ici) : il s’agit d’une nouvelle approche quantitative de l’étude de la culture humaine en très longue période, basée sur des très grands corpus de données.

Les chercheurs à l’origine de ce projet on récemment publié un article à ce sujet dans Science :

Jean-Baptiste Michel et al., “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science magazine, published online on “Sciencexpress”, 16 December 2010, 12 p.[Science DOI: 10.1126/science.1199644] (voir ici)

Cette publication accompagnait le lancement d’un nouvel outil du GoogleLab : le ngram viewer, qui permet d’exploiter le corpus d’environ 500 milliards de mots construit par cette équipe de recherche sur la base de 5,2 millions de livres numérisés par Google.

Annonce reprise du Médialiab de Sciences po Paris, dont il sera probablement bientôt question ici.

Annonces diverses/Ressources numériques

Les bases de données du CRH – Statistique générale de la France

Posted on 2 mars 2011 by Émilien Ruiz / 0 Comment

L’Atelier du Centre de recherches historiques est la revue électronique du CRH, unité mixte de recherche CNRS-EHESS. Son numéro 8, mis en ligne en février 2011 est consacré aux bases de données construites par CRH à partir de données de la SGF.

Dans la présentation du numéro, Gérard Béaur et Béatrice Marin rappellent qu’il s’agit du fruit d’une recherche collective lancée dans les années 1980 par Emmanuel Leroy Ladurie et François Furet :

« avec une équipe d’historiens de l’Université Ann Arbor du Michigan, ils lancèrent une vaste opération de mise en valeur d’une masse d’informations démographiques, sociales et économiques couvrant un long xixe siècle. Ces informations contenues dans les séries de la SGF alimentèrent une énorme base de données électronique dont l’importance historique était considérable. En effet, des centaines de tableaux ont été rassemblés qui concernaient l’état de la population française de 1851 à 1921, le mouvement de cette même population de 1800 à 1925, l’enseignement primaire mais aussi secondaire et même supérieur de 1829 à 1897, le territoire national et la population française de 1800 à 1890. » (source)

Tous les fichiers mis à disposition dans ce numéro font l’objet d’une présentation qui permet d’en comprendre le mode de fabrication. Ils sont mis en ligne sous licence CC de façon à en permettre l’exploitation à des fins scientifiques et pédagogiques.

Zotero

Zotero sur petit écran : adapter la présentation pour mieux travailler

Posted on 14 février 2011 by Franziska Heimburger / 0 Comment

Les lecteurs réguliers de ce blog le savent, le logiciel de gestion de bibliographie Zotero nous tient particulièrement à coeur. Voici le premier billet d’une série pour présenter quelques petites astuces glanées au fil de la lecture des forums très actifs de Zotero:

Pour les utilisateurs de netbooks et autres petits écrans, le travail avec Zotero peut être pénible parce que le nombre d’informations présentées simultanément est réduit. Sachez qu’il est premièrement possible de changer la taille de police des notes attachées a chaque entrée bibliographique :

Clic sur l »engrenage dans la barre en haut de votre module Zotero dans Firefox
Choix de Préférences
Dans l’onglet « général » vous pouvez indiquer la taille de police qui vous convient pour les notes

Mais, et cela est moins connu, il est par ailleurs possible de modifier la taille de police pour l’ensemble de zotero, donc aussi les colonnes de gauche et du milieu. Pour cela, vous devez :

Ouvrir un nouvel onglet dans firefox
taper about:config dans la barre d’adresse et appuyer sur entrée
confirmer que vous ferez tres attention a ne rien modifier par mégarde
coller cette expression dans le champ de filtrage en haute de la page : extensions.zotero.fontSize
vous voyez que la valeur par défaut, 1.0 est indiquée pour la taille de police. En double-cliquant sur le chiffre, vous obtenez un champ ou vous pouvez entrer, par exemple 0.7 (attention : il faut mettre un point et non une virgule) pour obtenir une police plus petite.
si vous fermez l’onglet de configuration et ouvrez Zotero, vous verrez que la taille de police a été modifiée.

Enfin, un dernier conseil : vous pouvez définir vous-même quelles informations sont affichées pour chaque entrée bibliographique dans la colonne du milieu de Zotero :

Un clic sur l’icône en haut a droite ouvre un menu qui vous permet de cocher les colonnes que vous voulez afficher et décocher celles qui ne vous servent pas et qui vous prennent de la place.
Si vous connaissez d’autres astuces utiles sur petits écrans, n’hésitez pas à les signaler en commentaire.

Annonces diverses

LibreOffice vs OpenOffice : que choisir ?

Posted on 10 février 2011 by Émilien Ruiz / 7 Comments

Lors de la mise en ligne du tutoriel d’initiation à MS WORD2010, nous faisions rapidement le point sur la question du choix entre la suite Microsoft et la suite OpenOffice.org (voir ici). Si notre position était alors très simple (il faut savoir utiliser les deux!) les choses se compliquent légèrement ces temps-ci.

Sun Microsystems, qui a ouvert le code de StarOffice, permettant ainsi le développement d’OpenOffice, a été racheté par son concurrent Oracle Corporation il y a environ un an (voir ici). Ce dernier est beaucoup moins « librophile », voir beaucoup plus « propriétairophile » que Sun… Je vous passe les détails (voir ici), mais la politique d’Oracle a conduit au « forkage » de plusieurs projets (voir ici).

Ainsi est né LibreOffice, développé par The Document Foundation (infos en français – site en anglais) et basé sur le code source d’OpenOffice. La version 3.3 est disponible depuis janvier 2011.

Les suites se multipliant, le choix risque de devenir de plus en plus compliqué pour les étudiants qui se lancent dans un Master et se demandent quelle suite choisir. Voici quelques (très brefs) éléments de réponse :

En termes d’interface. Les deux suites étant basées sur le même code, les différences entre LibreOffice et OpenOffice sont, pour l’instant, beaucoup moins importantes qu’entre n’importe laquelle des deux et celle de Microsoft. Pas d’inquiétude donc, le changement de plateforme ne devrait pas nécessiter de phase de « réapprentissage ».

En termes de performances. Si Oracle ne change pas de politique, il y a de fortes chances pour que LibreOffice devienne plus performant qu’OpenOffice. D’ailleurs, LibreOffice 3.3 permet d’ores et déjà d’éditer et d’enregistrer des documents au format Microsoft Office 2007-2010 alors qu’OpenOffice permet uniquement de les ouvrir (voir ici).

Il n’y a donc pas encore de véritable raison à se ruer sur LibreOffice, mais il y a un véritable intérêt à y penser dès maintenant. Notamment parce que l’amélioration et la performance de ce type de logiciels repose en partie sur les utilisateurs – voir ici par exemple, mais aussi là et donc ici aussi 🙂… Un passage de nombreux utilisateurs d’OpenOffice à LibreOffice serait très certainement un facteur de pérennisation et d’amélioration du projet.

À suivre donc…

PS pour nos lecteurs qui seraient passés à LibreOffice : n’hésitez surtout pas à nous faire part de vos remarques concernant cette suite ! Cela nous aiderait probablement à choisir entre les deux pour nos prochaines formations…

Ressources numériques

l’Art Project de Google

Posted on 2 février 2011 by Émilien Ruiz / 0 Comment

Les utilisateurs de google l’ont probablement remarqué comme moi, hier un petit bandeau s’est glissé sur la page d’accueil du moteur de recherche…

___________________________________________________

C’est encore une fois sur le blog des URFIST que j’ai trouvé les premières informations à ce sujet : hier, Google a lancé l’art project. À partir de la technologie street view, il est désormais possible de visiter virtuellement 17 musées du monde (d’autres collaborations sont probablement attendues) :

Alte Nationalgalerie, Berlin – Allemagne
Freer Gallery of Art, Smithsonian, Washington – États-Unis
La Frick Collection, New York – USA
Gemäldegalerie, Berlin – Allemagne
Le Metropolitan Museum of Art, New York – États-Unis
MoMA, le Musée d’Art Moderne, New York – États-Unis
Sofia Museo Reina, Madrid – Espagne
Museo Thyssen – Bornemisza, Madrid – Espagne
Musée Kampa, Prague – République tchèque
National Gallery, Londres – Royaume-Uni
Château de Versailles – France
Rijksmuseum, Amsterdam – Pays-Bas
Le Musée de l’Ermitage, Saint-Pétersbourg – Russie
Galerie nationale Tretiakov, Moscou – Russie
Tate Britain, Londres – Royaume-Uni
Galerie des Offices, Florence – Italie
Musée Van Gogh, Amsterdam – Pays-Bas

L’intérêt de ce projet n’est pas uniquement de permettre ces visites virtuelles, mais d’offrir l’accès à des numérisations en haute (et très haute) définitions Comme l’explique Jean-Pierre Lardy sur Urfist-Info :

« 1 061 tableaux ont été numérisés accompagnés de notes explicatives. Chaque musée a choisi un tableau particulier numérisé avec une résolution de plus de 14 milliards de pixels. Cette fois c’est la technologie Artwork View qui est utilisée. Le tableau choisi par Versailles est le portrait de Marie-Antoinette avec ses enfants. Des liens vers You Tube permettent de compléter l’information. » (source)

Il s’agit par ailleurs d’un outils qui pourrait s’avérer très utile pour un travail collaboratif sur une ou plusieurs œuvres. Amit Sood (responsable de l’Art Project) précise ainsi, sur le blog de Google France, que :

« L’outil « Créer une collection d’œuvres d’art » vous permet d’enregistrer des vues spécifiques de toute œuvre présentée pour créer votre collection personnelle. Vous pouvez y ajouter des commentaires et partager votre collection avec des proches. Cet outil permet par exemple à des étudiants ou des groupes de travailler ensemble sur des projets ou collections. » (source)

Pour plus d’informations, voir le site de l’Art Project ; Vous trouverez aussi 20 vidéos sur Youtube, dont cette présentation (en anglais) du projet pour les visiteurs :

Annonces diverses/Formations

Conférences-démos de MutEC – à partir de janvier 2011

Posted on 15 janvier 2011 by Émilien Ruiz / 0 Comment

« MutEC est un dispositif de partage, d’accumulation et de diffusion des technologies et des méthodologies qui émergent dans le champ des humanités numériques. Né en Rhône-Alpes, co-piloté par l’Atelier des Humanités Numériques de l’ENS de Lyon et par le Service d’Ingénierie Documentaire de l’Institut des Sciences de l’Homme, MutEC met en place des actions de partage d’expériences et de savoir-faire en collaboration avec les laboratoires locaux engagés dans des projets d’édition critiques et de corpus numériques. » (source)

À partir de janvier 2011, MutEC lance une série de « conférences – démos » destinées à susciter « débats et réflexions sur l’impact du numérique dans la recherche en science humaines et sociales » autour d’une conférence, suivie d’une démonstration de l’outil par des utilisateurs puis d’une discussion autour d’un verre.

La première aura lieu le 26 janvier 2011 de 17h à 19h, à l’Institut des Sciences de l’Homme de Lyon – et pour ceux qui seraient intéressés mais ne pourraient pas s’y rendre, elle sera filmée et mise en ligne sur www.mutec-shs.fr avec de la documentation complémentaire :

« Web, document et documentarisation »

Par Jean-Michel Salaün (Université de Montréal et Collégium de Lyon) suivi d’une démonstration du logiciel Dinah par David Wittman (ENS de Lyon). Conférence ouverte à tous – Inscription souhaitée : claire[point]giguet[at]ish-lyon.cnrs.fr – Adresse : Institut des Sciences de l’Homme – 14 avenue Berthelot 69007 Lyon

Plus d’infos sur les conférences-démos (lien) ; annonce de la séance du 26 janvier (PDF)

Formations/Ressources numériques

Form@doct : un tutoriel en libre accès pour les doctorants (et les autres…)

Posted on 13 janvier 2011 by Émilien Ruiz / 1 Comment

Form@doct, pour FORMation À distance en information DOCumentation pour les docTorants, offre un libre accès à de multiples guides d’auto-formation à l’information scientifique.

Il ne s’agit pas de formations spécifiques aux historiens, choix délibéré des concepteurs, pour qui il est nécessaire de « trouver le point d’équilibre entre une orientation disciplinaire et la nécessité d’une culture informationnelle transversale » (source).

Réalisé par les bibliothèques des universités de Bretagne, de l’INSA de Rennes, de l’ENIB et l’URFIST de Rennes, ce tutoriel a pour objectif de » développer chez les doctorants :

un usage expert de l’information (recherche, analyse, exploitation) ;

les connaissances et apprentissages nécessaires pour produire, mettre en forme et diffuser les résultats de la recherche ;

l’approfondissement de la culture de l’information, en améliorant la connaissance de l’information scientifique et de ses nouveaux circuits. » (source)

Les guides sont classés en 4 grands axes : Chercher ; Exploiter ; Produire, publier ; Connaître. Sont ainsi abordées des questions aussi diverses et cruciales que les modalités de recherche d’informations, les outils de gestion de bibliographie ou les normes de présentation d’une thèse.

Chaque question fait l’objet d’une présentation très complète : une introduction générale, des définitions, des conseils d’utilisation, des listes de ressources et des références pour aller plus loin.

Il est possible d’accéder aux guides via une navigation par thèmes (chaque axe est subdivisé en thèmes : « comment chercher ? » ; « que chercher ? » ; « où chercher ? » etc.), mais vous pouvez aussi poser directement poser une question dans un formulaire prévu à cet effet.

Un tel outils sera très utile aux doctorants mais je pense que tout étudiant ou chercheur gagnerait à explorer certains de ces guides. Il est, notamment, particulièrement important de se familiariser avec les outils de recherche documentaire et de gestion de bibliographies dès le Master.

http://guides-formadoct.ueb.eu/

Zotero

Quelques nouvelles concernant les styles de citation avec Zotero

Posted on 9 janvier 2011 by Franziska Heimburger / 0 Comment

Nous le voyons dans les statistiques de fréquentation de ce blog, le billet sur les styles de citations pour Zotero continue à faire venir des lecteurs, à la fois via des recherches et via le renvoi sur l’excellent blog d’Hypothèses Zotero francophone.

Les nombreux commentaires ont permis plusieurs choses:

1. Suite à différentes propositions, le style de départ a été amélioré. Il gère maintenant les publications avec plusieurs auteurs sans problèmes et dispose d’espaces insécables pour éviter qu’un guillemet ne soit séparé du titre qui le précède/suit. Il est toujours disponible au téléchargement (cliquer droit sur le lien suivant style ehess-temporaire , choisir ‘enregistrer sous’, puis déplacer avec la souris le fichier enregistré sur une fenêtre de firefox, ce qui ouvre une boîte de dialogue d’installation/mise à jour.

2. Plusieurs autres styles pour un usage français ont été signalés et montrent finalement la grande divergence des exigences de citation en SHS en France :

« l2lafitte » a fait un travail important sur les styles pour la France, ses créations sont disponibles ici : https://sites.google.com/site/llcommun/file-cabinet. Le produit final diffère légèrement de ce que nous demandons à nos étudiants (« lieu d’édition : maison d’édition » au lieu d’avoir des virgules partout; inclusion de l’ISBN que nous ne demandons pas), mais peuvent s’avérer fort utiles pour d’autres lecteurs de ce blog.
Dans la liste des styles disponibles sur le site de zotero : http://www.zotero.org/styles on peut également trouver des styles pour un usage français (« France (auteurs et al., auteur-date) » etc.. Ils se distinguent par le choix d’un système d’auteur-date ou numérotation à la différence des notes de bas de page que nous attendons.

3. Le lancement de la version béta de Zotero 2.1 a permis un travail sur un style entièrement nouveau (avec un code beaucoup plus propre) utilisant le nouveau moteur de citation beaucoup plus puissant, ce qui permet d’arriver à un style qui correspond mieux aux exigences, avec notamment les noms de famille des auteurs en petites capitales :

Beckett Ian Frederick William et Simpson Keith, A Nation in arms : a social study of the British army in the First World War, Manchester, Manchester University Press, 1985, 276p.

Prochasson Christophe, « An English crisis in French thought? French intellectuals confront England at the time of Fashoda and the Boer war », in Christophe Charle, Julien Vincent et Jay Winter, Anglo-French attitudes. Comparisons and transfers between English and French intellectuals since the eighteenth century, Manchester, Manchester University Press, p. 256-270.

Werner Michael et Zimmermann Bénédicte, « Beyond Comparison: Histoire Croisée and the Challenge of Reflexivity », History and Theory, 2006, vol. 45, nº 1, p. 30-50.

Ce style sera officiellement lancé sur ce blog dès que Zotero 2.1 sort en version stable, mais si des lecteurs utilisent déjà la version béta et voudraient se servir du style en question, n’hésitez pas à me contacter et je vous enverrai le fichier.

Ressources numériques

Google labs Books Ngram Viewer : un nouvel outil pour les historiens ?

Posted on 29 décembre 2010 by Émilien Ruiz / 4 Comments

La gamme des services de Google s’est récemment enrichie d’un outil qui mérite une attention particulière de la part des historien(ne)s : Google Books Ngram Viewer.

Qu’est-ce que c’est ?

Ce service découle directement de Google Books, le projet de numérisation de « tous les livres du monde ». À ce jour, et depuis 2004, Google aurait déjà numérisé plus de 15 millions de livres (source) ce qui représenterait 11% des livres publiés depuis 1473 (source).

Sur cette base, un corpus d’environ 500 milliards de mots issus de 5,2 millions de livres a été constitué et divisé en sous-corpus par langues : en anglais (361 milliards de mots), français (45 milliards), espagnol (45 milliards), allemand (37 milliards), russe (35 milliards), chinois (13 milliards) et hébreu (2 milliards). L’ensemble représenterait 4% de « tous les livres jamais publiés ».

Google Books Ngram Viewer permet d’interroger ces sous-corpus (excepté l’hébreu) et d’afficher des représentations graphiques la fréquence de l’utilisation d’un mot (ou d’une suite de deux à cinq mots) pour chaque année.

Un simple gadget ?

A priori non… l’ouverture de ce service sur la plateforme Google Labs accompagne la parution d’un article dans Science magazine par une équipe de chercheurs dirigée par Jean-Baptiste Michel et Erez Lieberman Aiden, tous deux actuellement en poste à Harvard (plus d’infos):

Jean-Baptiste Michel et al., “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science magazine, published online on “Sciencexpress”, 16 December 2010, 12 p. [Science DOI: 10.1126/science.1199644] (voir ici)

Les auteurs y présentent ainsi les résultats de 4 années de travaux qui ont permis de créer ce corpus de mots* et de le rendre exploitable.

*ou plutôt de 1-grams, i.e. une suite de caractères ininterrompue par des espaces, qui peuvent donc être des nombres… comme ici par exemple. Un n-grams est une suite de n 1-gram.

Pour consulter l’article, il suffit de s’inscrire gratuitement sur le site de Science (cliquez ici). Certaines de leurs conclusions ont été rapportées sur divers sites et blogs (voir ici, ou là en français, et là en anglais pour un compte rendu un peu plus complet) et une annexe méthodologique à l’article est librement accessible sur le site de Science (voir ici).

L’objectif de cette équipe de chercheurs est de proposer une nouvelle approche quantitative de l’étude de la culture humaine en très longue période, basée sur des très grands corpus de données et baptisée « culturomics ».

Si, pour le moment, les auteurs se sont limités à un corpus basé sur des livres, ils envisagent d’y ajouter des journaux, manuscrits, cartes, œuvre d’art et « des myriades d’autres créations humaines » (source, p. 5)

Dans l’article de Science, l’intérêt d’une analyse de longue durée est montré à travers une focalisation sur le sous-corpus en anglais (361 milliards de 1-grams anglais et américains, soit plus de 70% du corpus complet) pour 1800-2000 (le nombre de livres référencés pour la période précédente étant trop limité).

Les auteurs y présentent ainsi quelques exemples concernant :

l’évolution du vocabulaire (i.e. du nombre de mots dans le lexique anglais) ;
les transformations de la grammaire ;
les références aux passé (occurrences de dates) et aux innovations (occurrences de références à des inventions) ;
la popularité ou la célébrité de certains individus (sur la base des 740.000 entrées de Wikipédia concernant des personnes) ;
la censure, notamment par une analyse des occurrences (et de la disparition) de certains noms dans le sous-corpus en allemand dans les années 1933-1945.

Le service Ngram Viewer permet donc, via une interface très simple, d’interroger le corpus afin d’évaluer les occurrences des mots de votre choix sur une très longue durée.

S’il semble dépasser la simple fonction de gadget, c’est que l’on dispose d’un minimum d’informations concernant la façon dont les données ont été construites :

au minimum, via la page « Google Books Ngram Viewer » (voir ici)

de façon un peu plus approfondie via l’article de Science et son annexe (déjà citée, voir ici)

surtout, les données sont mises à disposition au format .csv (voir ici) sous licence CC.

De plus, une fois un résultat affiché, il est possible de rechercher les termes choisis pour créer le graphique dans Google Books par un simple clic.

Pour quoi faire (en histoire) ?

En tâtonnant un peu on entrevoit rapidement de nombreuses possibilités offertes aux historiens. Par exemple, il est possible d’évaluer la prégnance de certains débats en interrogeant le corpus à travers des termes significatifs. Dans l’exemple qui suit, « dirigisme » et « étatisme » :

On peut aussi voir des applications possibles en historiographie. Dans l’exemple suivant, sont comparées les fréquences d’usage des termes « histoire politique », « histoire sociale », « histoire économique » et « histoire culturelle » :

On pourrait multiplier les exemples intéressants a priori (comme ici, là ou là : la simplicité d’utilisation rend Ngram Viewer un peu addictif…). Toutefois, une fois ces graphiques générés, une question demeure : que faire de tels résultats ?

Passés les premiers enthousiasmes, quelques réflexions critiques commencent déjà à être développées, qu’il s’agisse, par exemple, de l’emploi de termes « culturomics » et « n-grams » (voir ici) ou des limites propres à la technique d’identification des mots via OCR (voir ici, le premier article d’une série de trois consacrés à Ngram Viewer) [merci à Franziska pour ces indications]. En français, on lira avec grand profit l’analyse proposée par Francis Chateauraynaud et Josquin Debaz, « Prodiges et vertiges de la lexicométrie » sur le carnet Socio-informatique et argumentation.

Il serait très difficile ici (compte tenu des limites à mes propres connaissances en statistiques et lexicométrie… mais aussi de notre manque de recul par rapport à un service lancé il y a seulement quelques jours) de proposer une analyse complète des apports et limites d’un tel outil pour la pratique historique.

Toutefois, il me semble important d’insister sur quelques limites posées à une utilisation historienne de Ngram Viewer.

4 % de « tous les livres jamais publiés » ?

Ngram Viewer permet sans conteste de changer d’échelle en mettant à notre disposition un corpus dont la taille est totalement inédite.

Toutefois, il ne me semble pas résoudre une difficulté relevée depuis longtemps par les historiens de l’édition et des pratiques de lecture : tous les livres qui se trouvent dans toutes les bibliothèques du monde ne sont pas « tous les livres publiés » mais tous ceux qui nous sont parvenus, par divers hasard et choix subjectifs de collectionneurs, conservateurs, etc. Comme l’expliquait Robert Darnton dès 1971 :

« Parce que chaque génération choisit ce qui lui convient dans le corpus des « classiques », l’histoire littéraire côtoie inévitablement l’anachronisme. Nul historien ne lit l’ensemble de la production livresque de la société qu’il étudie ; déjà tributaire de sélections subreptices ou d’effacement oubliés, il ne connaît souvent que les livres triés par la tradition. Il risque donc de donner une image déformée des habitudes de lecture du temps passé. »

Robert Darnton, « De la sociologie de la littérature à l’histoire de l’édition », repris dans Bohème littéraire et Révolution, Paris, Gallimard, « tel », 2010, pp. 8-45. [1971 pour l’édition originale]

Est-on véritablement capable de connaître le nombre de tous les ouvrage publiés depuis Gutenberg ? Les estimations proposées et utilisées par les concepteurs de Ngram Viewer semblent montrer que non…

Dans l’annexe à leur article de Science, J.-B. Michel et al. conviennent eux-même (p. 13) que leur estimation du nombre total d’ouvrage publiés (voir ici) doit être considérée avec une « grande prudence ». Ils renvoient aussi à une étude menée à Berkeley (voir ici), qui conduirait a une « estimation très grossière » (toujours p. 13) de 74 à 175 millions.

Fonction de celle que l’on choisira parmi toutes ces estimations peu fiables, le corpus proposé correspondrait à 2,9% (estim. basse), 4% (estim. google) ou 7% (estim. haute) de « tous les livres publiés »…

Surtout, si Ngram Viewer permet d’interroger des sous-corpus en français, allemand, espagnol etc. : aucune estimation – même peu fiable – ne semble (à ma connaissance) possible concernant la proportion que représentent ces sous-corpus dans les publications dans ces langues…

Ce n’est pas la taille qui compte…

Ces limites conduisent aussi à nuancer le caractère révolutionnaire annoncé de cet outil pour la lexicométrie. Sans entrer dans dans une analyse de fond, je me contenterai ici de citer Claire Lemercier et Claire Zalc en ce qui concerne l’intérêt de la lexicométrie en histoire :

« Tout logiciel de traitement de texte permet de repérer, voire de compter les occurrences d’un mot dans un texte. L’apport supplémentaire de la lexicométrie réside dans l’étude d’un corpus à plusieurs échelles, de l’entourage de chaque mot à la distribution globale des noms ou des verbes. (…)
La notion de construction de corpus est dès lors centrale : tous les résultats obtenus sont relatifs à sa définition, donc dépendent d’un choix éclairé du chercheur. Une recherche philologique s’impose avant le traitement du corpus, afin de choisir entre plusieurs versions d’un même texte ou d’identifier précisément le(s) auteur(s) »

Claire Lemercier et Claire Zalc, Méthodes quantitatives pour l’historien, Paris, La Découverte, « Repères », 2008, p. 51.

Certes, Ngram Viewer permet de compter des occurrences à une beaucoup plus grande échelle qu’avec un simple traitement de texte… mais il ne permet pas d’effectuer la moindre de ces opérations de contrôle préalable. Perdre la maîtrise du corpus pour en augmenter la taille me semble être un prix un peu trop lourd à payer…

Un « nouvel outil pour l’histoire intellectuelle » ?

Avant de revenir sur quelques limites et erreurs possibles de Ngram Viewer (voir ici), Daniel Littel (sur son excellent blog d’épistémologie des sciences sociales Understanding Society) a annoncé son lancement par le titre « un nouvel outil pour l’histoire intellectuelle » (voir ici).

Les exemples pris par Daniel Littel font sans aucun doute apparaître d’intéressantes perspectives pour une histoire de l’usage de certains termes ou de la citation de quelques auteurs. Celles-ci sont toutefois très limitées : le corpus est construit de telle façon qu’absolument aucun accès au contexte n’est et ne sera jamais possible. Qui a écrit le terme recherché ? dans quel sens le mot est-il employé ? dans quel type d’ouvrage ? autant de questions fondamentales qui restent en suspend.Si l’on revient à l’exemple fourni plus haut sur les occurrences des termes « histoire politique », « histoire culturelle » (etc.) : rien ne nous permet de vérifier dans le corpus interrogé si l’augmentation de la fréquence d’utilisation d' »histoire culturelle » en fin de période est dû à un franc succès de cette approche sous-disciplinaire, ou à une contestation de sa pertinence.

Partant de ce constat, et en considérant avec Jean-Claude Perrot qu’au regard d’une l’histoire intellectuelle prenant les « processus d’abstraction » pour objet, « les textes ne sont que des bilans d’arrivée, dressés à partir des réalités perçues » (source, p. 59), alors l’apport d’un tel outil, si puissant soit-il, restera très limité.

Bien entendu, rien n’empêche de mener d’autres analyses qualitatives et/ou quantitatives sur la base d’un autre corpus, dont on aura mieux maitrisé la constitution. Mais, à ce stade de développement de l’outil, cela n’en fait qu’un « simple » générateur d’hypothèses très générales… et malheureusement pas toujours vérifiables.

Conseils & Tutoriels/Formations

Initiation à la veille documentaire sur Internet

Posted on 19 décembre 2010 by Émilien Ruiz / 3 Comments

Les lecteurs de ce blog qui ont suivi certaines de nos formations ou qui assistent à nos séminaires d’historiographie &/ou méthodologie de la recherche en histoire nous ont souvent entendu parler de flux RSS ou de veille sur Internet sans que nous ayons toujours eu le temps de développer…

Le tutoriel qui suit devrait combler cette lacune par une initiation « pas à pas » aux principaux instruments de veille informationnelle sur Internet que sont les flux RSS, les podcasts et les alertes e-mail.

Les démonstrations sont basées sur les exemples suivants :

Flux RSS : Sage et Google Reader
Podcasts : Juice et iTunes
Alertes : Google Alertes, Google Scholar et la BDIC

Les commentaires sont bienvenus. Surtout, n’hésitez pas à y proposer d’autres outils de veille collaborative (partage de flux, de signets etc.)