Après un premier billet relatif aux logiciels de bibliographie, suite de la série de conseils pour se former aux outils numériques plébiscités lors de ma petite enquête : les bases de données.
Bases de données, kézako ?
Commençons par une définition générale, celle que l’on trouve à l’entrée base de données de Wikipedia par exemple :
« Une base de données (en anglais : database) est un outil permettant de stocker et de retrouver l’intégralité de données brutes ou d’informations en rapport avec un thème ou une activité ; celles-ci peuvent être de natures différentes et plus ou moins reliées entre elles. Dans la très grande majorité des cas, ces informations sont très structurées, et la base est localisée dans un même lieu et sur un même support. Ce dernier est généralement informatisé. » (source)
Indépendamment de toute question logicielle, constituer une base de données (bdd), c’est donc organiser, rationaliser la collecte, le stockage et la gestion de sa documentation. Quand vous utilisez Zotero par exemple, vous alimentez une base de données de références bibliographiques (en l’occurrence, ce qu’il y a derrière votre bibliothèque Zotero, c’est une bdd SQL), voire plus si vous l’utilisez pour organiser toute votre documentation. Dans ce cas comme avec d’autres outils plus généralistes, la structuration des données a été pensée pour vous : vous entrez les informations que vous souhaitez stocker et organiser directement dans une interface munie de champs prédéfinis (dans zotero : le nom de l’auteur, le titre, une pièce jointe, une note…).
Vous l’aurez certainement compris, les bdd se trouvent derrière quasiment tous les outils que vous utilisez sur internet. Dès que vous remplissez un formulaire en ligne par exemple vous alimentez une bdd : elles « constituent donc le cœur de nos systèmes d’information » (source).
Un outil pour les historien-nes ?
Pourquoi utiliser une base de données spécifique pour le traitement de vos sources ? D’abord parce qu’en construisant votre bdd vous même, vous maîtriserez la structuration de vos informations, c’est à dire la façon dont elles seront organisées. Bien sûr, toutes les sources ne se prêtent pas forcément à une structuration de ce type. Dans la plupart des cas, l’intérêt que vous trouverez à transformer vos sources en données, c’est de pouvoir ensuite opérer des traitements d’ordre quantitatif. Ce qui ne veut pas dire que la pratique des bdd est une exclusive de l’histoire économique ou sociale, réputée plus quantitative. Voir par exemple le retour d’expérience en histoire politique que propose Pierre-Marie Delpu sur le carnet NHumérisme. En outre, il m’est arrivé de rencontrer des doctorants qui, sachant utiliser des logiciels de bdd, avaient décidé d’organiser toute la documentation de leur thèse comme d’autres, telle Franziska, l’auraient fait avec Zotero.
Voici ce que notent Jacques Cellier et Martine Cocaud dans le principal ouvrage de référence (dont je vous recommande vivement la lecture) :
« La démarche débute avec l’examen des documents qui vont permettre la recherche historique : nous les appellerons les sources. (…) Il est rare qu’un seul document suffise à une recherche, qui exige souvent de collecter tout un corpus, composé de documents de même type ou de types variés. La recherche de documents, suivie de leur dépouillement et de leur collecte, dévore une grande partie du temps de l’historien. L’objectif est d’obtenir des données qui seront soumises par la suite à sa sagacité et à son talent d’analyste. Elles résultent d’une curieuse cuisine qui prend les sources comme ingrédient et les laisse ensuite bien éloignées tant que par leur contenu que par leur forme du modèle d’origine. « Physiquement », les données devront se présenter sous forme de fichier, c’est à dire d’une collection d’informations portant un nom et pouvant être stockées sur la mémoire d’un système informatique (…).
Des représentations iconographiques peuvent être stockées sous forme d’images numérisées mais on peut aussi n’en conserver qu’une description établie selon des rubriques précises (nom du peintre, date, techniques, personnages, etc.) ; un discours peut aussi être analysé de la même manière : nom de l’orateur, thèmes évoqués, expressions utilisées, date, etc. Toutes les sources peuvent être décrites sous forme de séries d’informations composées de rubriques, mais ce découpage, qui facilite le traitement des données sérielles, ne se révèle pas intéressant dans tous les cas : les analyses textuelles, par exemple, relèvent d’autres méthodes. » (source, p. 13-14)
Vous l’aurez compris, tout-e historien-ne n’aura pas besoin de construire une base de données… en revanche la démarche intellectuelle qui est à la base de sa construction est commune à tout chercheur mobilisant de la documentation. C’est, il me semble un point de départ fondamental lorsqu’il est question de formation.
Se former aux bdd (1) – La démarche avant les logiciels !
Je n’ai, en ce qui me concerne, pas eu à créer une base de données pour ma thèse. Peut-être que, si j’avais été initié aux principes qui président à leur construction un peu plus tôt, je me serais lancé, surtout par goût de la découverte des outils par moi même. Néanmoins, avec le recul, je suis persuadé que cela ne m’aurait pas forcément apporté grand chose pour ma thèse (en revanche, pour la gestion à plus long terme de l’ensemble de ma documentation, c’est autre chose!).
J’ai néanmoins suivi une formation qui m’a permis de m’exercer à la démarche intellectuelle qui préside à la fabrication d’une bdd. Dans le cadre d’une école d’été en « méthodologie de la recherche en histoire sociale » organisée par Frédéric Vesentini en 2008 à l’UCL (d’autres ont eu lieu en 2010, 2013 et 2014), nous étions une bonne trentaine à avoir été initiés aux bdd ; à l’analyse des discours et aux statistiques textuelles ; ainsi qu’aux enjeux d’échantillonnage et de tests statistiques. Sur les 5 jours que comptait la formation, deux furent consacrés aux bdd et, c’est là que je voulais en venir… à aucun moment nous n’avons manipulé un logiciel !
En effet, l’initiation dispensée par Aurore François et Frédéric Vésentini était alors tournée vers le travail – à mon sens le plus complexe, mais aussi le plus intéressant et formateur – la conception d’une bdd à partir d’une réflexion sur l’organisation de sa documentation : principes de théorie relationnelle, conception d’un schéma conceptuel, transformation du schéma conceptuel en structure de données…
Comme le soulignent Claire Lemercier et Claire Zalc, la saisie d’une source dans une bdd, ou dans un tableur (j’y reviendrai) doit être envisagée, comme « un moment de recherche » (p. 35). Cette opération suppose en effet une réflexion préalable et permanente sur le contenu de la source, son organisation originale, les informations que l’on souhaite en tirer, etc. Réflexion dont on se passe généralement lorsqu’il s’agit simplement de transcrire une source dans un traitement de texte, et a fortiori lorsque l’on se « contente » au départ de photographier les sources :
« Promouvoir la saisie de la source par le chercheur ne correspond pas au désir d’imposer un « rite de passage » pénible et ingrat, mais bien à la conviction que cette étape constitue un véritable moment de recherche. (…) Fastidieuse, [la saisie] permet aussi d’appréhender réellement les données et de commencer à réfléchir sur leur structure. (…) C’est souvent au cours de la saisie que l’on prend presque physiquement contact avec son sujet, mais aussi que naissent de nombreuses questions (…). La saisie, pour l’historien peut ainsi être comparée au terrain pour l’ethnographe ou le sociologue : elle engage physiquement, induit une connaissance intime de la source et suscité nombre de questionnements de recherche. » (source, p. 36)
Bien entendu, cela ne veut pas dire que toute source, en toutes circonstances, se prêterait à une saisie systématique. Néanmoins, il me semble indispensable de toujours se poser la question…
Ce qui impose de connaître quelques règles de bonnes pratiques, telles les « dix commandements de la saisie » que proposent Claire Lemercier et Claire Zalc.
C’est la première étape d’une auto-formation selon moi : lire les chapitres « De la source aux données » :
– p. 34-47 dans Méthodes quantitatives pour l’historien
– et p. 16-57 dans Traiter des données historiques par Jacques Cellier et Martine Cocaud.
Je vous recommande aussi la consultation du livre de Jean-Luc Hainaut : Bases de données. Concepts, utilisation et développement, l’auteur y prend en effet le temps de bien expliquer les enjeux méthodologiques et conceptuels qui président à la création et à l’utilisation d’une bdd. En outre, la conception de l’ouvrage est très intéressante : plusieurs parcours sont possibles parmi les chapitres selon que vous souhaitiez « simplement » bénéficier d’une introduction aux bdd, ou que vous cherchiez une formation complète. [Voir la page du livre sur le site de l’auteur – Lire la table des matières et l’introduction (PDF)]
Se former aux bdd (2) – Les enseignements présentiels
Nous avions vu qu’il existe de très nombreuses formations présentielles aux logiciels de bibliographies, ateliers de doctorants, formations des bibliothèques et des urfist, elles ne manquent pas. Pour les bdd, l’offre existe mais elle est sans conteste moins pléthorique.
Il faut bien sûr commencer par citer les formations du Pireh (Pôle Informatique de Recherche et d’Enseignement en Histoire) de l’université Paris 1 qui, depuis de nombreuses années, dispense de la Licence au Doctorat des enseignements pointus à divers outils, dont les bases de données (ici ou là par exemple). Voir aussi, bien qu’il dépasse la seule question des bdd à proprement parler, le programme du séminaire organisé par Stéphane Lamassé et Léo Dumont : « Structuration et analyse de données pour historien (2014-2015)«
J’ai cité celles de Frédéric Vésentini et Aurore François ont organisé à plusieurs reprises depuis 2008, les écoles d’été peuvent être une excellente occasion de se former correctement en un minimum de temps. Il faut les guetter dans vos établissement et vous abonner aux flux de Calenda (écoles d’été ; méthodes de traitement et de représentation ; approches de corpus, enquêtes, archives ; etc.)
Bien entendu, il y a aussi l’atelier de Claire Zalc et Claire Lemercier, qui dépasse ici encore la seule question des bdd, mais dont l’approche très concrète basée sur les travaux des participants ouvrent de nombreuses perspectives. Voir, pour information, le programme 2014-2015.
Si vous avez connaissances de formations spécifiques orientées histoires et sciences sociales, n’hésitez pas à les partager. Une solution alternative lorsqu’il n’existe pas de formation dans votre discipline, est d’aller voir du côté des formations plus pointues des informaticiens, ou d’autres disciplines. Cela implique néanmoins d’avoir été particulièrement sensibilisé aux enjeux propres à la recherche en sciences sociales (en lisant les références mentionnées plus haut notamment!)
Jetez par exemple un œil à l’offre très riche du CNAM sur les domaines « bases de données » et « bases de données relationnelles« .
S’auto-former : le tableur
Utiliser un tableur comme base de données ? J’entends d’ici les puristes pousser des cris d’orfraie… Il n’empêche que bien souvent, ce sera une solution largement suffisante. Comme toujours, j’insiste sur le fait qu’en matière d’informatique, il est indispensable de toujours tenter de mobiliser les outils correspondant au mieux à nos besoins, nous n’avons pas besoin d’une masse pour planter un clou… Comme le notent Claire Lemercier et Claire Zalc (vous voyez bien que la lecture de leur « repères » est indispensable…) :
« En pratique, le choix est souvent entre tableur et logiciel spécifique de base de données. (…) En fait, dans la plupart des cas, un tableur, plus souvent présent à la base sur l’ordinateur et d’un accès plus intuitif, suffit largement, d’autant que les données saisies sont plus facilement exportables par la suite, pour des traitements que l’on n’imagine que rarement à l’avance. Outre le gain de temps, la discipline imposée par le fait d’entrer les données directement dans un tableau, visualisé comme tel, peut d’ailleurs aider à poser certains choix de recherche » (source, encadré p. 37)
Pour apprendre les bases de l’utilisation d’un tableur, je vous rappelle en premier lieu mon tutoriel, « initiation à l’utilisation d’Excel 2010« . Le tutoriel a pris – esthétiquement – un petit coup de vieux (le premier qui dit qu’il était déjà moche à l’origine verra son adresse IP blacklistée!) mais les fonctionnalités restent valables et facilement transposables à LibreOffice Calc. L’essentiel ici est d’apprendre à utiliser les outils de tri, filtre, croisements de données. Voir par exemple :
- Utiliser Excel pour gérer des bases de données historiques. Quelques trucs (annexe électronique du « Repères » de CL et CZ)
- Les tableaux croisés dynamiques sous Excel (idem) – je ferai dès que possible un petit tuto-pas-à-pas : avec les dernières versions l’usage des tableaux croisés dynamiques et vraiment très simple.
Pour LibreOffice ou OpenOffice, vous trouverez des tutoriels facilement, voir, par exemple, ces « conseils pour réaliser une table de données » (PDF) ou encore ces exemples vidéos :
(il s’agit de la première vidéo d’une série de 12…)
Reste que le tableur trouvera vite ses limites pour certains usages, et là, les choses se compliquent un peu.
À la lecture de conseils divers et variés, il semble que la plupart des historiens rompus aux outils de ce type recommandent désormais le passage à MySQL. FileMaker reste souvent cité mais ne semble pas très pratique. Restent les logiciels des suites bureautiques les plus connues : Access pour MSOffice, et Base pour Libre/OpenOffice.
Petit tour d’horizon pour ces 4 possibilités.
S’auto-former : Access
Access est probablement le plus connu des logiciels de base de données, même pour les plus néophytes. Jetez un œil au rayon informatique chez Gibert par exemple, vous pourrez constater qu’il existe pléthore de manuels, plus ou moins accessibles, pour apprendre à l’utiliser.
Dans le premier volume qu’ils ont consacré au traitement des données historiques, Martine Cocaud et Jacques Cellier avaient fait le choix de ce logiciel. Je vous recommande vivement leur livre (et je vous remet la couverture pour la peine) car, si le logiciel à beaucoup évolué depuis, leurs démonstrations reposent systématiquement sur des exemples historiques concrets.
Vous pourrez, en outre, vous reporter à la page annexe à l’ouvrage, TDH1, sur le site de Jacques Cellier.
Pour vous familiariser avec le fonctionnement des versions les plus récentes du logiciel, vous trouverez bien votre bonheur dans un des très nombreux guides publiés, et plusieurs tutoriels vidéos existent. Voir, par exemple, la série de 4 vidéos mises en ligne en juin 2014 par Lydia Provin :
La limite principale des tutoriels en ligne concerne le domaine d’application très souvent éloigné des sciences sociales… C’est la raison pour laquelle il me semble que la lecture de traiter des données historiques reste indispensable à celles et ceux qui souhaiteraient se lancer dans l’apprentissage d’Access.
Dans le second volume qu’ils ont consacré au traitement des données en histoire et sciences sociales, les deux auteurs ont néanmoins adopté MySQL…
S’auto-former : Base
Le concurrent libre de la suite office dispose aussi de son propre logiciel de base de données. Vous trouverez sur le wiki du Pireh un tutoriel fondé sur un exemple historique, une base de données des représentants élus à l’Assemblée nationale constituante en avril 1848 :
Vous trouverez aussi – c’est l’un des avantages non négligeables du libre – une communauté active d’utilisateurs et de nombreux conseils. Par exemple, sur le site officiel, vous trouverez la traduction française des guides d’utilisation de Calc (le tableur) :
Pour Base en revanche, il faudra pour le moment vous contenter des versions en anglais qui n’ont pas encore été traduite (témoignage, peut-être, de la moindre utilisation du logiciel). Il existe un manuel complet (traduit de l’allemand vers l’anglais) et une série de guides. L’ensemble se trouve ici :
S’auto-former : FileMaker
Dans les résultats de mon enquête auprès des historiens, si de nombreuses réponses ne mentionnaient que « bases de données » dans une perspective générale, un logiciel a été cité à plusieurs reprises : FileMaker.
Cela a suscité quelques suprises sur Twitter lorsque je m’en suis fait l’écho. Comme le notent CL et CZ :
« Beaucoup d’historiens utilisent FileMaker. Il semble s’agit en bonne partie d’une tradition quelque peu irrationnelle, due à la fois à l’usage d’ordinateurs Macintosh et à la forte personnalité de quelques utilisateurs. Il est vrai que le système de prosopographie mis en place par Jean-Pierre Dedieu à l’intérieur de ce logiciel (voir par exemple ici) est tout à fait intelligent et adapté aux données historiques. Il reste que les fichiers construits sous FileMaker s’avèrent particulièrement difficiles à exporter ailleurs… Il faut donc bien réfléchir avant de faire ce choix » (source)
Je me contenterai ici d’indiquer à celles et ceux qui souhaitent l’utiliser que le site officiel de FileMaker propose de nombreux « webinaires » des tutoriels les plus basiques aux fonctions les plus avancées (voir le site des séminaires Web FileMaker). Par exemple, ce tour d’horizon « découvrir FileMaker en 20 minutes » :
S’auto-former : MySQL
Je le notais plus haut, MySQL est le choix que Jacques Cellier et Martine Cocaud ont fait pour le deuxième volume sur le traitement des données historiques :
« Compte tenu de l’offre en la matière, il nous paraît pertinent de proposer MySQL comme alternative à [Access]. Parmi les raisons qui plaident en faveur de ce dernier, on peut invoquer la gratuité, son caractère multi-utilisateur, l’existence d’une interface puissnte et conviviale PhpMyAdmin qui rend aisées les tâches d’administration et offre de nombreuses possibilités d’échanges avec d’autres logiciels (comme Excel ou Access…). Mais le plus important est le fait que pratiquement tous les hébergeurs de site Web proposent le couple MySQL/PhpAdmin. Ce qui ouvre l’opportunité de mettre la base en ligne, tout en ayant un contrôle fin sur les accès : depuis la simple consultation, jusqu’à l’administration, en passant par l’insertion de données. La porte est ainsi ouverte sur un véritable travail collectif réunissant plusieurs contributeurs géographiquement épars autour du développement d’une base de données. » (source, p. 17)
Si avec ça vous n’êtes pas convaincus !? J’ajouterai que vous disposez pour vous aider du volume dont est tiré cette citation, qu’il est – comme son prédécesseur, accompagné d’une annexe en ligne très fournie, et d’un « kit » complet pour s’initier et se perfectionner dans l’art subtil de l’interrogation SQL.
Notez aussi que la seconde partie l’ouvrage cité plus haut de Jean-Luc Hainaut, est intégralement consacrée au langage SQL.
[édit. du 15 mai 2015] La plateforme de MOOC OpenClassrooms propose une formation complète à l’administration de bases de données avec MySQL. L’accès au cours est totalement gratuit et la version payante vous permet de télécharger le cours, voire d’obtenir un certificat de réussite en cas de besoin.
*
* *
Comme pour le billet précédent, si vous repérez des approximations ou des erreurs, ou si vous souhaitez partager vos expériences, recommander des formations, etc. n’hésitez surtout pas à utiliser les commentaires !
Je souhaite, pour conclure ce billet, insister sur la nécessité de beaucoup réfléchir à vos besoins avant de vous lancer dans l’apprentissage d’un logiciel de bdd, qu’il ait ou non été cité ici. Si l’apprentissage des règles de bonnes pratiques en termes de conception, de structuration des données à travers la saisie des sources est quelque chose de très formateur, quel que soit l’usage que vous ferez du résultat, l’apprentissage de l’utilisation d’un logiciel de ce type, surtout en autoformation, peu d’avérer lourde et… décourageante si finalement ses possibilité dépassent de très loin vos besoins.
Si pour les logiciels de bibliographies je vous incitais à vous lancer quoiqu’il arrive en toute confiance dans l’autoformation, en ce qui concerne les bases de données je ne peux que vous encourager à d’abord demander conseil à des chercheurs qui pratiquent ces outils – et encore mieux, à ceux qui forment des apprentis historiens à leur usage – et qui seront le plus à même de vous aider à définir vos besoins, et à choisir l’outil le plus adapté.
______________
Crédit image bandeau : « original database » par shinichi / 真一 … just call me Shin! en cc sur Flickr
Autres alternatives :
postgresql et son extension postgis qui permettent de traiter des données géographiques. Très utilisés dans le développement d’application metiers cartographiques.
Les bases nosql. (Mongodb, Couchdb,…) Bases sans schema qui permettent de traiter des données disparates hétérogènes.
Merci beaucoup pour cet article, il m’a été précieux tout comme les liens que vous proposez pour les tutoriels en bdd.
Merci article très utile!