Crédit : Pierre Kitmacher

La puissance des algorithmes au service des Humanités

Ouverture d’esprit et goût de l’exploration sont les qualités qui ont guidé le parcours de Marine Riguet, qui s’est tournée vers la recherche en authentique pionnière des « Humanités numériques ». Titulaire d’un doctorat, stimulée par la puissance quasi illimitée de l’outil numérique, c’est avec l’envie de défricher de nouveaux territoires du savoir qu’en 2014, cette passionnée de littérature – par ailleurs elle-même auteure – choisit de rejoindre l’équipe du Labex OBVIL (Laboratoire d’Excellence/Observatoire de la Vie Littéraire, entité rattachée à la Faculté des Lettres de la Sorbonne). Au-delà des perspectives nouvelles qu’ouvrent de nombreuses applications informatiques dans le champ des études littéraires, son travail donne aussi à voir la manière dont technologie et création ne cessent de s’influencer et s’interroger mutuellement.

 

À partir de quand les nouvelles possibilités qu’offre le numérique vous sont-elles apparues comme nécessaire à la conduite de vos travaux universitaires ?

Ma thèse visait à étudier la façon dont la littérature a été repensée dans la deuxième moitié du XIXème siècle sous l’influence du discours scientifique alors en plein essor. Cette approche se situait à la croisée de plusieurs domaines et c’est ce caractère interdisciplinaire qui a vite rendu les outils numériques indispensables, de par la masse immense de textes qu’il fallait mobiliser. Il s’agissait en effet de constituer un corpus textuel qui puisse nourrir une véritable histoire des idées. Au-delà de la littérature, il était nécessaire d’avoir la vue sur un nombre de textes considérables, littéraires mais aussi philosophiques et scientifiques, et j’ai donc dû me tourner vers l’édition numérique. Ce chantier d’envergure ne put se réaliser qu’avec l’aide très active de mon directeur de recherche, Didier Alexandre, professeur de Lettres et fondateur du Labex OBVIL. Le laboratoire, tourné vers les rapports entre le numérique et la littérature, s’intéresse plus particulièrement à la façon dont les nouvelles possibilités offertes par l’informatique peuvent être utilisées pour étudier la littérature du XVIème au XXIème siècle, dans une perspective transdisciplinaire qui fonde la notion d' »Humanités numériques ». Il est aujourd’hui possible de faire une thèse portant sur quatre cents livres, ce qui n’était pas le cas il y a encore trente ans et ouvre sur des études transversales à large échelle.

Que recouvre plus exactement le terme d’ « Humanités numériques »?

Les Humanités numériques sont une transdiscipline qui consiste à utiliser les nouvelles ressources informatiques pour la recherche en Sciences Humaines et Sociales, en Littérature, en Arts, en Histoire, ou en Philosophie. Pour la recherche littéraire en particulier, il s’agit d’une nouvelle façon d’interroger les textes, sans pour autant évidemment renoncer à la lecture classique, linéaire. A titre d’exemple, mon corpus de thèse était constitué de près de quatre cents textes, trois cents de critique littéraire pure en regard d’une centaine d’œuvres scientifiques et philosophiques. Je les ai tous lus, plusieurs fois pour certains, mais sans avoir à les annoter page à page à l’aide d’un crayon à papier. La lecture à large échelle, elle, se fait par le biais d’outils informatiques et vient suppléer l’œil du lecteur. Sans remplacer les méthodes traditionnelles, il s’agit en bref d’élargir nos approches et nos horizons de recherche.

L’importance des enjeux qu’elles brassent rend d’autant plus étonnante la manière dont les humanités numériques sont encore reléguées dans une certaine obscurité…

Oui, d’autant plus que même lorsqu’elles sont un tant soit peu connues, c’est souvent de manière caricaturale. Il est intéressant à ce titre de remarquer que, de la même manière que la notion de vie redéfinie par le discours scientifique et philosophique a modelé une nouvelle idée de la littérature, la révolution technologique remet aujourd’hui l’objet littéraire en question. Le déploiement au XIXème siècle d’un discours positiviste sur la littérature fut très décrié, en particulier par les spiritualistes, mais ce faisant il a forgé les termes dans lesquels s’est posée par la suite la notion de littérature. Or, avec les Humanités numériques, on constate le retour d’un discours qui prétend encore établir des critères d’objectivité scientifique, à travers tout un vocabulaire de la preuve, du prédictible et du quantifiable. L’emploi de méthodes statistiques, comme par exemple l’étude de la fréquence de certaines occurrences, vise à légitimer un discours de critique littéraire qui a longtemps été discrédité pour son caractère subjectif, contingent. Tout comme la mutation épistémologique qui obligea à réinventer l’objet littéraire au XIXe siècle, nous revivons avec le numérique une évolution culturelle, avec laquelle revient la nécessité de réaffirmer, de redéfinir ce qu’est la littérature. Ce sont des mouvements globaux, et c’est ce qui est passionnant dans l’histoire des idées, on retrace l’ensemble, on fait l’archéologie de tout ce qui s’influence mutuellement, se répond…

Pour pénétrer le cœur de la machine, pouvez-vous nous éclairer, par l’exemple, sur le type de calculs auxquels vous soumettez les textes?

Tout dépend bien sûr de ce que l’on recherche. Il y a en premier lieu une approche relativement simple, qui consiste à repérer des « collocations lexicales », à identifier les mots qui apparaissent le plus fréquemment autour d’un autre, dans un contexte particulier. Or l’ordinateur va permettre d’opérer ce calcul de manière très précise dans tout le corpus, en retrouvant d’un texte à l’autre les mots qui entretiennent un rapport de proximité récurrent. C’est déjà un outil intéressant, mais qui peut ensuite être accompagné d’autres outils d’analyse sémantique. Une plus grande finesse est en effet indispensable si l’on veut étudier avec précision l’évolution d’un terme, d’une notion, leur acception à travers les époques, d’un auteur à un autre, à plus forte raison lorsque l’on embrasse de grandes quantités textuelles. Par exemple, un algorithme comme Word2Vec, développé en 2013 par une équipe de recherche de Google, permet par « vectorisation de mots » de représenter et de calculer la place des mots dans un texte. Ce mode d’interrogation d’un texte converti en espace est particulièrement intéressant en ce que, par principe, tout mot prend sens à partir du contexte dans lequel il est employé. Deux mots proches vectoriellement peuvent être considérés comme étant employés de façon quasi similaire par l’auteur ou revenir dans des contextes sémantiques très proches. Par conséquent, on peut repérer les glissements de sens d’une notion à travers le temps, et cela dans des corpus très vastes, voire hétérogènes. C’est ainsi que j’ai par exemple pu observer l’implication physiologique et anthropologique de la notion de milieu dans la critique littéraire des années 1880. Tout reste soumis à interprétation bien sûr, mais ces opérations fournissent des indications très précises dont l’intérêt dépasse la simple statistique en se situant déjà sur un plan sémantique. C’est le propre du numérique que de passer par le nombre, par le calcul, mais c’est aussi l’un des intérêts des Humanités numériques que de mettre à jour et d’interroger constamment le rapport entre qualitatif et quantitatif. Il ne faut pas oublier la démarche de l’humaniste.

Apercevez-vous des risques, des dérives possibles à l’emploi de ces outils ?

L’outil peut être autant poison que remède, c’est une évidence. Nous sommes tout à fait capables de mal interpréter sans le secours du numérique! Tout dépend en réalité de la méthode, qui doit être à mon sens très critique, de façon implacable et permanente. Alors que nous nous situons à un moment en quelque sorte fondateur pour les Humanités numériques, cette démarche critique est cruciale, et dès qu’elle se perd, que le discours devient positiviste, que toute information fournie par la machine est utilisée comme une preuve inattaquable, il y a là en effet un danger.

 Ces outils sont-ils opératoires sur les textes de littérature pure? Jusqu’où peut pénétrer la puissance d’indication sémantique d’une machine, un logiciel peut-il par exemple identifier un sens métaphorique?

La question de la limite est très difficile à évaluer compte tenu de la rapidité des avancées technologiques. Je ne crois pas que quiconque pense percer le mystère de l’écriture littéraire avec des outils informatiques. Toutefois le repérage d’un sens figuré est d’ores et déjà possible, et de nouveaux outils sont en cours de développement, nous ne sommes qu’au début. D’autres outils permettent par exemple d’aligner les textes et donc de retrouver des passages communs entre les œuvres, voire même d’en identifier des réécritures, des citations directes ou indirectes. Ils permettent de se livrer en somme à l’archéologie d’un texte. Mais il est vrai, en revanche, qu’une figure comme celle de l’ironie continue d’être compliquée à identifier automatiquement. Avec mon collègue Motasem Alrahabi, nous travaillons au repérage des opinions, des points de vue, dans le discours sur la littérature. Une part échappera toujours – et je l’espère d’ailleurs. Ce qui est intéressant, surtout, c’est de pouvoir accéder grâce au numérique à de nouvelles dimensions de la recherche. J’ai pu constater que, bien que Darwin soit le savant dont le nom revient le plus souvent dans le discours littéraire de son époque, il n’est presque jamais cité textuellement, ce qui laisse entendre que ses travaux n’ont pas été réellement lus, mais seulement reçus par le biais d’articles de vulgarisation…. Ce retraçage a été rendu possible par une exploration numérique de large échelle. Nous ne sacralisons pas l’outil mais il serait dommage de lui tourner le dos.

A lire :

obvil.sorbonne-universite.site/

marineriguet.com/ « Carnet de fouilles »

La Souterraine, texte de Marine Riguet, encres d’Emma Duffaud