L'IA qui savait lire la musique, avec Aurélie Lemaitre
Télécharger MP3Sous-titres générés avec IA (Whisper), editing et proofing par Guglielmo Fernandez Garcia.
Depuis un peu plus d'un an, on entend parler d'intelligence artificielle partout.
Image, Traduction, Développement, Texte, tous les domaines sont touchés.
La référence dans le domaine, c'est évidemment ChatGPT, l'agent conversationnel d'OpenAI
capable de générer à peu près tout ce que vous voulez, et qui, tous les mois,
ne cesse de connaître des évolutions toujours plus impressionnantes.
Vous l'aurez compris, ça fait déjà quelques émissions qu'on l'évoque, on ne pouvait
pas esquiver le sujet plus longtemps, aujourd'hui on va enfin parler d'intelligence
artificielle.
Qui de mieux placer pour nous parler d'IA que quelqu'un qui a contribué à la recherche
en IA ?
Aujourd'hui, nous recevons Aurélie Lemaitre, maître de conférences à l'université
Rennes 2, membre de l'IRISA et surtout chercheuse sur Collapscore, un projet d'intelligence
artificielle visant à reconnaître des partitions musicales.
Alors, comment fonctionne ce genre d'outils ? Une IA peut-elle réellement apprendre ?
Peut-on réellement faire confiance aux résultats produits par une intelligence
artificielle ?
Pour nous intéresser aux IA, avec Guglielmo, on s'est penché sur le cas d'une IA, donc
celle issue du projet Collapscore.
Le travail d'Aurélie Lemaitre, c'est de s'intéresser aux documents anciens.
En partenariat avec la Bibliothèque nationale de France, elle dispose d'un corpus de
partitions de musiques anciennes.
A partir des scans de partitions, l'objectif du projet Collapscore est de les interpréter.
Le système de reconnaissance va alors lire les notes et les renvoyer dans un
format numérique, comme le format MIDI par exemple.
De cette façon, ce travail en intelligence artificielle participe à la préservation
du patrimoine musical.
Pour ces voyages, commençons à douceur.
Nous pouvons imaginer l'IA comme une boîte noire à laquelle nous posons une
question, c'est-à-dire nous fournissons des données, et à laquelle nous attendons
une réponse, nos données traitées selon la logique de la machine.
Ce qui se passe à l'intérieur est le domaine des experts, c'est-à-dire
que moi, l'utilisateur, je sais que quelqu'un sait comment cela fonctionne,
mais ça ne m'intéresse pas, ou pas.
Les problèmes avec l'IA, c'est que même les experts ne savent pas vraiment
comment ça marche à l'intérieur.
Commençons donc pour demander à Aurélie ce qu'elle donne à sa machine,
quelle réponse elle attend, et ce qu'elle fait sa boîte noire
à intelligence artificielle.
Et surtout si elle comprend un peu mieux que moi ce qui se passe dedans.
Alors, ce qu'on pourrait appeler intelligence artificielle d'une manière
plus générale, c'est le fait de faire faire à un ordinateur un traitement
que pourrait faire le cerveau humain.
En l'occurrence, si je montre ma partition de musique à un musicien,
il va être capable de me dire « ben ici j'ai une clé de sol,
ici j'ai des notes, j'ai des portées, des partitions ».
Et donc, être capable de donner cette image à un ordinateur,
c'est l'entrée de notre logiciel d'intelligence artificielle.
Et puis quand sort-il, soit capable de nous dire « et bien j'ai lu,
voilà la musique, et je peux même faire de la musique synthétique »,
c'est-à-dire on peut demander à l'ordinateur de nous fabriquer
un fichier MIDI, une piste son de ce qu'il y a sur la partition.
C'est l'objectif final.
Effectivement, quand vous parlez de boîte noire,
c'est le reproche qu'on peut faire à certaines intelligences artificielles,
mais pas à toutes.
C'est là où ce qu'on entend à l'heure actuelle par intelligence artificielle,
tout de suite, c'est le chatGPT.
On lui pose une question, il nous répond.
On ne sait pas d'où il sort sa réponse, mais il a réussi à nous répondre.
Or, avant que ces systèmes de type boîte noire existent,
on faisait déjà de l'intelligence artificielle.
On ne fait pas de l'intelligence artificielle
juste depuis deux ans que les réseaux de neurones existent.
On en fait depuis plus longtemps.
Notamment dans l'équipe Shadok dans laquelle je travaille,
on fait faire de la reconnaissance aux ordinateurs,
c'est-à-dire qu'on fait de l'intelligence artificielle
en se basant sur des systèmes à base de règles syntaxiques,
d'éléments à reconnaître dans les documents.
Alors comme ça, ça fait un peu gros mot mon histoire.
Le principe, c'est qu'on va décrire ce qu'on s'attend à reconnaître dans un document.
Dans une partition musicale,
je m'attends à reconnaître des portées qui sont organisées en système.
Une portée, qu'est-ce que c'est ?
C'est jamais que cinq lignes,
cinq traits horizontaux les uns en dessous des autres.
Et donc, il n'y a pas besoin d'avoir une intelligence artificielle hyper poussée
pour dire dans mon image,
je vais détecter où sont les segments horizontaux, les lignes,
et je vais les regrouper par cinq.
Et ça, ça me fait une portée.
Et dans ce cas-là, le fait d'utiliser des règles,
on a l'avantage de ne pas avoir l'effet boîte noire.
C'est-à-dire que soit notre système,
il trouve les cinq lignes de texte dans l'image et c'est bon, on a la portée.
Soit la cinquième ligne de texte, elle est un petit peu effacée.
Et dans ce cas-là, notre système va dire youhou, j'ai pas trouvé.
Et on va dire bah c'est bon, je sais pourquoi il l'a pas trouvé.
T'as vu, la ligne est effacée.
Et donc ça, c'est déjà en soi une intelligence artificielle
qui n'est pas une boîte noire.
C'est pour ça que je veux dire que toutes les intelligences artificielles
ne sont pas des boîtes noires.
Ce qui est intéressant ici avec Collapscore,
c'est la méthode hybride que le système utilise.
D'un côté, on retrouve la méthode plébiscité des réseaux de neurones,
aussi appelée deep learning.
L'idée est d'entraîner ces réseaux de neurones sur de grandes quantités de données
pour qu'ils puissent apprendre à effectuer des tâches spécifiques.
De l'autre côté, on a donc cette technique des règles syntaxiques
données à la machine pour gagner en efficacité.
Je vais peut-être utiliser un mot pas approprié
quand on parle d'intelligence artificielle,
mais est-ce que dans un sens, vous lui apprenez entre guillemets le solfège ?
Oui, on peut dire ça.
Alors, pour poursuivre du coup sur les deux types d'intelligence artificielle
qu'on met dans notre système,
il y a donc d'une part les règles syntaxiques
qui décrivent ce qu'on s'attend à trouver dans la musique.
Et effectivement, là, on va apprendre le solfège,
c'est-à-dire que notre système, on va lui dire,
en début de portée, tu vas trouver une clé, une clé de sol,
une clé de fa, une clé d'hute selon la complexité des documents.
Et puis après, il va y avoir des mesures.
Là, ce sont des règles qu'on exprime nous-mêmes en tant qu'humains.
Malgré tout, au-delà de ces systèmes de règles,
les méthodes actuelles d'apprentissage artificiel
qui sont basées sur le deep learning,
les réseaux de neurones profonds,
ceux qui sont un petit peu comme des boîtes noires,
on va les entraîner à reconnaître des éléments
qui sont toujours pareils dans notre partition.
Par exemple, les têtes de notes,
les noirs ou les blanches dans les partitions,
un point noir ou une tête de note blanche, une ronde,
c'est quelque chose qu'un réseau de neurones,
un système d'intelligence artificielle peut tout à fait reconnaître.
Là, on ne lui apprend pas le solfège,
mais on lui a montré à notre système tout un tas de partitions
sur lesquelles on lui a dit
là, là et là, il y a des têtes de notes noires
ou là, là et là, il y a des clés de sol
ou là, là et là, il y a des clés de fa.
Et notre système a été entraîné
à reconnaître des symboles isolés dans les partitions.
Peut-être une question un peu poussée,
mais je m'aurais bien resté sur ce concept d'apprentissage moins humain.
Quand j'apprends, j'apprends pas seulement à travers des exemples.
Pour moi, apprendre est une chose plus complexe
qui passe aussi à travers les exemples.
Et les seuls moyens qu'on a pour apprendre
un intelligence artificielle à un ordinateur à faire quelque chose,
c'est de lui montrer des exemples ou des règles
où il y a aussi d'autres façons.
Là où l'apprentissage humain passe aussi par l'expérience, peut-être.
C'est ça, ouais.
Il y a plusieurs familles d'algorithmes d'intelligence artificielle.
Il y a ceux qui apprennent à base de règles.
Je dirais les anciennes versions.
Les récents qui apprennent à base d'exemples étiquetés.
C'est-à-dire qu'il suffit pas de montrer une photo de chat à un algorithme
pour qu'il puisse dire « oh tiens, un chat ».
Non, il faut lui montrer une photo de chat et lui dire « ça, c'est un chat ».
Il ne faut pas lui montrer une photo, il faut lui en montrer des millions.
Il faut lui montrer des millions de photos de chat en lui disant « ça, c'est un chat ».
Et une fois qu'on lui a montré plein de photos de chat
et qu'on lui a aussi montré des photos de chien
en lui disant « ça, c'est un chien ».
Si on lui montre une autre photo qu'il n'a jamais vue,
s'il l'a appris, il peut dire « c'est un chat » ou « c'est un chien ».
Alors est-ce qu'il y a d'autres manières d'entraîner les intelligences artificielles
que de lui montrer des exemples ou de lui donner des règles ?
Oui, ça existe.
C'est ce qu'on appelle l'apprentissage non-supervisé.
C'est-à-dire le fait d'apprendre aux algorithmes à apprendre tout seul.
Par exemple, on montre plein de photos de chat à un algorithme
et on ne lui dit pas que c'est un chat.
Mais on utilise six algorithmes différents.
On leur dit « à ton avis, c'est quoi ? »
Il y en a peut-être quatre qui sont à peu près bien entraînés
qui vont dire « c'est un chat ».
Il y en a deux qui vont dire « c'est un canard ».
On fait un vote à la majorité.
La plupart des algorithmes pensent que c'est un chat.
Donc, OK, on va dire « c'est un chat ».
Et l'algorithme de lui-même fait la moyenne de ce qu'on lui a répondu les autres
pour dire « les autres pensent que c'est un chat ».
OK, je vais apprendre que c'est un chat parce que ça doit être un chat.
Et donc, c'est une manière d'entraîner un algorithme
sans lui avoir dit « cette chose-là, c'est un chat ».
Il l'a deviné lui-même en demandant à d'autres algorithmes
et en faisant la moyenne.
Historiquement, on est passé de apprendre aux machines des règles,
apprendre aux machines des exemples à noter, comme on disait,
à possiblement, dans le futur, la machine qui apprend tout seul.
Alors, elle ne pourra jamais apprendre toute seule
puisque dans l'exemple que je vous ai donné,
pour prendre la décision de « c'est un chat », vous avez vu, j'ai dit
« elle va demander à six autres algorithmes de donner leur avis ».
Donc, elle n'apprend pas toute seule, toute seule.
Je voudrais nuancer un petit peu cet aspect historique.
Règles et exemples à noter parce qu'en fait, au début, les deux cohabitaient.
Les règles et les représentations statistiques de données.
Et puis après, on est passé aux algorithmes basés sur des réseaux de neurones
qui, eux, nécessitent de l'apprentissage supervisé.
Et puis après, notre but, c'est effectivement d'aller vers de l'apprentissage
avec peu de données ou de l'apprentissage faiblement supervisé.
Les faits que les machines apprennent
et que nous cherchons maintenant des moyens de les faire apprendre
à partir des résultats d'autres algorithmes est fascinant.
Mais on révie.
Insiste aussi sur le fait que la plupart des méthodes
sont basées sur des données.
Et la plus grande usine au monde des données, c'est Internet.
On en parle de plus en plus, c'est vrai.
Mais l'une des choses qui a déclenché cette révolution des lias,
c'est le fait qu'à aujourd'hui, chacun et chacune d'entre nous,
dans nos activités quotidiennes,
toi, si t'écoutes AZERTY en ces moments sur une plateforme
et pas pour les ondes, on génère des données.
Quand vous voyez un texte de chatGPT
ou une image de Mid-journey,
vous devez vous dire que peut-être vous avez vous-même
contribué à la création de cette image.
Mais cela crée aussi des problèmes.
Premièrement, si nous croyons de données
et qu'OpenAI crée des modèles et ils gagnent de l'argent avec,
n'est-ce pas que nous ne devrions pas, d'une manière ou d'une autre,
recevoir en partie des fruits de notre travail ?
Et deuxièmement, ces données doivent être annotées.
C'est-à-dire qu'il faut savoir si sur une image d'animal,
par exemple, il y a un chat, un chien ou autre.
Il s'agit là d'un travail fastidieux et chronophage
de faire de ces annotations.
Et qui doit s'en charger ?
Or récemment, les magazines Time a révélé
que OpenAI avait fait appel à des travailleurs et travailleuses
Kenyans pour vérifier les données,
et les payant moins de 2 dollars l'heure.
Il est donc faux dépensé qu'il y a un ordinateur qui apprend tout seul,
car elle s'appuie sur une quantité incroyable de travail humain,
souvent peu ou pas rémunérée, sous la forme des données annotées.
Bon, ici c'est pendant qu'on parle de musique.
Et il est un peu plus difficile de annoter une partition musicale
qui est une image des chiens et des chats.
Il faut un minimum de connaissances de musique.
Et je me sens de coup de demander Aurélie,
comment ils ont abordé les sujets de l'annotation de données,
et s'ils ont un armé de musiciens qui leur annotent les partitions ?
Oui, il existe tout un tas de chercheurs dans le monde entier
qui travaillent sur la reconnaissance d'images de partitions musicales.
Et donc il existe des bases de données qui sont disponibles,
des bases de données notamment de symboles musicaux,
donc des chercheurs qui ont annoté effectivement
des pages dans lesquelles ils ont à noter
mille clés de sol, mille clés de fa, des milliers de têtes noires.
Et ça, ça permet d'entraîner les systèmes à base de raison de neurones
qui vont nous localiser nos symboles musicaux dans les portées.
C'est là où, malgré tout, les approches à base de règles sont intéressantes aussi
parce que la règle qui dit une portée s'incline les unes en dessous des autres,
j'ai pas besoin d'exemples à noter pour dire ça, d'accord ?
Mais on est un petit peu des ovnis à l'équipe Shadoc de l'IRISA à Rennes
parce qu'on fait partie des rares équipes à utiliser aussi les règles,
c'est d'ailleurs notre originalité,
puisqu'on cherche à coupler des règles qui décrivent le contenu
avec des systèmes de reconnaissance.
Le gros avantage des règles, c'est qu'on n'a pas besoin de donner à noter.
Et pourquoi, d'après vous, vous êtes des ovnis à utiliser cette méthode-là ?
Pourquoi c'est pas une méthode démocratisée ?
Eh bien parce que le deep learning marche bien dans 95% des cas.
Nous, on est là pour faire de la recherche,
c'est-à-dire essayer de pousser un petit peu les connaissances
sur des problèmes plus compliqués.
La reconnaissance d'écriture dans des registres anciens,
eh ben malheureusement, on n'a pas beaucoup de données à noter sous la main.
C'est-à-dire qu'autant Google, pour entraîner ses modèles,
des images de chats, il en a à l'appel,
il a des quantités immenses de données,
autant des registres anciens avec la transcription
juste à côté de ce qu'est-ce qui est écrit à cet endroit-là,
eh ben il n'y en a pas beaucoup.
Donc, comment on fait lorsqu'on a peu de données à noter sur un domaine précis ?
C'est plus compliqué d'entraîner des gros réseaux de neurones.
Donc, eh bien c'est notre travail de chercheur
d'essayer de trouver des alternatives.
Maintenant, on sait comment apprendre à lire.
On sait qu'elle dispose de bases de données solides et à noter,
mais est-ce que tout cela est suffisant
pour faire confiance au système de reconnaissance de collapse score à 100% ?
Comment la machine nous signale sa certitude ?
Est-ce qu'elle affiche un certain degré de certitude
sur une base de probabilité,
ou est-ce qu'elle procède d'une autre façon ?
C'est possible de faire des systèmes qui prédisent avec un degré de confiance,
et puis on accorde ou pas de l'importance à ce degré de confiance.
Dans notre cas, à partir du moment où notre système nous dit
sur cette page-là j'ai trouvé des notes blanches ici, ici et ici,
ben on prend et après on voit si c'est compatible avec nos règles
qui nous disent qu'une blanche,
il faut quand même qu'elle soit à peu près sur une mesure
et pas n'importe où dans la page.
C'est ce qui nous permet de prendre en compte la sortie.
Mais c'est vrai que quand un système boîte noire nous dit
« je pense que c'est un chat »,
ben tu penses t'en es sûr, tu penses à 80%,
et c'est là où s'ils pensent à 50%,
alors que nous bien sûr c'est un chat,
on se dit mais pourquoi il n'est sûr qu'à 50% ?
Tout ça pour nuancer la probabilité qui est sortie.
Heureusement, on peut faire des systèmes qui nous indiquent
avec quelle confiance ils pensent qu'ils sont sûrs de leur sortie,
mais ça reste malgré tout une boîte noire,
donc on ne sait pas trop pourquoi elles pensent avec cette probabilité-là.
Les OMR actuelles du commerce,
c'est-à-dire les systèmes actuels dans le commerce
qui sont capables de lire les partitions musicales,
font encore pas mal d'erreurs,
notamment sur de la partition ancienne,
ce qui fait que je ne sais pas si ça vous est déjà arrivé
de prendre une partition et puis de vouloir la scanner
pour avoir le fichier MIDI qui va avec,
ben en fait quand on fait ça,
souvent il y a quand même pas mal d'erreurs,
et ce qui fait que c'est quasiment aussi rapide
de tout retaper dans un logiciel de musique les notes une à une
plutôt que de chercher à corriger ce qu'a fait l'OMR du commerce.
Bon, nous notre but, c'est de faire mieux.
Malgré tout, il y a des fois quand la note est effacée
parce qu'on est sur un document ancien sur lequel il y a eu un trou,
on ne va pas pouvoir inventer si c'était un sol ou un si,
si c'était une croche ou si c'était une noire.
Et c'est l'intérêt de notre système d'intégrer des règles.
Par exemple, si on est dans une mesure qui doit avoir quatre temps
et qu'on a trouvé seulement trois noirs,
trois noirs, ça fait trois temps.
Donc là notre système peut lever une question et dire attention ici,
j'ai pas mon compte de temps.
Donc peut-être qu'il faudrait,
ça vaudrait le coup qu'un humain vienne jeter un œil ici
pour dire ce qui va pas.
Et donc c'est l'intérêt de notre système,
c'est qu'on est capable de lever des questions précises,
par exemple en fonction du nombre de temps dans la mesure,
pour dire à l'humain il faut que tu vérifies cette mesure-là
parce que nous on a trouvé quatre temps et demi,
alors qu'on s'attend à en trouver quatre seulement.
Et donc notre but c'est de limiter l'interaction utilisateur
en lui ciblant les points sur lesquels il doit intervenir.
Il y a une chose qui m'a fait tiquer dans cette discussion.
Alex a demandé si on pouvait faire confiance à la machine.
Aurélie, à juste titre, a répondu en me parlant du cas
où la machine prédit une probabilité plus faible
et demande ensuite à l'humain de confirmer les résultats.
Or quand moi je suis devant de chat GPT et je lui pose une question,
je ne vois aucune probabilité associée au tasse qu'il écrit.
Cela signifie pour moi que je n'ai pas fait confiance à chat GPT.
Bon évidemment le discours est plus complexe,
mais cette discussion me rappelle certains travaux de Père Paolo Benanti,
qui en plus d'être un frère franciscain,
est également l'un des plus grands experts de l'éthique de l'IA
et un membre de la commission d'experts de l'Union européenne.
Bon, le Père Benanti soutient que pour avoir une bonne IA dans le futur,
il est nécessaire qu'elle y a communique avec nous.
Ça veut dire qu'elle nous pose des questions, qu'elle établisse un dialogue.
Par exemple, en soulignant toujours les dégradifiabilités de notre travail,
c'est-à-dire nous demandant toujours notre avis.
Or cette incertitude n'est mais semble pas présente
dans la majorité des applications que l'on trouve normalement d'intelligence artificielle.
Mais pour comprendre un peu comment on est arrivé là,
il faut voir aussi d'où vient l'intelligence artificielle.
Car aucune technologie n'est née dans les vides soudainement,
et souvent l'histoire d'une technologie nous aide à comprendre comment on l'utilise aujourd'hui.
Et voyons alors ce qu'Aurelie nous dit sur l'origine de l'IA.
Ça dépend ce qu'on entend par intelligence artificielle.
Si l'intelligence artificielle c'est simplement faire faire par un ordinateur
quelque chose qu'aurait pu penser un humain,
on remonte l'intelligence artificielle à peu près à l'époque des débuts de l'informatique dans les années 1950.
Il y a 15-20 ans, se sont développés vraiment les modèles à base de réseaux de neurones,
c'est-à-dire qui imitent les neurones qu'on a dans notre cerveau pour faire des prédictions.
Le problème des réseaux de neurones c'est effectivement qu'ils ont besoin de grandes quantités de données,
mais aussi de calculateurs puissants pour s'entraîner.
Et c'est vrai que ces 15-20 dernières années,
on a l'essor des modèles à base de réseaux de neurones profonds,
parce qu'on a des données à noter et aussi parce qu'on a des systèmes, des GPU qui peuvent entraîner ces réseaux de neurones.
Il me semble, je me permets, il me semble que les maths en soi, c'est même les années 80 ou même avant,
les perceptrons, des choses comme ça.
Le perceptron ça date quasiment du début des ordinateurs,
enfin vers les années 1960, on commence déjà à mettre en place la notion de neurones.
Et donc ça fait une vingtaine d'années qu'on a pu entraîner des réseaux de neurones plus complexes.
Effectivement, il y a eu ce côté que pour moi ça m'avait un peu interpellé,
ce fait que ces maths sont connus depuis les années 50.
C'est juste qu'on n'avait pas de données et on n'avait pas de puissance de calcul.
Et les moments où on a eu les deux, bam, la révolution est arrivée.
Mais en vrai, c'est des choses que les premières études, oui, c'est très très vieux.
Et l'idée d'imiter les neurones humains est une très belle idée.
Ici, on est sur un projet de recherche publique.
Pourtant, quand vous entendez parler d'IA, c'était souvent les mêmes qui reviennent.
OpenAI, Google, Microsoft et j'en passe.
Alors non, la recherche publique n'a pas ignoré le sujet.
Mais on peut quand même se demander comment naissent ce genre de projet de recherche.
Alors, on est sur un appel à projet de l'Agence nationale de la recherche.
Tous les ans, l'Agence nationale de la recherche ouvre un appel qui s'appelle appel à projet générique
et qui permet de financer des projets de recherche portés par des chercheurs.
En général, l'ANR favorise les projets pluridisciplinaires qui permettent de faire travailler entre elles
plusieurs équipes de recherche sur des thématiques qui peuvent aller ensemble.
Et donc, pour monter ce genre de projet, l'initiative part généralement d'un porteur de projet.
Donc là, en l'occurrence, c'est un collègue du CNAM
qui a vu la possibilité de faire des travaux sur les documents du corpus de Camille Saint-Saens
qui était à la BNF et qui s'est entouré à la fois de spécialistes en musique
et puis à la fois en l'occurrence nous, l'équipe Shadok, sur la reconnaissance de documents entiers.
Est-ce qu'il y aurait une, entre guillemets, suite au projet ?
C'est-à-dire, est-ce qu'on pourrait imaginer que demain le projet prenne une direction générative ?
Par exemple, on pourrait se servir de la base de Collapscore pour générer des partitions
dans le style de ce que Collapscore a récupéré ou...
Je ne sais pas, est-ce qu'il y a une suite éventuelle au projet tel qu'il est ?
Alors, l'aspect génératif, c'est un autre problème.
Et c'est pas du tout le même métier, même si on pourrait envisager que des données extraites
à partir d'images puissent servir à générer, puissent servir de base de données de départ.
Mais hormis les données, il n'y a pas vraiment de logique à vouloir générer forcément des partitions.
La suite du projet, je pense, ce serait de s'attaquer aux partitions manuscrites.
Puisque là, les partitions qu'on traite, ce sont des partitions qui ont été gravées,
des partitions, voilà, je disais, début XXème siècle.
Donc même si elles sont abîmées, elles sont quand même normées dans la manière dont elles sont écrites.
Les manuscrits, eh bien, déjà, il faut réussir à déchiffrer l'aspect manuscrit.
Chaque musicien a sa manière de décrire sa noir, sa blanche et son silence.
Et ça complique la reconnaissance.
Vous dites que vous essayez de faire mieux que les outils actuels dans le commerce.
C'est que j'imagine que vous les aviez un petit peu regardés.
Est-ce que quand on se lance dans la conception d'un tel projet,
on regarde un peu ce qui se fait chez les autres, ce qui existe déjà ?
Alors, l'objectif de travaux de recherche, nécessairement, c'est de faire avancer
ce qu'il y a, les logiciels qu'on peut trouver dans le commerce.
Et si on soumet un projet de recherche, c'est parce qu'on sait que ce qu'il y a dans le commerce ne suffit pas.
Ça fait partie. On en parlait tout à l'heure du montage du projet ANR.
Lorsque les collègues de la BNF se sont dit, c'est intéressant, nous on a un corpus 500.
La première chose qu'ils ont fait, c'est qu'est-ce qui existe et qui nous permettrait de transcrire nos partitions ?
Et là, ils se sont rendus compte que sur de la partition ancienne,
eh bien, en fait, on n'avait pas exactement ce qui faisait l'affaire.
D'où le montage du projet de recherche.
Est-ce que, du coup, la recherche à l'intelligence artificielle marche effectivement comme les autres champs disciplinaires ?
Dans les sens, pendant l'entretien, là, on a dit plusieurs fois, il faut faire mieux, il faut essayer de faire mieux.
Est-ce que, du coup, la recherche à l'intelligence artificielle,
qu'il n'y a pas, par exemple, ailleurs, au moins pas si important,
est très centrée autour de cette sorte de course de compétition, un peu ?
Parce que ça, ce n'est pas dans d'autres domaines de recherche, on n'a pas trop ça.
On a plus le développement de connaissances, etc.
Dans mon domaine de recherche, l'objectif, c'est de reconnaître ce qu'il y a sur des documents.
Donc, bien sûr, notre objectif, c'est de le reconnaître le mieux possible.
Et je travaille en recherche, donc mon objectif, c'est d'apporter une réponse qui soit plus avancée que ce qu'on peut trouver.
C'est l'objectif de la recherche, malgré tout.
Ou alors, si ce n'est pas quelque chose de plus avancé, en tout cas, c'est de s'attaquer à des problèmes plus compliqués.
Par exemple, le fait de travailler sur du document ancien, c'est un problème plus compliqué
que ne peuvent pas encore gérer les systèmes grand public actuel.
Parce qu'il y a une chose qui m'avait marqué, c'était toujours ce côté de dire qu'il y a des tâches bien définies.
Par exemple, la reconnaissance des partitions et qui, sur Internet, on peut trouver les résultats des autres aussi, effectivement.
Et il y a un peu ce côté de dire que mon travail marche si je suis meilleur que les autres.
Et ça, dans d'autres domaines de recherche, je ne l'avais jamais vu.
Autant formaliser vraiment, de dire qu'il faut tester sur ces données, ces tâches-là.
Si tu arrives à être mieux, t'es bon.
Oui, ça fait partie de manière d'évaluer notre travail de reconnaissance de documents.
C'est-à-dire qu'on a fréquemment des compétitions.
Et pas seulement depuis les réseaux de neurones, il y a dix ans, depuis longtemps.
Il y a des compétitions de reconnaissance de documents.
Par exemple, apprendre à localiser les lignes dans une image de document.
On va faire une compétition pour savoir quelle est la méthode qui reconnaît le mieux les lignes de texte.
Mais en fait, c'est ce qui sert à faire avancer la recherche.
Parce que si on a une méthode qui reconnaît pas mal, mais que celle du voisin reconnaît mieux,
ben autant partir sur la méthode qui reconnaît le mieux.
Ça sert à rien de s'handicaper avec une méthode qui reconnaît moyennement.
Ça fait maintenant un moment qu'on parle d'IA avec Aurélie.
Mais on en parle surtout en tant qu'objet de recherche.
Et quelque part, j'ai l'impression qu'on n'a pas assez interrogé l'intelligence artificielle en tant qu'outil.
Ben oui, la majeure partie du temps, quand on parle d'IA au quotidien,
on parle de quelque chose de pratique, de facilitant dans la vie de tous les jours.
Alors je lui pose une question un peu méta.
Est-ce que l'IA, en plus d'être un objet de recherche, peut-être un outil au service de la recherche ?
Pour moi, l'intelligence artificielle est déjà un outil de mes recherches.
Effectivement, on a plusieurs manières d'aborder l'intelligence artificielle.
J'ai par exemple un doctorant qui va soutenir très prochainement,
qui a travaillé à produire un système de réseau de neurones qui soit capable de s'entraîner avec peu de données.
Et dans son cas, la production du réseau de neurones était un objet de ses recherches.
Dans le cas de mes recherches sur la reconnaissance de partition musicale,
je vois plus le réseau de neurones comme un outil pour m'aider à décrire mon système.
Mon système qui est en soi un objet de reconnaissance artistique.
Mon système qui est en soi un système d'intelligence artificielle.
Oui, pour toi c'est et un outil et l'objet.
Voilà, pour moi c'est et un outil et un objet.
Je pense que malgré tout, dans un champ disciplinaire comme les humanités numériques,
les travaux qu'on fait nous en intelligence artificielle peuvent devenir un outil fantastique
pour faire de l'analyse de corpus à large échelle.
On en parlait tout à l'heure pour les collègues musicologues qui vont pouvoir détecter des patternes avec ce qu'on reconnaît.
Pour eux, l'intelligence artificielle va être un outil pour découvrir de nouvelles choses, de nouveaux motifs, etc.
On aurait pu échanger encore longtemps sur le sujet de l'intelligence artificielle dans la recherche,
tant il y a à dire.
Néanmoins, on est très heureux d'avoir pu échanger avec Aurélie Lemaitre, chercheuse sur le projet Collapscore.
Un grand merci à elle pour nous avoir accordé cet entretien.
Si cet épisode vous a plu et que vous l'écoutez en podcast, n'hésitez pas à nous laisser un commentaire.
On vous rappelle que toutes nos précédentes émissions sont disponibles sur toutes les plateformes de podcast.
A bientôt sur Silab ou en podcast pour un nouvel épisode d'Azerty !
J'aime bien venir ici, parce que le wifi va super vite. Il n'y a pas beaucoup d'endroits comme ça qui offre une connexion fibre avec une vitesse gigabite. Sous-titres générés avec IA (Whisper), editing et proofing par Guglielmo Fernandez Garcia.
Créateurs et invités

