Le lien entre dispositif et format de l’écoute
Une pratique experte d'écoute et d'analyse

Maÿlis Dupont

Que voit-on lorsqu’on regarde (une œuvre d’art, un tableau de bord, un paysage familier, etc.) ? Qu’entend-on lorsqu’on écoute (de la musique, un discours politique, etc.) ? Si ces questions sont largement inexplorées, la première a connu au moins deux réponses brillantes, qui de l’historien, qui du sociologue, invitant à penser que, de même que la vision peut être dite historiquement, socialement, techniquement déterminée, de la même façon l’écoute. On connaît le plus souvent le travail ambitieux et minutieux à la fois de Michael Baxandall, visant à reconstituer « l’œil spirituel et moral » d’une époque, L’Œil du Quattrocento [1]. Les travaux de Charles Goodwin défrichent le même espace, celui d’une socio-histoire de nos perceptions, et aident à penser la vision comme une « activité située », « médiatisée par des technologies », inscrite dans des « contextes professionnels complexes » [2]. Relativement à l’écoute, l’écoute de musique notamment, on ne sait pas grand-chose [3]. Qu’est-ce qu’un auditeur entend lorsqu’il écoute une œuvre ? Comment interprète-t-il ce qu’il entend ? Les travaux précédents suffisent à nourrir l’intuition que l’écoute varie en fonction des époques et des lieux, sans cependant donner de réponses à ces questions. Dans cet article, je travaillerai cette intuition, en rendant compte d’une pratique d’écoute singulière, experte, que j’ai eu l’occasion d’observer : l’écoute des membres de l’équipe Musique et Informatique de Marseille (MIM, dans la suite de ce texte), des compositeurs et/ou professeurs de musique, pour la plupart.

Je désigne par « format de l’écoute » la façon dont l’écoute s’accomplit dans un cadre donné. Les modalités d’action de l’auditeur dans telle ou telle situation (interrompre, répéter, modifier la balance sonore par exemple), les règles de l’écoute, les savoirs ou représentations engagés, les critères mis en œuvre pour juger ou simplement organiser l’écoute sont quelques-uns des traits caractéristiques d’une écoute dans une situation donnée, que résume ce terme de « format ». Prenons l’écoute en classe. Des règles évidentes, à l’occasion explicitées dans ce cadre d’apprentissage qu’est l’école, sous-tendent le déroulement de l’action, réglementent les tours d’action (qui écoute, qui parle), les modalités de sortie de l’action (lever le doigt, attendre l’interrogation de l’enseignant), la finalité ou les critères propres à ce type d’action (repérer une consigne, une question ; distinguer des mots clés, une information ; etc.). L’écoute musicale engage pareillement des savoirs et rend visibles des règles propres à cette situation. Et encore : d’une situation d’écoute musicale à une autre, savoirs et règles peuvent varier. Finalité, critères et modalités de sortie de l’action diffèrent de l’écoute d’une musique en concert à l’écoute d’une musique sur les bornes d’un magasin spécialisé, par exemple. Organisation de l’écoute et critères sont susceptibles de varier de l’écoute d’une œuvre dite « classique » à l’écoute d’un morceau de jazz ou d’une chanson de variétés, etc. L’enquête que l’on amorce ici vise à rendre apparent le format de nos écoutes [4].

Je présenterai, dans un premier temps, le terrain réalisé : l’observation des séances d’écoute des membres du MIM, sur une pièce de Franco Donatoni, Etwas ruhiger im Ausdruck (1967). Et je justifierai le choix de ce terrain dans l’optique d’une enquête sur l’écoute. Pour le dire en quelques mots, c’est le choix d’une communauté d’experts, pratiquant l’écoute collective et la verbalisation de l’écoute. Dans un deuxième temps, je poserai la question de l’incidence du dispositif d’écoute sur le format de l’écoute : sur ce qui est écouté, les règles de l’écoute, le rôle ou la place dévolu(e) aux écoutes dans l’économie générale des séances, etc. C’est indirectement que je ferai apparaître le ou les formats de l’écoute dans cette situation, en relevant les distorsions qu’un dispositif spécifique, le logiciel de lecture et d’annotation jUST développé par l’Ircam, introduit dans l’action / l’écoute des auditeurs. Le caractère nouveau de ce dispositif pour les acteurs eux-mêmes fait de la situation l’équivalent écologique des « breaching experiments » mises au point par Harold Garfinkel [5]. Rompant le cours ordinaire de l’action, de telles expériences mettent au jour les attendus ou les implicites de l’action. Il en est de même ici, où le relevé systématique des perturbations liées à l’usage du logiciel jUST permet de documenter le format habituel (attendu) et le format actuel (ajusté aux possibilités du nouveau dispositif) de l’écoute des sujets.

Observer l’écoute

Quoique l’on veuille bien admettre que notre manière d’écouter – de discriminer les sons, de les organiser, de les qualifier ou de leur donner sens – n’est pas universelle, fonder cette intuition est un point délicat. Peut-on raisonnablement se fixer d’observer des écoutes ? Peut-on simplement espérer trouver des traces de l’écoute, de ce que l’on écoute, de la manière dont on écoute à travers les époques, les lieux, les groupes ? Se pose à ce stade la question de l’enquête, des moyens d’une enquête sur l’écoute.

Si la difficulté est réelle, liée au caractère guère visible ni audible de l’action d’écouter, il est malgré tout des travaux pour prouver qu’elle n’est pas insurmontable. Le travail de Rémy Campos et Nicolas Donin sur les guides d’écoute [6], celui de Sophie Maisonneuve sur les comptes-rendus d’activités de sociétés d’amateurs [7], celui de Jonathan Sterne sur les premiers outillages de l’écoute (le stéthoscope de R. T. H. Laennec, le « phonautographe à oreille » de A. G. Bell et C. Blake, …) [8] sont de ceux-là. Plus proche de mon terrain et des méthodes ethnographiques d’enquête, la recherche en cours de Talia Bachir sur les jurys de concours pointe un de ces lieux privilégiés où l’écoute s’accompagne, sans qu’il soit besoin de les susciter, de verbalisations. La pratique que j’ai pu observer, pratique d’écoute en groupe, objet d’échanges langagiers, présente le même type d’avantages : de façon inhérente à l’activité, l’écoute se trouve doublée d’une explicitation de l’écoute (de ce que l’on écoute, des critères de l’écoute, etc.). Je présente ci-dessous, en détails, le terrain.

Présentation du terrain

La communauté observée, l’équipe Musique et Informatique de Marseille, compte une dizaine de membres. Entre autres activités, ces membres se réunissent à intervalles de temps réguliers pour écouter et réaliser, sur la base de leurs écoutes, une analyse partagée d’une pièce qu’ils ont choisie. Ces analyses donnent le plus souvent lieu à une publication multimédia. Elles alimentent aussi, dans bien des cas, leur propre pratique créatrice (dans le domaine de la musique, de la peinture, de la vidéo, …).

Une communauté restreinte (seuls trois ou quatre membres sont présents chaque fois), une pièce déjà citée de Franco Donatoni (Etwas ruhiger im Ausdruck, pour flûte, clarinette, violon, violoncelle et piano), une pratique programmée et limitée dans le temps (les séances d’écoute et d’analyse de la pièce ont lieu sur l’année 2007-2008), un lieu (un studio au sein de la Cité de la Musique à Marseille) et un dispositif d’écoute précis font donc l’identité de ce terrain. Il est encore un « cadre » au sens goffmanien [9], sur lequel les acteurs s’accordent. Engagés dans une activité commune, ils admettent la définition et de sa fin et de ses moyens : aboutir à une analyse partagée, par le seul biais d’écoutes et d’échanges réitérés sur la pièce. Se trouve ainsi proscrit le recours à la partition, voire aux notes d’intention du compositeur, dans leur activité. L’objet sonore est ce qu’il y a à analyser et l’oreille, l’outil principal pour ce faire.

Il est un autre outil que l’on doit cependant mentionner, également l’objet d’un consensus de principe. Il s’agit de la grille des Unités Sémiotiques Temporelles (UST). Outillage intellectuel élaboré au MIM, cette grille compte une vingtaine d’unités, vocabulaire de base devant permettre de décrire la plus grande part, sinon la totalité des œuvres musicales. Une règle d’exclusivité s’ajoute à ce vocabulaire, un extrait ne pouvant jamais relever que d’une seule UST. (Une œuvre, de ce fait, se présente comme une succession stricte d’UST.) Une unité se définit par des caractéristiques morphologiques et des caractéristiques sémantiques, chacune se trouvant par ailleurs illustrée par des exemples types, tirés d’œuvres variées. L'UST "stationnaire", par exemple, est une unité "non délimitée dans le temps, à déroulement temporel assez lent", qui "présente une régularité ou une permanence temporelle au niveau global et peut comprendre, à un autre niveau, des éléments aléatoires" (description morphologique). Elle "donne l'impression de faire du sur place", un "sentiment de continuité". "Même lorsqu'il se passe constamment quelque chose, ça n'avance pas" (description sémantique). Pendant d’un outillage technique, cet outillage intellectuel a, de manière plus évidente encore, des incidences sur l’action (l’accomplissement et le produit de l’action). Sans en faire l’objet d’une attention spécifique, je reviendrai sur ce point à plusieurs occasions.

Reste à présenter l’outillage technique, ou le dispositif d’écoute, utilisé par les acteurs. L'application jUST (cf. Introduction au dossier) est installée sur un ordinateur relié à des enceintes. Cette application permet la lecture de la pièce (enregistrée sous la forme d’un fichier .wav), sa segmentation en autant d’unités temporelles que nécessaire, ainsi que l’ajout d’annotations par segments. Le document ci-dessous montre l’interface de la première version du logiciel (version 0.0.1), utilisée dans les séances observées. Au centre de l’interface, un player constitué de la touche play/pause. Au-dessus, trois bandeaux permettant une navigation spécifique. Le bandeau supérieur fait apparaître le timecode au fur et à mesure du déroulement de la pièce. La fonction « play » à gauche de ce bandeau lance la lecture depuis le début de la pièce. Le bandeau central fait apparaître les segmentations déjà opérées (la couleur de chaque segment est celle de l’UST repérée, cf. infra). La fonction « play » associée lance cette fois la lecture depuis le début du segment sélectionné. Le bandeau inférieur fait apparaître la forme d’onde de la pièce. En déplaçant les curseurs placés de part et d’autre de ce bandeau, on peut sélectionner un passage dans la pièce. Seul ce passage apparaît dans l’encadré immédiatement inférieur. L’activation de la fonction « play » associée au troisième bandeau permet d’écouter depuis le début du passage sélectionné. Quelque soit le lecteur utilisé, la fonction « ajouter » (+) segmente l’extrait écouté à l’endroit où se trouve le curseur. La fonction « retrancher » (-) supprime, quant à elle, la borne terminale de l’extrait sélectionné. L’interface, pour le reste, est assez transparente. L’espace inférieur est celui des annotations. L’espace de droite présente la liste des différentes UST (une couleur est associée à chacune). L’espace de gauche, les UST repérées, dans l’ordre de leur apparition dans la pièce.

L’usage de ce dispositif, que les auditeurs découvrent lors de la première séance consacrée à la pièce de Donatoni, connaît quelques variantes : l’ordinateur, dans un premier temps relié à des enceintes de poche, sera ensuite raccordé aux enceintes d’une chaîne hi-fi ; l’interface, projetée pour commencer sur un écran de fortune, sera rapidement cachée, réservée au regard de celui qui la manipule. Dans sa forme stabilisée (enceintes de qualité, interface cachée), ce dispositif peut être comparé au dispositif plus ancien et beaucoup plus familier, utilisé par nos acteurs : une chaîne hi-fi (pour l’écoute), un papier et un crayon (pour l’analyse).

Cette présentation faite, il est temps de discuter du choix de ce terrain, d’indiquer notamment de quelle façon il s’inscrit dans la perspective générale d’une enquête sur les formats d’écoute.


L'interface de jUST

De la plus ou moins grande singularité d’une pratique

Si le défi de toute enquête sur l’écoute tient à son manque de visibilité, il faut compter comme l’un de ses objets privilégiés la pratique que j’ai pu observer. Trois caractéristiques de la situation font que l’écoute y est plus visible qu’à l’accoutumée. La première et la plus évidente : l’écoute se double, dans ce cadre, d’une verbalisation de l’écoute (de ce qui est écouté, des règles de l’écoute, des critères mis en œuvre pour juger, etc.). De telles situations, écologiques, sont rares. On a précédemment mentionné le cas des jurys de concours. Dans l’un et l’autre cas, une parole assez systématique se déploie pour rendre compte d’une écoute, soit concrètement : pour qualifier ce qui est écouté et convaincre autrui de la justesse de la qualification avancée. D’autres situations, qui peuvent leur être apparentées, ne donnent pas lieu à un tel déploiement de justifications, lié, dans le cas des jurys de concours comme dans celui que j’ai observé, à la nécessité d’aboutir à un jugement commun. Pensons aux forums d’auditeurs sur le net, aux tribunes de critiques de disques à la radio, voire à quelque cours d’analyse auditive ou à quelque répétition, occasions de qualifications plus ou moins systématiques et argumentées de ce qui est écouté.

Autre facteur qui rend l’écoute plus visible dans la situation observée : elle est comprise dans une chaîne d’actions. De l’écoute découlent d’autres actions, desquelles on peut induire, au moins partiellement, ce qui a fait l’objet de l’attention. La production de descriptions successives de la pièce notamment, au fil des séances (sous la forme d’autant de fichiers .xml édités par l’application), avant celle d’une analyse finale sous une forme multimédia, constitue une trace significative (même parcellaire) de ce qui a été écouté. Que l’on songe à d’autres situations, où l’écoute n’a d’autre finalité apparente que l’écoute (en concert, chez soi, dans des transports en commun), et l’on mesurera ce qu’apporte, pour celui qui l’observe, cette traduction explicite d’une écoute dans une autre action. C’est finalement parce qu’elle est outillée (et à proportion de la mobilisation de l’outillage) que l’écoute est plus visible, la manipulation du dispositif technique instant après instant livrant pareillement des informations sur ce qui est écouté, les déplacements de l’attention, l’organisation de l’écoute, etc.

Ces caractéristiques, associées au caractère bien délimité de la pratique, suffisent à justifier le choix de ce terrain. Elles ne permettent en aucun cas d’en gommer les limites. Une réserve générale vis-à-vis de la grande singularité de la pratique observée les résume assez bien. L’écoute des membres du MIM, écoute d’une communauté d’experts, mobilisant un outillage intellectuel et technique spécifique, aux fins d’une analyse, n’est certes pas représentative de la plupart de nos pratiques d’écoute, écoutes ordinaires (à domicile ou le temps d’un trajet), peu instrumentées (une radio, une chaîne hi-fi, un baladeur numérique), déconnectées de toute finalité apparente. Je voudrais discuter de ce point maintenant.

On peut opposer au choix de ce terrain l’ésotérisme de la pratique observée, celle d’une communauté restreinte et très spécialisée. Le travail de Jonathan Sterne déjà cité (cf. note n°3) invite cependant à penser que c’est au sein de telles communautés, expertes et plus ou moins fermées, que se développent des techniques, ou des formats d’écoute assez identifiables, jamais déconnectés cela étant d’une appréhension plus commune du sonore. Les pratiques d’écoute de telles communautés joueraient alors le rôle de révélateur d’une culture, d’une orientation générale (celle d’une époque, d’une société) vis-à-vis du sonore et/ou du musical. Ce dont Sterne fait la démonstration convaincante en se penchant sur les « techniques d’écoute » développées par les premiers usagers du stéthoscope au début du 19ème siècle ou par les opérateurs du télégraphe dans le courant du même siècle et leur diffusion au reste de la société [10].

Un autre point vient a priori contrebalancer la généralité de mes observations : l’écoute est dans ce cadre orientée vers une fin, l’analyse de la pièce. La distribution de l’attention, les critères de l’écoute, les unités écoutées, etc., en portent nécessairement la marque. On devra garder à l’esprit cette configuration particulière de l’écoute, comprise dans une chaîne d’actions encore une fois, si l’on veut bien juger des formats d’écoute observés. On notera cela étant que dans bien d’autres cas, sinon dans tous, l’écoute est orientée : que l’on songe à l’écoute du compositeur en studio, à l’écoute de l’interprète au travail, à celle de l’ingénieur du son, du critique musical, du DJ, de l’étudiant en formation, etc. Je dirais que la pratique que j’ai pu observer a pour spécificité d’être orientée vers une fin explicitée. L’outillage intellectuel mobilisé (les UST), s’il est très spécifique, présente de la même façon l’avantage d’être clair, explicite.

Reste l’outillage technique utilisé dans cette situation, outillage ad hoc comme les développements précédents l’ont montré, que l’on situera facilement malgré tout entre (au moins) deux dispositifs d’écoute familiers : la chaîne hi-fi d’une part, les interfaces d’écoute active d’autre part. La liste de traits suivante mettra en évidence ces airs de famille. Dans le cas observé, nous avons à faire à un dispositif fixe (comme il en est beaucoup d’autres), d’écoute partagée (versus individuelle comme dans le cas d’écoutes au casque), basé sur les mêmes modalités principales d’action que le lecteur CD (play, stop, jouer plus ou moins fort). Dans les deux cas (la chaîne hi-fi, le logiciel jUST), les mêmes axes principaux de manipulation : l’axe temporel et l’axe dynamique. L’interface de visualisation jUST est cependant plus riche que l’interface d’une chaîne hi-fi : en plus du timecode, elle présente notamment la forme d’onde de l’extrait écouté. S’ajoute dans jUST une interface d’action spécifique, pour la segmentation et l’annotation. S’il s’agit bien de nouvelles possibilités d’action, on reste loin de celles offertes par ce que l’on a précédemment appelé des « interfaces d’écoute active » (interface du compositeur, de l’ingénieur du son, du compositeur amateur, du DJ, …), telles que la possibilité d’intervenir sur la vitesse de jeu, sur les fréquences, sur l’équilibre entre les sources sonores, etc.

Ce dispositif re-situé par rapport à des dispositifs familiers, il est plus facile d’évaluer la spécificité de l’activité suivie. Il n’est jamais que des situations d’écoute singulières. Ce qui importe est d’interroger les liens qu’une situation entretient avec d’autres, ou sa proximité à d’autres. Apparaissent plus clairement, à ce stade, les différents enjeux de ce terrain :

  1. entamer l’enquête sur les formats d’écoute (en se penchant sur l’un d’eux, puis un deuxième, etc.) ;
  2. questionner, sur un cas particulier, le lien entre dispositif et format de l’écoute ;
  3. expérimenter et valider des outils pour la recherche sur l’écoute : des concepts ou des types de questionnement, tout autant que des opérations pratiques ou un outillage technique.

Le lien entre dispositif et format de l’écoute

J’en viens aux résultats de ce terrain, en les organisant suivant cette problématique spécifique du lien entre dispositif et format de l’écoute. C’est en traitant de cette question que l’on fera apparaître les traits des écoutes observées. Dédoubler la question permet d’en préciser un peu les attendus. 1) On réfléchira globalement à ce que le recours à un dispositif technique précis (le logiciel jUST, pour le dire vite) fait à l’écoute : de quelle façon il contraint la tâche, ce qu’il rend possible, etc. On se demandera à cette fin quelles différences ce nouveau dispositif introduit dans la tâche (par rapport au dispositif antérieur – une chaîne hi-fi – utilisé par les acteurs). 2) On réfléchira également, prenant acte de l’accès différentiel des acteurs à ce dispositif (le logiciel jUST est manipulé par un seul), aux logiques d’écoute plurielles qu’un format général commun pourrait dissimuler.

On dispose, pour ce faire, du matériau d’enquête suivant :

  1. des notes d’observation prises au cours de chaque séance et complétées ensuite ;
  2. l’enregistrement audio des séances, enregistrement des échanges entre les différents acteurs et des extraits écoutés ;
  3. la description de la pièce (fichier .xml) telle qu’arrêtée au terme de chaque séance.

La pièce de Franco Donatoni a fait l’objet de trois séances d’écoute, d’une durée de trois à quatre heures chacune. La description obtenue au terme de la première séance (séance du 27 novembre 2007) est partielle : elle correspond aux six premières minutes de la pièce environ (cf. description 1.1). Cette description est reprise et achevée lors de la deuxième séance (9 janvier 2008 - cf. description 1.2). Lors d’une troisième séance (12 mars 2008), l’équipe décide d’éprouver la robustesse de l’analyse produite, en reprenant le travail depuis le début. Cela les amène à proposer une seconde description de l’ensemble, non plus en dix-neuf, mais en onze UST (cf. description 2). Cette double analyse n’est pas systématique. Les acteurs considéreront au final la seconde description comme une simplification de la première, avec cependant quelques divergences qui s'expliquent par l'existence d'un troisième temps de l'analyse (relecture a posteriori des différentes segmentations). Ils conserveront la première pour leur publication multimédia (cf. leur article dans ce même numéro).

Apparaissent ci-dessous les descriptions obtenues au terme des trois séances. Chacune prend la forme d'une barre,  présentant la succession des UST repérées. Le passage de la souris sur chaque segment d'une barre fait apparaître le nom de l’UST correspondante. Un player est associé à l’ensemble. Il permet d’écouter la pièce en gardant sous les yeux ces descriptions. Une UST peut également être écoutée en cliquant sur le segment correspondant.

Du lecteur CD au « petit logiciel qu’a fait l’Ircam » : un changement anodin ?

Le dispositif, familier des acteurs, que constituaient lecteur CD, amplificateur et enceintes est remplacé, à l’occasion de leur travail sur la pièce Etwas ruhiger im Ausdruck de Donatoni, par un nouveau, organisé autour du logiciel d’écoute, de segmentation et d’annotation jUST déjà présenté. Ce changement induit une redéfinition plus ou moins significative de leur activité, dont je vais maintenant rendre compte.

Des modifications de l’action liées au seul fait du changement

On relève des modifications dans l’action liées au seul fait du changement, d’autres liées aux caractéristiques du dispositif nouvellement introduit. La désorganisation d’une pratique auparavant réglée relève des premières. Elle induit un délai avant que se stabilise une « bonne » manière de faire : avant que les membres se fixent sur un usage non partagé du dispositif (l’interface sera manipulée par un seul et ne sera plus projetée sur un grand écran) et que celui qui se trouve délégué à cette tâche apprenne à en gérer au mieux les potentialités (les faiblesses). Qu’il s’agisse d’arrêter la lecture de la pièce, de supprimer une segmentation, voire de créer une nouvelle description, on observe des hiatus dans l’action (entre l’action attendue et l’action réalisée d’une part, entre le résultat projeté et le résultat observé d’autre part), symptomatiques de ce temps d’apprentissage et d’ajustement qui précède le retour à une pratique « normale » (au sens de Thomas Kuhn).

Autre point à signaler dans le même ordre d’idées : l’hybridation de pratiques, résultat d’une inertie dans les manières de faire ou d’écouter, qui survivent au dispositif qui les justifiait. Le réflexe « papier – crayon » typiquement, que périment les nouvelles potentialités du dispositif (la segmentation et l’annotation directement sur l’ordinateur), est l’illustration d’une telle inertie. La pratique observée n’est pas le simple produit d’une appropriation ou d’un usage du dispositif présent. Elle porte la marque de manières de faire antérieures. Autre illustration du même phénomène : le réflexe « timecodes ». Si ce type d’informations était au cœur de l’ancien dispositif, également disponibles pour tous les acteurs (via l’écran du lecteur CD) et susceptibles de ce fait d’organiser leurs échanges (chacun pouvant écouter et argumenter en se servant de ces index temporels), ce n’est plus le cas avec le nouveau dispositif. Seul celui qui manipule le logiciel a le défilement des timecodes sous les yeux. Symptôme, là encore, d’un ajustement imparfait au dispositif présent, les demandes récurrentes des acteurs relatives à cette information (du type : « C’est quel timecode, là ? »), demandes partiellement satisfaites par celui qui manipule l’interface et toujours avec quelque délai, remettent en fait en cause le bon déroulement de la pratique avec le nouveau dispositif.

Une adaptation significative, que l’on peut considérer comme acquise à la troisième séance, met rétrospectivement en lumière ce défaut initial d’ajustement des acteurs aux possibilités du dispositif. Alors que l’essentiel de leurs interventions au cours de l’écoute visait dans un premier temps à pallier le défaut d’informations sur les timecodes (« On en est à combien, là ? Et là ? etc. »), on observe par la suite, de manière récurrente, un nouveau type d’interventions, qui consiste à pointer, au fur et à mesure de l’écoute, les moments significatifs entendus : « Là, peut-être qu’on plafonne », « Là, ça y est », « On a basculé, là », « On prend de la vitesse, là », etc. Ce faisant, les acteurs se passent de la référence aux timecodes, s’ajustant réellement au dispositif présent. On verra plus explicitement ensuite les changements que cette nouvelle manière de faire induit, relativement au déroulement de l’activité et au produit de cette activité (l’analyse en UST). A ce stade, restons-en à ces marques générales d’une modification de l’activité des acteurs : la désorganisation d’une pratique et l’hybridation de pratiques résultant de l’inertie de manières de faire. 

Des modifications de l’action liées au dispositif

J’en viens aux modifications observées imputables aux nouvelles caractéristiques du dispositif d’écoute. L’interface jUST, plus riche que celle d’une chaîne hi-fi, est la première de ces caractéristiques incidentes. Les informations visuelles disponibles jouent sur l’écoute ou les réflexes d’écoute des acteurs. Ce que ces derniers signalent explicitement :

A1 manipule l’interface.
A2 : Mais c’est tes couleurs qui nous gênent !
A3 : Mais regardez pas ! Ecoutez !
A4 : Moi, quand je regarde, j’écoute plus… Il suffirait d’avoir un bloc, plutôt que la forme d’onde. Ce qui nous gêne, c’est simplement la forme d’onde.

Exemple 1

Etat de l’analyse au début de l’échange : cf. analyse 1.1

frame_just_1,just_9,segmentation_21,0,868,Afficher l'état de l’analyse 1-1 au début de l'échange
frame_just_1,just_9,segmentation_22,68,868, Afficher l'état de l’analyse 1-2 au début de l'échange

Ils écoutent la pièce frame_just_1,just_9,segmentation_21,0,75 depuis le début, jusqu’à 1’15 environ.
A1 : On n’est plus dans un « stationnaire ».A2 : Segmente-le.
A1 zoome pour pouvoir segmenter (ill.1). L’interface est projetée sur un écran, si bien que chacun peut suivre l’opération.
A2 : Ça a l’air d’être ça, à voir comme ça !
A3 : C’est un bel ensemble, esthétique (ill.2).
A1 : Est-ce que ça peut faire une UST, ça ?


III.1 : Zoom sur la forme d'onde autour de 1'08


III.2 : La première UST (de 0'00 à 1'08)

Etat de l’analyse à la fin de l’échange : cf. analyse 1.2

« stationnaire » et « sans direction par excès »

Dans ce dernier cas, la segmentation se fait sur la base d’une information visuelle (la forme d’onde) et précède la question de savoir si l’unité correspond à une UST. De fait, la représentation de la pièce par sa forme d’onde, de même que la visualisation de l’analyse en cours sous la forme d’une succession de blocs de longueurs et de couleurs différentes (permettant une évaluation immédiate de l’homogénéité de la découpe opérée) informent d’une nouvelle façon l’écoute, introduisant de nouvelles logiques d’action.

Ce point peu ou prou repéré par les acteurs eux-mêmes, ils s’entendent sur un nouvel usage, réservant l’interface à un seul et réduisant ainsi les biais liés à ce surcroît d’informations. Le dispositif ne redevient pas neutre pour autant. L’effet le plus immédiat de cet usage (non partagé) est d’introduire de l’asymétrie dans l’action : dans la gestion de l’action, dans la focalisation de l’attention des acteurs, dans les modalités d’administration de la preuve, voire dans les arguments avancés. Quant à la focalisation de l’attention des acteurs, j’en donne l’illustration suivante :

Exemple 2

Etat de l’analyse au début de l’échange : cf. analyse 2.1

Ils écoutent la pièce de frame_just_2,just_10,segmentation_23,332,73 5’32 à 6’45 environ. A1, qui manipule l’interface, prend l’initiative d’arrêter la pièce.
A1 : On pouvait la faire durer plus que ça, la « trajectoire inexorable », vous êtes d’accords ?
A2 : Et ouais…
A1 : Mais, là, je crois qu’on est arrivé un peu au bout…
A3 : Il doit y avoir un climax.
A1 : … et ça fait un moment qu’on plafonne, non ?
A4 : C’est marrant, c’est une inexorabilité douce
A1 : C’est très progressif, c’est ça ?
A4 : Non, pis… « Inexorable »… Je veux dire… c’est tellement léger, quoi !
A2 : Moi, je me demande si faut pas… réexaminer, je sais pas comment dire, la notion de trajectoire inexorable, parce que là, on a bien cette idée d’inexorable, mais la trajectoire, elle est moins évidente, c’est plutôt un processus inexorable.

Etat de l’analyse à la fin de l’échange : cf. analyse 2.2

« trajectoire inexorable » et « stationnaire »

On y observe ce glissement symptomatique, d’une question de segmentation lancée par celui qui manipule l’interface (A1 : « On pouvait la faire durer plus que ça, la trajectoire inexorable ? ») à une question de qualification alimentée par les autres (A4 : « C’est une inexorabilité douce… » ; A2 : « Je me demande si faut pas réexaminer la notion de trajectoire inexorable… »). L’accès à l’information temporelle (les timecodes) semble ici discriminant. Pour ceux qui ne disposent pas de cette information, la discussion sur les bornes d’un segment est laborieuse. On peut en juger avec l’exemple suivant :

Ils écoutent la pièce de 5’05 à 7’52 environ. Puis discutent de la qualification de ce passage. A1 manipule l’interface. A2 s’adresse à lui :
A2 : Mais, là, quand on a repris… Là où tu as repris, maintenant, tout au début, par rapport à là où on était avant… je me dis que peut-être que cette partie-là, au lieu de dire que c’est déjà une trajectoire, c’est peut-être un « qui veut démarrer »…


L’attention se redirige alors assez naturellement vers la caractérisation de chaque segment, plutôt que vers sa délimitation. On verra ci-dessous que ce phénomène se trouve renforcé par une autre caractéristique propre au nouveau dispositif : le fait qu’il encourage la lecture par segment, ou UST repérée, dont les bornes sont fixées, plutôt que la lecture de n’importe quel passage dans la pièce.

Quant aux modalités d’administration de la preuve, l’asymétrie est également flagrante entre celui qui manipule et les autres. On en prendra pour preuve la séquence suivante :

Exemple 3

Etat de l’analyse au début de l’échange : cf. analyse 3.1

frame_just_3,just_11,segmentation_25,772,33,Afficher l'état de l’analyse 3-1 au début de l'échange
frame_just_3,just_11,segmentation_26,772,33,Afficher l'état de l’analyse 3-2 au début de l'échange

Ils écoutent la pièce frame_just_3,just_11,segmentation_25,772,33 de 12’52 à 13’25 environ. Ils bloquent depuis un moment sur la qualification de ce passage. Chacun y est allé de sa propre description, sans emporter cependant l’approbation des autres. A1, qui manipule l’interface, prend la parole :
A1 : Moi, j’entends trois… parties. Il y a ça… (Il fait entendre la pièce de 12’52 à 13’06 environ frame_just_3,just_11,segmentation_25,772,14.) Après, y’a ça… (Il fait entendre de 13’06 à 13’16 environ frame_just_3,just_11,segmentation_25,786,10.) Et puis, y’a ça… (Il fait entendre de 13’16 à 13’27 environ frame_just_3,just_11,segmentation_25,796,11.) C’est ça qui me pousse à dire « qui veut démarrer ». L’ensemble serait un « qui veut démarrer ». On a la répétition de quelque chose qui veut démarrer.

Etat de l’analyse à la fin de l’échange : cf. analyse 3.2

« trajectoire inexorable » et « qui veut démarrer »

L’usage non partagé du logiciel rend la pratique observée moins homogène, laissant au final apparaître des logiques d’écoute et notamment : l’écoute aux fins d’une segmentation versus l’écoute aux fin d’une qualification.

J’expliciterai encore l’incidence de deux caractéristiques supplémentaires de ce dispositif. J’ai évoqué la première : le fait que le dispositif fonctionne, ou incite à fonctionner, par unités découpées [11]. Les citations suivantes illustrent l’opposition récurrente entre deux logiques de lecture : la lecture depuis n’importe quel point de la pièce (le plus généralement : le point où l’on s’est arrêté ou un point juste avant) versus la lecture depuis un événement repéré, le début d’une des UST.

A1 manipule l’interface.
A1 : Je vous repasse tout ça, depuis la…
A2 : …là où on s’était arrêté ?
A1 : …depuis ce qu’on avait dit que c’était la « trajectoire inexorable » qui commençait.

A1 manipule l’interface.
A2 : Remet à partir de là où on était, le tuilage, et voyons comment ça…
A1 : Quel tuilage ?
A2 : Celui qu’on vient de faire là, entre les trois UST et…
A1 : Ouais, donc au début de ce qu’on a appelé « trajectoire inexorable ».


Si la deuxième logique (lire depuis le début d’une UST) répond aux possibilités ou contraintes qu’offre le logiciel jUST, la première (lire depuis le point où l’on s’est arrêté) est une réponse à celles qu’offrait la chaîne hi-fi. Autre illustration de cette inertie que l’on observe dans les manières d’opérer ou de penser.

Les conséquences de cette caractéristique du dispositif (la lecture par segment) sont les suivantes : elle permet aux acteurs de réécouter x fois le même segment, de naviguer très aisément d’un segment à un autre (donc de comparer très aisément deux segments), en même temps qu’elle conduit à réifier des segments lors même que leur découpe est provisoire (soit à discuter davantage leur qualification que leur délimitation). Cette caractéristique technique, anodine pour les concepteurs du logiciel jUST, induit au final une modification de l’activité de ses usagers, une redéfinition notamment de la place et du rôle dévolus aux écoutes au sein de leur activité. On peut en juger avec la séquence suivante. On y relève les manières de procéder des acteurs pour avancer sur un passage difficile, leurs recours à l’écoute :

Exemple 3bis

Etat de l’analyse au début de l’échange : cf. analyse 3.1

frame_just_3bis,just_12,segmentation_25,772,33,Afficher l'état de l’analyse 3-1 au début de l'échange
frame_just_3bis,just_12,segmentation_27,772,33,Afficher l'état de l’analyse 3-3 au début de l'échange

Ils écoutent la pièce frame_just_3bis,just_12,segmentation_25,772,33de 12’52 à 13’25.
Ils discutent.
Ils écoutent, pour comparaison, la première UST (frame_just_3bis,just_12,segmentation_25,0,40du début de la pièce à 0’40).
Ils discutent.
Ils écoutent à nouveau le passage problématique (frame_just_3bis,just_12,segmentation_25,772,33de 12’52 à 13’25).
Puis ils écoutent le passage qui suit immédiatement (frame_just_3bis,just_12,segmentation_25,805,63de 13’25 à la fin de la pièce).
Ils discutent.
Ils écoutent à nouveau le passage problématique (frame_just_3bis,just_12,segmentation_25,772,33de 12’52 à 13’25).
Ils discutent.
Ils écoutent, pour comparaison, la deuxième UST (frame_just_3bis,just_12,segmentation_25,40,28de 0’40 à 1’08).
Ils discutent.
Ils écoutent, pour comparaison, la troisième UST (frame_just_3bis,just_12,segmentation_25,68,10de 1’08 à 1’18).
Ils discutent.
Ils écoutent à nouveau le passage problématique (frame_just_3bis,just_12,segmentation_25,772,33de 12’52 à 13’25).
Ils discutent.
Ils écoutent l’UST précédente et le passage problématique (frame_just_3bis,just_12,segmentation_25,618,87de 10’18 à 13’25).
Ils discutent.
Ils écoutent à nouveau le passage problématique (frame_just_3bis,just_12,segmentation_25,772,33de 12’52 à 13’25).
Ils discutent.
Ils écoutent, pour comparaison, un « sans direction par excès » qu’ils jugent archétypique (frame_just_3bis,just_12,segmentation_25,262,26de 4’22 à 4’48).
Ils discutent.
Ils écoutent à nouveau le passage problématique (frame_just_3bis,just_12,segmentation_25,772,33de 12’52 à 13’25).
Ils discutent.
Ils écoutent l’UST précédente et le passage problématique (frame_just_3bis,just_12,segmentation_25,618,87de 10’18 à 13’25).
Ils discutent.
Ils écoutent à nouveau le passage problématique (frame_just_3bis,just_12,segmentation_25,772,33de 12’52 à 13’25).
Ils discutent.
Ils écoutent le même passage en le scindant en trois (frame_just_3bis,just_12,segmentation_25,772,14de 12’52 à 13’06  ; frame_just_3bis,just_12,segmentation_25,786,10de 13’06 à 13’16 ; frame_just_3bis,just_12,segmentation_25,796,11de 13’16 à 13’27).
Ils discutent et finissent par inscrire l’UST « stationnaire ».

Etat de l’analyse à la fin de l’échange : cf. analyse 3.3

« trajectoire inexorable », « stationnaire », « sans direction par excès »

Une telle exploration, par écoutes x fois répétées du même segment, comparaison avec le segment qui précède et avec celui qui suit, comparaison avec des segments semblables ou des segments-types, est permise par le dispositif. Elle est difficilement envisageable avec le dispositif précédent (la chaîne hi-fi).

Je passe plus rapidement sur une dernière caractéristique influente de ce dispositif : il ne permet pas de laisser d’espace vide dans l’analyse [12]. Cette caractéristique aussi différencie l’activité réalisée au moyen du logiciel jUST de celle réalisée au moyen d’une chaîne hi-fi, d’un papier et d’un crayon. Elle incite, sinon contraint les acteurs à avancer chronologiquement (plutôt qu’en repérant des UST évidentes, puis de moins évidentes, etc.) et à qualifier expressément chaque segment (le logiciel les qualifiant par défaut). Cette contrainte est probablement la plus lourde, qui amène la systématisation d’une pratique initialement pensée sur un mode plus exploratoire. On en jugera en considérant ces échanges recueillis lors de la première séance de travail et dont on ne trouve pas d’équivalents par la suite (il s’agit du début de la séance) :

Ils écoutent la pièce du début, jusqu’à 0’05 environ.
A1 : Il faut aller plus loin.
Ils écoutent à nouveau jusqu’à 0’10 environ.
A2 : Ça non plus, c’est pas une UST !
A1 : A la limite un « étirement » ?
A2 : C’est rien du tout !
Ils écoutent la suite, jusqu’à 0’23 environ.
A3 : Cette formule, elle est marrante, je trouve ! Isole-la, qu’on puisse la retrouver.
A1 : Je reprends d’ici.


Le dispositif utilisé, auquel les acteurs vont bel et bien s’adapter au fil des séances, interdit ce type de progression, par repérage de formules pertinentes, invitant au contraire à procéder chronologiquement et sans laisser de blanc.

Le suivi minutieux des modifications d’une pratique consécutives à un changement de dispositif aura donné des preuves suffisantes, je crois, du lien entre dispositif et format de l’écoute. Je souhaite revenir à ce stade sur le ou les formats d’écoute que la situation fait apparaître, en posant la question : est-il un format propre au dispositif employé ?

Un format d’écoute propre au nouveau dispositif ?

Un postulat commun

L’analyse précédente m’a plusieurs fois amenée à distinguer les possibilités (d’écoute, d’action) offertes par le logiciel jUST de celles offertes par une chaîne hi-fi. On se doit de souligner à ce stade qu’il est un postulat commun aux deux dispositifs : appréhension musicale et manipulations se font selon l’axe du temps. La navigation dans le temps est certes justifiée par le projet des auditeurs que j’ai observés : celui d’une analyse de la pièce en Unités Sémiotiques Temporelles. Elle n’est cependant pas la seule navigation possible et résulte d’un choix. On s’en convaincra en songeant à d’autres pratiques d’écoute expertes, pratique du compositeur, de l’ingénieur du son, du réalisateur en informatique musicale, amenés à naviguer dans le contenu musical selon un axe non seulement horizontal, mais encore vertical. Navigation dans le spectre, filtrage, superposition d’objets sonores, sélection de voix, etc. sont quelques-unes des opérations qui orientent leur écoute à un moment donné, lui donnant un format spécifique. Les recherches de Serge Pouts-Lajus sur les pratiques musicales amateur liées à l’informatique autorisent, du reste, à penser que de telles opérations (et le format d’écoute qui en découle) ne sont pas le fait de seules « communautés d’experts » [13].

Les réflexions sur la chaîne hi-fi de demain, menées dans le cadre du projet européen SemanticHIFI [14], invitent de la même façon à casser l’exclusive d’une appréhension de la musique et d’une navigation dans la musique selon l’axe du temps. Hugues Vinet rappelle que si, le plus souvent, la découverte du contenu musical se fait au fur et à mesure de son déploiement temporel, il reste possible d’en proposer des représentations schématiques, support de nouvelles manipulations pour l’auditeur. Qu’un grand nombre d’enregistrements soit aujourd’hui effectué en multipiste rend envisageable notamment la navigation dans le contenu polyphonique d’une œuvre ou l’évolution virtuelle de l’auditeur dans l’espace des instruments [15].

Ce primat accordé à la dimension temporelle de l’œuvre dans le logiciel jUST et dans la chaîne hi-fi suffit à rapprocher les deux dispositifs. Il n’oblitère pas les différences relevées. On dira que ces différences spécifient un format au départ commun. Ces différences sont relatives, on l’a vu, à la façon dont s’organise l’action, aux usages qu’il est fait de l’écoute, à l’information mobilisable, aux unités écoutées, ainsi qu’aux critères de l’écoute ou à la direction de l’attention au fil de l’écoute (variable selon que l’écoute ait pour fin une segmentation ou une qualification). L’ensemble fait clairement apparaître une évolution dans la pratique étudiée, que l’on peut résumer par les traits suivants :

  • passage d’un dispositif d’écoute non spécifique (la chaîne hi-fi) à un dispositif d’écoute spécifique (le logiciel jUST) ;
  • passage d’une pratique d’analyse « exploratoire » (non nécessairement systématique) à une pratique d’analyse systématique (analyse chronologique et sans blanc) ;
  • passage d’une activité faiblement structurée à une activité fortement structurée (hiérarchie dans l’action ; procédures systématiques d’exploration ; objectivation de la tâche par le biais d’une représentation de la pièce (la forme d’onde) et d’une représentation du travail en cours sur la pièce (la succession de blocs de tailles et de couleurs variables)).


Cette évolution a les traits d’une « professionnalisation ».

Des logiques d’écoute

Cette évolution générale, indissociablement celle d’un dispositif et celle d’un format d’écoute, n’empêche pas que l’on observe, à un niveau de détails plus grand, des logiques d’écoute. Trois phénomènes peuvent expliquer cette pluralité : l’accès inégal des acteurs au dispositif technique (à l’interface de lecture, de segmentation et d’annotation jUST, plus exactement) ; la mobilisation possible d’autres outils pour l’écoute (mobilisation, différentielle elle aussi, des fiches de définition des UST notamment) ; l’inertie de manières de faire anciennes, qui se mêlent aux nouvelles procédures. J’en viens à ces logiques d’écoute. J’ai précédemment distingué l’écoute aux fins d’une segmentation et l’écoute aux fins d’une qualification. L’on n’écoute pas la même chose, ni suivant les mêmes critères, dans l’un et l’autre cas. A l’écoute répétée d’un même segment (en vue de le qualifier) s’oppose l’écoute d’extraits plus ou moins longs en vue de localiser un changement, ou le point de transition entre deux UST. Les deux sont observables dans la situation.

Lors même que tous les auditeurs cherchent à qualifier un segment, on relève les variations suivantes :

  • une logique de contextualisation (les auditeurs écoutent un segment et le comparent à d’autres : au segment précédent, à un segment « type » ou, plus rarement, au segment suivant) versus une logique d’abstraction (les auditeurs écoutent plusieurs fois un seul et même segment) ;
  • une logique de catégorisation (les auditeurs écoutent et procèdent par élimination progressive des UST possibles) versus une logique de description (les auditeurs privilégient la description de ce qu’ils entendent, quitte à nuancer l’identification du segment à telle ou telle UST, en ajoutant des annotations).


L’auditeur n’écoute pas la même chose, il n’est pas attentif aux mêmes signaux, selon qu’il adopte l’une ou l’autre logique. Varient, là encore, ce qui est écouté dans un extrait et les extraits écoutés.

Il faut, à ce stade, se poser la question de la plus ou moins grande généralité de telles logiques d’écoute. Si chacune est aisément justifiable dans la situation, compte tenu de la tâche que se sont assignés les acteurs, elles semblent pouvoir valoir dans beaucoup d’autres situations occidentales d’écoute (ayant pour objet de la musique). Relever des points de rupture, appréhender des segments musicaux successifs, comparer ou abstraire une unité musicale, chercher à saisir un événement in extenso ou le réduire à des catégories préétablies sont de ces opérations que nous effectuons également lorsque nous écoutons de la musique, de manière sporadique ou plus systématique. Constitutives d’un format d’écoute que je qualifierai de « savant », elles sont la probable traduction d’un outillage (intellectuel, technique, etc.) basé sur le postulat d’un déploiement temporel linéaire et fini de la musique [16] et auraient, en ce sens, une validité plus grande que celle délimitée par la pratique étudiée. Plutôt que sur quelques propositions trop affirmées, je terminerai sur cette hypothèse, que ce travail a permis de formuler. Pour éprouver la plus ou moins grande validité de ces opérations, ou de ce format d’écoute, on devine qu’il faudra multiplier les démarches d’observation. D’autres enquêtes sont déjà initiées, auprès d’ingénieurs du son à la Maison de la Radio, à Paris ; auprès d’assistants musicaux dans quelque grand centre de création musicale ; etc. Il faudrait encore cerner des formats alternatifs d’écoute : format d’une écoute « rituelle » dans le cadre d’un rite ou d’une cérémonie ? format d’une écoute « fonctionnelle » dans le cadre d’un exercice ou d’un entrainement ? On devine que le travail présenté est une pierre d’un édifice qu’il reste à découvrir.

[1] Michael Baxandall, L’Œil du Quattrocento : l’usage de la peinture dans l’Italie de la Renaissance, trad. fr., Paris, Gallimard, 1985.

[2] Charles Goodwin, « Professional Vision », American Anthropologist, 96(3), 1994, p. 606-633 ; Charles Goodwin & Marjorie H. Goodwin, « La Coopération au travail dans un aéroport », Réseaux, 85, 1997, p. 129-162.

[3] Sinon sur les moments, les lieux, les situations dans lesquels on écoute de la musique, voire sur les usages ou finalités de l’écoute à travers les siècles. Beaucoup plus délicate est la question de savoir ce que l’on entend lorsqu’on écoute une œuvre. On trouve quelques pages d’une histoire (encore largement à écrire) sur ce que l’on écoute / entend lorqu’on écoute, dans les ouvrages de Peter Szendy (Ecoute. Une histoire de nos oreilles, Paris, Ed. de Minuit, 2001), de François Delalande (Le Son des musiques, entre esthétique et technologie, Paris, INA&Buchet/Chastel, 2001), de Martin Kaltenecker (L’Ecoute musicale au 18ème et 19ème siècles. Discours, pratiques, traces, Paris, Van Dieren, à paraître) ou de Sophie Maisonneuve (L’Invention du disque, 1877-1949. Genèse de l’usage des médias musicaux contemporains, Paris, Editions des Archives Contemporaines, 2009). Outre-atlantique, le champ est davantage structuré, autour des travaux relevant des Sound Studies (l’ouvrage de Jonathan Sterne par exemple, The Audible Past. Cultural Origins of Sound Reproduction, Durham, Duke University Press, 2003, dont je propose une note de lecture dans la Revue de Synthèse, t. 129, n°3, 2008, p. 461-463) ou de la New Musicology anglosaxonne (voir notamment les dossiers thématiques dans : The Musical Quarterly, vol. 82, n°3/4, 1998 ; Early Music, vol. 25/4, 1997 et Early Music, vol. 30/1, 2002). De rares travaux, plus proches de la psychologie cognitive, proposent une méthodologie et de premiers résultats sur le sens que des auditeurs donnent à des œuvres précises (et non à de simples extraits, décontextualisés), notamment : François Delalande, « Music Analysis and reception behaviours : Sommeil by Pierre Henry », Journal of New Music Research, vol. 27, n°1-2, 1998, p. 13-66 ; François Delalande et Maÿlis Dupont, « Comment s’entend-elle ? Analyse esthésique de Le Plein du vide de Xu Yi », dossier multimédia en ligne (www.cndp.fr/secondaire/bacmusique), 2006 ; Nicolas Donin, « Manières d’écouter des sons. Quelques aspects du projet Ecoutes signées (IRCAM) », revue DEMéter, 2004.

[4] Les prémices de cette enquête sont dans mon travail de thèse : Maÿlis Dupont, Penser la valeur d’une œuvre. Propositions pour une sociologie de la musique responsable, thèse de doctorat en sociologie et musicologie, Université Lille 3, 2005. Plusieurs articles sont issus de cette thèse. Citons notamment, sur le thème de l’écoute : « Façons de parler, façons d’écouter. Une enquête sur le format culturel de nos écoutes », à paraître. Thèse et article sont disponibles en ligne, sur le site Mélissa de l’ENS Cachan.

[5] Harold Garfinkel, « Le socle routinier des activités ordinaires », dans Recherches en ethnométhodologie, trad. fr., Paris, PUF, 2007, p. 97-147.

[6] Rémy Campos, Nicolas Donin, 2005,  « La musicographie à l’œuvre : écriture du guide d’écoute et autorité de l’analyste à la fin du XIXème siècle », Acta Musicologica, vol. LXXVII, n° 2, p. 151-204.

[7] Sophie Maisonneuve, op. cit.

[8] Jonathan Sterne, op. cit.

[9] Erving Goffman, Les Cadres de l’expérience, trad. fr., Paris, Ed. de Minuit, 1991.

[10] C’est la diffusion d’une nouvelle orientation vis-à-vis du sonore, que caractérisent entre autres, selon Jonathan Sterne, l’articulation de l’écoute à la raison, le partage du champ auditif entre sons « intérieurs », pertinents à l’écoute, et sons « extérieurs », qui ne le seraient pas, et l’individuation du son autorisant sa transformation en un bien marchand (cf. Jonathan Serne, The Audible Past…, op. cit., chapitres 2 et 3 notamment).

[11] Pour rappel, le premier bandeau permet de lancer la lecture depuis le début de la pièce. Il est, assez logiquement, de moins en moins utilisé au fur et à mesure de l’avancée du travail. Le deuxième bandeau permet une lecture par unités découpées. Le troisième bandeau permet 1) la lecture depuis le début de la pièce ou 2) la lecture d’un extrait sélectionné, moyennant des manipulations supplémentaires. Ces manipulations suffisent (probablement) à expliquer la moindre occurrence de cette modalité de lecture dans les premiers temps d’utilisation du dispositif.

[12] Par défaut, la première UST repérée s’applique à toute la pièce. Chaque segmentation ajoutée divise le segment initial en deux segments du même type, que l’on peut ensuite renommer.

[13] Selon l’auteur, on comptait entre 600 000 et 1 000 000 de personnes ayant des pratiques musicales sur leur ordinateur domestique en 2001 (Serge Pouts-Lajus, « Composer sur son ordinateur. Les pratiques musicales en amateur liées à l’informatique », Développement culturel, n°138, juin 2002).

[14] Dans lequel sont entre autres engagés l’IRCAM et Sony.

[15] Sur ce point et, plus généralement, sur les enjeux du projet SemanticHIFI, on lira : Hugues Vinet, « Les nouveaux musiquants », L’Inouï, n°1, 2005, p. 48-58.

[16] Ou d’une pensée de la musique comme succession / superposition d’unités temporelles discrètes, toujours plus ou moins identifiables.