Les analyses ont été effectuées avec MIR Toolbox (version 1.6). Nous avons aussi utilisé Sonic visualiser pour la comparaison auditive des versions et pour ses possibilités de visualisation du signal. L’analyse du tempo a été effectuée manuellement avec Sonic visualiser (sans utiliser d’algorithme de détection de tempo). Les descripteurs audio [1] mis à contribution ont été choisis en fonction du ou des paramètres d’interprétation à mettre en évidence dans telle ou telle pièce :
- Le loudness est un indicateur de l’intensité perçue.
- L’acuité spectrale (spectral sharpness) est un équivalent du centroïde spectral, mais repose sur le découpage du spectre en 24 bandes de largeur 1 Bark. Il peut être utilisé pour décrire le timbre ou les attaques du son.
- La rugosité (roughness) est une estimation de la dissonance sensorielle telle que décrite par Plomp and Levelt (1965).
- Le roulement spectral (spectral rolloff) est la fréquence telle que 95 % (ou 85 % selon le réglage choisi) de l’énergie du spectre soit contenue en dessous. Il peut être employé comme un indicateur de la clarté du son.
- Le détecteur d’attaques de notes (note onset detector) permet, comme son nom l’indique, de repérer les attaques de notes, mais aussi de mesurer leur force (intensité).
- Le descripteur de clarté de la pulsation (pulse clarity) est un indicateur de précision rythmique et de bonne synchronisation entre les instrumentistes [2].
Parmi les représentations du signal possibles, j’ai utilisé :
- Le sonagramme de type Melodic Range Spectrogram qui privilégie les composantes harmoniques.
- Le chromagramme qui représente la saillance de chacune des douze classes de hauteurs à un instant t.
- Les coefficients d’énergie dans les bandes critiques (Bark coefficients) qui représentent les bandes de fréquences activée par l’input sensoriel. Cette représentation permet de représenter la tessiture et les zones de fréquences de la texture globale.