Murs du Son
En exclusivité, Game Playlist vous propose la traduction d’un article paru dans Edge relevant de l’état actuel de la musique de jeu vidéo dans l’industrie éponyme. Jim Rossignol s’emploie avec maestria à interviewer des intervenants exceptionnels comme George « The Fat Man » Sanger ou Martin O’Donnell pour faire avancer le débat.
Cet article concernant l’aspect sonore des jeux vidéo actuels a été publié pour la première fois dans Edge plus tôt cette année. Je m’y emploie à discuter avec Marty Halo O’Donnell, Florian Füsslin de Crytek, Chris Delay de Introversion et le légendaire George Sanger.

Le maître de conférences Tom Betts est plutôt découragé par le comportement de ses étudiants vis-à-vis de la musique de jeux vidéo. « Je fais des cours magistraux sur le sujet mais la plupart du temps, cela se résume au fait que l’on peut jouer avec le son coupé mais pas avec l’écran éteint. Si vous étudiez les choses qui font qu’un jeu vidéo marchera, l’aspect sonore n’arrive pas en haut de la liste. » Pourquoi les étudiants de Tom Betts devraient s’intéresser à ce qu’il a à dire au sujet de la musique de jeu alors qu’il y a tellement d’autres choses à considérer comme les graphismes, la conception des niveaux ou des énigmes ? « C’est le parent pauvre depuis des années » déplore Betts.
L’attitude de ses étudiants est compréhensible car les jeux vidéo ont toujours eu un potentiel avant tout visuel. Même les concepteurs audio les plus reconnus, comme Martin O’Donnell – qui a travaillé sur la série Halo – reconnaît que le son prend une place secondaire dans notre attention. « Parce que nous recevons des indications tangibles avec nos yeux et des informations moins tangibles voire primaires avec nos oreilles. La plupart des gens ne réfléchissent pas à ce qu’ils entendent. » avance O’Donnell. « On peut cloisonner nos sens mais nos oreilles ne clignent jamais ». O’Donnell souligne que même si la plupart des grands réalisateurs de cinéma mettent une grande emphase sur la conception audio, elle ne reçoit qu’un succès d’estime. « C’est peut-être juste que le son ne soit pas sur le devant de la scène car nous percevons les choses comme cela mais les concepteurs audio savent bien quelle influence ils ont véritablement. »

En vérité, la conception audio est devenue l’une des tâches les plus sophistiquées du développement de jeux vidéo. Concevoir de la musique et des effets sonores pour qu’ils soient employés dans un environnement de jeu est très différent de composer de la musique pour des films ou des séries télévisées. Les jeux vidéo présentent des problèmes assez peu communs, comme l’adaptation du mix à une situation créée par le joueur (plutôt qu’à une scène déterminée par le seul réalisateur). Les concepteurs de jeux doivent avoir une attitude flexible vis-à-vis de facteurs comme la période de temps passée à écouter la même musique et la possibilité de surcharge sonore si trop d’éléments sont joués en même temps. En plus de cela, la plupart des concepteurs audio se retrouvent à travailler sur des éléments entièrement définis par des non-musiciens : les producteurs et les concepteurs en chef. Ce qui peut représenter un sérieux défi.
Le défi
Comme la plupart des composantes d’un jeu, le son doit apporter des informations au joueur. Florian Füsslin de Crytek explique que la richesse de l’environnement sonore de Crysis se définit principalement selon les informations que le joueur a besoin d’entendre. « Nous avons pensé que le minimum d’effets amenait souvent l’impact maximal. Nous avons utilisé un système de priorités plutôt solide qui étouffe les bruits faibles ou inutiles durant des situations sonores très chargées, comme les combats. Avec le mixage adéquat, nous étions alors capables de fournir un environnement sonore riche quelle que soit la situation du joueur. » Faufilez-vous ainsi à travers la jungle et vous serez peut être subjugué par son ambiance bouillonnante. En revanche, engagez un combat et votre attention se portera automatiquement aux cris des ennemis et à la position des tireurs.
Le réalisme n’a pas toujours sa place dans les systèmes audio créés spécifiquement pour les jeux vidéo, même dans un jeu comme Crysis dont l’univers se veut réaliste, remarque Füsslin : « Quelque fois, la réalisation sonore est partagée entre le réalisme et la bonne compréhension du joueur. Par exemple, deux fusils d’assaut semblent produire le même son dans la réalité mais dans le jeu, le joueur doit savoir précisément quelle arme a tiré. Dans ce cas précis, la perception du joueur est plus importante et passe donc avant le réalisme. » Les perceptions sensorielles offertes au joueur sont souvent largement tronquées, l’environnement audio doit donc fonctionner en complément de ce que peut déjà voir le joueur à l’écran. Plus le message est clair, mieux c’est.

La direction audio d’Eric Brosius pour la série Thief est un autre exemple célèbre de son en tant qu’élément « lisible » de la jouabilité. Son équipe s’est beaucoup impliquée dans l’implémentation d’éléments comme les bruits de pas qui permettaient de faire comprendre au joueur s’il était discret ou bruyant. Les vieux parquets grinçants et les sols métalliques faisaient beaucoup plus de bruit que la normale, donnant au joueur le coup de pouce sonore lui faisant comprendre qu’il était repéré. De même, les « aboiements » des gardes dans un niveau ne devaient trahir aucune ambigüité : il était essentiel qu’un joueur de Thief sache si les suspicions étaient levées ou s’il avait été découvert. Les critiques ou les joueurs relèveront toujours de mauvais éléments sonores, mais il y a de fortes chances que cet aspect ait pu aider à améliorer de mauvais jeux.
Symboles pour Cymbales
Toutefois, il y a un facteur beaucoup plus intrigant qui entre en compte dans la création sonore d’un jeu : l’aspect artistique. Même si 99 % du travail est fait à partir d’huile de coude et de savoir-faire technique, c’est souvent le 1 % d’inspiration artistique qui fait le succès d’une bande-son. Etre uniquement « lisible » est rarement suffisant. L’une des personnes les plus conscientes de cet aspect est sans doute le vétéran George « The Fatman » Sanger, qui travaille sur les bandes-son de jeux vidéo depuis qu’il a écrit un premier morceau de dix secondes pour le jeu Intellivision Ice Thin en 1983. « Pour beaucoup, le seul rôle du son est de soutenir tous les autres éléments du jeu. Cette grossière erreur est à mon avis prise pour argent comptant dans le milieu du développement. » affirme Sanger. « Les développeurs pensent qu’ils n’ont pas besoin d’innover, d’écrire des chansons ou de révolutionner ce qu’est un orchestre. Tout ce qui les intéresse, c’est comment le son va soutenir le jeu. Mais supporter le jeu n’est pas le seul travail d’une équipe audio. Il faut tout mettre en œuvre pour émerveiller le joueur. Allez expliquer ça aux bureaucrates pour qui le son n’est qu’un support. »
Pour illustrer ce point, Martin O’Donnell décrit le processus qu’il a suivi avec la série Halo : « C’est un processus lent et méthodique avec des poussées occasionnelles de créativité. Il faut passer beaucoup de temps avec les artistes, les concepteurs et les développeurs du jeu. Ce n’est qu’après avoir travaillé sur de nombreuses présentations, bandes-annonces et versions d’essai du jeu qu’une palette de sons et de musiques me vient à l’esprit. » Contrairement aux graphismes qui peuvent être jugés au premier coup d’œil, le son a parfois besoin d’opérer en symbiose avec l’image pour être pleinement perçu. O’Donnell se souvient qu’il a dû travailler ses concepts musicaux en aparté avant d’être jugés dans le contexte du jeu créé par Bungie. « Si j’avais dit aux gars de Bungie en 1999 que je voulais employer des chants grégoriens pour introduire Halo au public, je ne pense pas que cette musique aurait vu le jour. En réalité, j’ai cherché la musique la plus appropriée à l’ambiance et à l’univers créé par Bungie, qui a alors accepté cette proposition a priori décalée. » Comme Sanger, O’Donnell sait que la conception audio doit prendre des risques et poursuivre de nouvelles idées. Il a dû lutter pour imposer sa vision et empêcher Halo de sortir avec une énième bande-son de jeu de tir pseudo métal.

Bien sûr, le but n’est pas non plus de poursuivre ses intérêts personnels : le directeur audio doit parvenir à utiliser ses inspirations artistiques pour servir l’effet recherché par les concepteurs. Et quand les deux parties marchent à l’unisson, on obtient un design homogène, même sur les plus petits détails, comme l’explique Chris Delay d’Introversion Software. Son équipe n’a trouvé certains éléments de Darwinia « réellement originaux » que lorsque des sons y ont été attachés. « Avec Darwinia, nous avons constaté un phénomène étrange : les animations semblaient plus belles quand de bons effets sonores étaient ajoutés. Le son suffisait à « vendre » l’animation au cerveau et à le convaincre que c’était bien. Les effets graphiques qui ne contenaient pas encore de partie sonore semblaient plats et dénués de vie. » En règle générale, une bonne direction audio opère une relation symbiotique avec une bonne conception ludique.
Changement de fréquence sonore
Aujourd’hui, le son dans les jeux vidéo a changé de visage et la technologie a énormément évolué au cours des vingt dernières années. Ses premières apparitions se résumaient à des séquences de bips. Ces derniers temps, les concepteurs audio inondent nos oreilles avec des orchestres philarmoniques. En parlant du long processus nécessaire pour créer une bande-son en 2008, George Sanger se souvient de ses premiers travaux : « Au début de ma carrière j’écrivais ma musique à partir d’une feuille de papier. J’ai eu la chance de connaître un programmeur lecteur de partitions qui était capable, vous devez être la première personne à qui je le dis, de transformer une partition musicale en bips et en bops. Ha ! La pire chose que vous pourriez dire à propos de la conception audio, c’est que cela ne se résume plus à des bips et des bops, tout du moins aux oreilles d’un concepteur audio. »
La musique de jeux vidéo ne s’est pas résumée à des bips et des bops très longtemps. L’apparition du Musical Instrument Digital Interface (MIDI) a permis aux concepteurs de composer leur musique directement. Sanger a probablement été l’un de pionniers : « A peine ai-je commencé à travailler avec le format MIDI que des gens ont commencé à dire que je ne connaissais rien à la composition, malgré le fait que je composais depuis une dizaine d’années. Un peu plus tard, je me suis retrouvé au bon endroit au bon moment pour utiliser le premier MT-32 (le synthétiseur ROLAND MIDI) sur des jeux comme Wing Commander ou Loom » (tous deux sortis en 1990 et tous deux acclamés pour leur avant-gardisme vis-à-vis du son et de la musique). L’utilisation du MIDI a permis très tôt une immersion plus profonde grâce à l’expérimentation et l’inspiration musicale. Sanger poursuit : « A partir du moment où il était possible d’implémenter des partitions orchestrales ou classiques, les gens le faisaient parce que c’était possible. Je pense avoir été la première personne – enfin j’aimerais que quelqu’un me prouve le contraire – à utiliser les dynamiques et le tempo au service d’un jeu, avec une version du Lac des Cygnes dans Loom. »

Alors que le MIDI et le sampling ont apporté l’accès à des effets sonores de haute qualité, la musique de jeu ne se limite pas à ce que nous avons tous entendu dans les films. Il y a une autre dimension que les concepteurs doivent prendre en compte – les actions du joueur et son impact sur le monde du jeu en lui-même. L’élément le plus important à prendre en compte dans la musique de jeu est celui qui fait l’essence même de la discipline : l’interactivité.
Points dans le temps
L’outil clé pour la conception de son interactif est sans doute le rendu sonore 3D. Ce rendu réaliste dans un espace est devenu une caractéristique essentielles des jeux en trois dimensions, la palette d’effets qui permet aux hélicoptères de vrombir au dessus de nos têtes ou aux sons d’ambiance d’être assignés à un endroit particulier. George Sanger détaille un peu comment cela fonctionne et comment ce principe limite en réalité les concepteurs : « L’audio interactif lie le son aux objets. Cela peut être le bruit assourdissant d’un missile fonçant vers vous ou une boucle aquatique liée à une cascade. A son niveau le plus élémentaire, cela vous permet de jouer une musique à un endroit particulier et d’en jouer une autre ailleurs, puis d’ajuster les volumes pour déterminer si elles vont s’affaiblir en se croisant. Or, je ne peux pas faire tout ça moi-même. Tout ce que je peux faire, c’est envoyer un e-mail à un programmeur qui va lever les yeux en se demandant pourquoi je veux faire ça. Et donc, ça ne sera jamais fait. Ce n’est pas la faute du programmeur mais quand le bon outil n’existe pas, c’est difficile. Il faudrait au moins un fichier texte modifiable que le concepteur audio pourrait charger dans le jeu afin qu’il sache quoi jouer, où et à quel volume. Le directeur audio pourrait ainsi lancer le jeu et changer instantanément le volume du chant des oiseaux. » L’absence de tels outils est à l’heure actuelle le plus gros handicap que les concepteurs audio peuvent connaître dans l’industrie du jeu vidéo.
Cela étant, il existe déjà quelques outils qui permettent d’aider les développeurs à concevoir un environnement sonore intéressant, comme l’explique Peter Harrison, responsable de la communication de Creative Labs en Europe. « Nous avons fait un grand bond en avant en sortant l’EAX 2. » dit-il en parlant du standard audio 3D livré sur les premières cartes SoundBlaster Live. « L’idée derrière ces outils était de les mettre en avant en développant dessus. Mais si cette idée a du succès, vous souhaitez alors qu’elle soit adoptée par les propres chaines d’outils des développeurs et intégrée dans leur budget. Les développeurs ont leur propre mode de pensée, nous ne voulons pas leur dire ce qu’ils doivent faire ou essayer de faire de l’argent sur leur dos. S’il est trop répandu, notre outil deviendra redondant. » Et c’est ce qui s’est passé avec celui-ci.
Harrison explique que Creative a réalisé un logiciel appelé Eagle en 2001, qui permettait à ses utilisateurs d’importer la structure géométrique d’une carte et d’y ajouter du son simplement en posant des « boîtes » sur certains points, signalant les zones soumises au son 3D. Ainsi, tous les effets sonores et filtres rencontrés par les joueurs ont été placés avec délicatesse par les concepteurs audio. « Par exemple, on pouvait attacher des effets de réverbération ou d’occlusion sur les sons ou n’importe quelle autre source afin de définir la position de celui qui écoute. » précise Harrison. « Le succès de Eagle a été très important mais l’a vite rendu redondant car à l’heure actuelle, beaucoup se sont inspirés de ce que nous avions fait pour développer leurs propres outils. Ils les ont ensuite intégrés dans leur programmes, de telle sorte que n’importe quel détenteur de la licence Unreal peut utiliser ce genre de fonctionnalités avec UnrealEd. » Créer de nouveaux effets sonores pour les développeurs est, selon Harrison, la véritable frontière que la conception audio doit repousser.

Le son dans les jeux vidéo reste également un défi alléchant pour George Sanger. Il dirige maintenant un think tank dédié à la musique interactive appelé BAR-B-Q, dont les participants sont aussi bien des concepteurs audio que des membres de la branche logiciels/matériels. Sanger pense qu’il y a encore beaucoup de chemin à parcourir avant que la technologie audio pour le jeu vidéo ne réponde aux attentes des concepteurs. L’objectif de son groupe est de faire avancer les choses. « Il y a un manque de conscience et un manque d’équipement. Tout ça est en partie dû au fait qu’il n’y a pas d’équivalent au General MIDI à l’heure actuelle. » Sanger espère que des outils comme le IXMF, un logiciel libre créé en partie par sa femme et par certains de ses collègues du BAR-B-Q, pourront accroître les possibilités de la musique de jeux dans un futur proche. « Ca permettrait d’en finir une bonne fois pour toute avec cet aspect primitif de la musique. » espère Sanger. Pour simplifier, cela apporterait un logiciel équivalent à ce qu’utilisent les graphistes depuis des années.
Up Tempo
La première chose qui saute aux yeux sur la nouvelle génération de jeux, ce sont encore les graphismes photoréalistes en haute-définition. L’aspect sonore ne semble pas tellement profiter des progrès technologiques. De petites avancées sont apparues au fur et à mesure – comme le système HRTF qui reproduit les effets surround avec un casque – mais le plus gros du travail reste à accomplir.
Harrisson arrive très rapidement au fait que des compagnies comme Creative mènent la charge en dehors des sentiers battus de cette nouvelle génération. Une fois que ces innovations auront été largement adoptées, les sons que nous entendons dans nos jeux s’en ressentiront. « Un certain nombre d’effets en temps réel prennent de l’ampleur. » constate Harrison « Les effets dits de réverbération ou les filtres sont ce que nous appelons des effets du domaine temporel. En clair : si vous regardez un éditeur Wave, vous verrez un graphique 2D représentant le temps et le volume. Le domaine temporel serait une troisième donnée, produisant des effets sur les deux autres. Il existe une autre dimension du son qui n’est pas l’espace mais la fréquence. Lorsque nous produisons des données sonores en 3D, elles s’expriment selon la force du son dans les différentes fréquences. Une fois cette dimension ajoutée, de nombreuses portes s’ouvrent. » Harrison cite Rockerfeller Skank de Fatboy Slim comme exemple de ces effets en action. « Vous voyez ce passage où les voix semblent étirées ? C’est ça. »
L’emploi des fréquences offrira aux concepteurs audio un plus grand contrôle et une plus grande flexibilité sur l’insertion des sons en temps réel : « Une fois que les sons sont insérés dans le temps, les volumes, fréquences et bien d’autres effets deviennent disponibles, tout particulièrement les effets d’étirement et de distorsion. Vous pouvez alors isoler des dialogues et changer le timbre de voix des personnages, par exemple. Cela commence à apparaitre dans les jeux. » Quand des compagnies comme Creative arriveront à maîtriser les domaines de fréquence, il y aura de gros changements dans les possibilités offertes aux concepteurs.
Mais l’élément essentiel du son nouvelle génération sera l’innovation esthétique et artistique. « L’usage du silence peut être très important créativement. » pense Harrison. « Prenez Ico, il y a beaucoup d’espaces silencieux et des sons d’ambiance calmes. L’action n’y est pas continue et le joueur peut vraiment prendre le temps d’apprécier l’expérience. Il devrait y avoir plus de considération pour ce genre d’approche dans les bandes-son de jeux. »
Harrison n’est pas le seul à voir un large spectre de possibilités pour le son dans les jeux. « Personne n’a vraiment dompté le son vidéoludique. » dit Sanger. « Micheal Land a été le plus grand de tous pendant un certain moment. Il a créé la musique de The Dig, qui a même été éditée et pour une bonne raison d’ailleurs : elle est excellente. Mais c’est une musique linéaire qui a été réduite à un deal avec l’éditeur… Après, il est venu me voir avec sa grande barbe et m’a dit « Je ne pense pas que la musique interactive soit jamais possible, elle ne sera jamais un art majeur. » Et c’est l’un des plus grands qui dit ça… et c’est parce que l’un des éléments les plus importants de la musique est le timing. On doit savoir ce qui va se passer et quand. Composer de la musique interactive, c’est comme… et bien par exemple, au lieu de faire de la peinture, vous envoyez les couleurs ainsi qu’une liste de directives à un gosse qui veut voir le tableau et vous lui faites faire le boulot de tout assembler. C’est juste impossible. Mais chaque semaine, j’entends une nouvelle idée, ou un petit jeune qui arrive avec une nouvelle perspective. C’est très excitant. Je pense qu’il va y avoir une explosion dans l’art audio interactif et ça arrivera grâce aux jeux vidéo. »

Revenons au maître de conférences Tom Betts dans son studio de Hudderfield. Nous commençons à avoir pas mal d’éléments montrant qu’il y a encore beaucoup de chemin à parcourir pour l’évolution du genre. « Le problème avec le son dans les jeux, en particulier avec la musique, c’est souvent sa rapidité d’adaptation. » remarque Betts. « Les musiques de Tomb Raider se déclenchent selon l’endroit où se trouve le joueur. Lorsque j’aborde un gigantesque panorama à couper le souffle, une musique symphonique démarre. Je fais alors le tour pour revenir au le tunnel boueux par lequel je suis arrivé… et la musique ne réagit pas assez vite. Résultat, j’ai un tunnel boueux symphonique. » Selon Betts, la solution à ce type de problème d’adaptation musicale pourrait bien être la clé du futur artistique et technologique. « L’auto-génération sonore peut produire des pistes plus appropriées aux situations. Par exemple, la piste des percussions pourrait déclencher des coups supplémentaires quand vous êtes en combat et que vous touchez l’ennemi, comme dans Rez. Cela pourrait modifier différents aspects du son en fonction de paramètres précis, à condition que la musique soit partiellement composée en temps réel… C’est difficile à faire et ça demande un processeur puissant, alors les gens ne le font pas. » Les solutions pour évoluer existent déjà mais leur utilisation reste compliquée.
Sanger délivre un diagnostique similaire « Le son dans les jeux reçoit un petit plus par ci, une innovation par là, mais aucun exemple connu n’est aussi différent que Katamari, aussi fun que Guitar Hero, aussi interactif que Monkey Island tout en utilisant une instrumentalisation à des fins avant tout musicales. Je n’aime pas la façon actuelle de faire. Les gens parlent surtout d’argent et du nombre de musiciens dans l’orchestre qui va enregistrer la bande-son. » La seule solution, suggère Sanger, serait qu’un Miyamoto de la musique arrive et secoue les fondations même de l’industrie. Ce n’est qu’en se battant et en se débarrassant de toutes les barrières administratives que l’on arrivera à quelque chose. « C’est difficile et les problèmes rencontrés par le domaine audio peuvent être décourageants. » reconnaît Sanger « Mais ce sont ces difficultés qui conduiront un petit nouveau à tout chambouler et à écrire notre légende. »
A propos de l’auteur
Jim Rossignol est obsédé par les jeux vidéo. Au cours des dix dernières années, il a réussi à focaliser cette obsession à travers l’écriture en écrivant pour des magazines et des sites internet comme Wired, PC Gamer, Gamasutra ou encore le London Times. Il a également publié un livre intitulé This Gaming Life, Travel in Three cities, qui décrit et analyse sous toutes les coutures le jeu online comme pratique culturelle. Il vit aujourd’hui selon ses dires » dans une maison en pierre qui tombe en ruines dans le sud-ouest de l’Angleterre, en écoutant Tom Waits et en s’interrogeant sur son futur »
Traduit de l’anglais par Thomas Ribault.
Merci beaucoup à Laurent Jardin pour son aide, ses conseils et sa relecture !
Pour aller plus loin
Rock, paper, shotgun – Le site pour lequel écrit régulièrement l’auteur







je réagis deja alors que je suis qu’au premier paragraphe
sans Akira Yamaoka en tant que ingenieur de son (avec des couacs pour The Room) et génial compositeur de la bande son, les Silent Hill perdraient de leur impact
second paragraphe
prenons en exemples les INDIANA JONES
Quand Indy tire avec un revolver, ca pete bien
mais le vrai son de l’arme fait songer à un pétard.A la place, c’est le son d’un fusil (à chevrotine)que l’on entend.On (l’ingénieur du son) doit exagérer pour faire vraie.
3eme paragraphe: l’impact du son pour l’image
imaginer une scene où un pauvre bougre se fait ecraser par un véhicule
sans son, c’est horrible sans plus
ajouter les crissement de frein et le bruitage et là vous ‘avez presque envie de vomir’
excellent article de Jim Rossignol