L'intelligence artificielle a autonomisé la génération de voix pour les patients atteints de sclérose latérale amyotrophique

06-02-2025

Résumé

La Sclérose Latérale Amyotrophique (SLA) est une maladie neurodégénérative qui peut entraîner une perte progressive de l'élocution résultant d'un dysfonctionnement bulbaire, ce qui peut avoir un impact négatif important sur le bien-être mental du patient.  Il a été démontré que les stratégies de Communication Augmentative Alternative (CAA) basées sur des voix synthétiques aident les patients à maintenir la communication et à améliorer leur Qualité de Vie (QdV).
Cependant, ces voix synthétiques sont souvent perçues comme impersonnelles et échouent à capturer la voix unique et l’identité du patient. Pour résoudre ce problème, la combinaison de la banque vocale (BV) et de l’intelligence artificielle (IA) a émergé comme une stratégie de communication plus naturelle, permettant aux individus de préserver leur voix pour une utilisation avec des dispositifs CAA au besoin. Cela implique d’enregistrer des échantillons vocaux pour générer une voix synthétique ressemblant étroitement à la leur.
Malgré l'intérêt croissant dans la BV, il y a un manque de stratégie claire pour la mise en œuvre efficace dans des maladies à progression rapide comme la SLA. 
En outre, la qualité perceptuelle de la VB chez les patients dont l'élocution est préservée, en particulier lorsqu'elle est proposée au début de la maladie, reste mal comprise. En outre, la qualité perceptive de la VB chez les patients dont l'élocution est préservée, en particulier lorsqu'elle est proposée tôt dans la maladie, reste mal comprise. À la lumière de ces défis, cette étude vise à évaluer l'efficacité et l'impact perceptif des voix générées par l'IA chez les patients atteints de SLA avec élocution préservée, en utilisant un système de synthèse vocale personnalisée basé sur l'apprentissage automatique.
La voix spécifique du patient générée par l'IA est obtenue grâce à un enregistrement vocal, suivi d'un ajustement précis en utilisant un Generative Adversarial Network for Efficient and High Fidelity Speech Synthesis (HiFi-GAN) - ou un Réseau Antagoniste Génératif pour une Synthèse Vocale Efficace et de Haute Fidélité -, il en résulte un modèle capable de produire une élocution très similaire à la propre voix du patient, avec une qualité expressive et audio exceptionnelle. En abordant ces aspects, cette étude vise à offrir des informations précieuses sur les avantages et les défis potentiels en combinant la BV avec des voix d'IA pour améliorer le soutien à la communication chez les patients atteints de SLA.

Traduction: Viviane
Source: Scientific Reports
 

 

Share