Le magazine indépendant et international du BPO, du CRM et de l'expérience client.

Après les appels sortants Manifone veut disrupter l'IA vocale

Publié le 09 avril 2026 à 14:30 par Magazine En-Contact
Après les appels sortants Manifone veut disrupter l'IA vocale

Créé en 2006 à Vannes, l’opérateur télécom spécialiste des centres de contacts fête ses vingt ans avec une ambition renouvelée : faire de son expertise historique du canal voix le socle d’une plateforme d’IA conversationnelle taillée pour la performance.

Son fondateur, Lounis Goudjil, revient sur une trajectoire singulière, les enseignements d’une longue pratique du signal vocal et sa lecture d’un marché en pleine effervescence dans le dernier numéro d'En-Contact, #139.

Lounis Goudjil © Edouard Jacquinet

Manifone fête ses vingt ans. En quoi ces deux décennies vous ont-elles préparé à l’IA vocale ?

En-Contact #139

Lounis Goudjil : Manifone est née d’un problème très concret : le coût prohibitif des appels internationaux depuis un mobile. Nous avons commencé en démocratisant la voix sur IP pour le grand public, avant que l’essor des applications OTT comme WhatsApp ou Skype ne rende ce modèle économique obsolète. C’est ce premier pivot qui nous a conduits vers les centres de contacts, un marché très différent, où la voix n’est pas un usage récréatif mais un outil de production, soumis à des exigences de qualité, de disponibilité et de conformité réglementaire élevées.

Ce choix a profondément structuré notre ADN. Nous sommes devenus un opérateur exclusivement dédié à la relation client. Aujourd’hui, ce sont plusieurs milliards d’appels acheminés chaque année, des millions d’interactions quotidiennes, plus de 300 clients, dont la grande majorité des principaux outsourceurs du marché français.

Pendant vingt ans, nous avons travaillé sur une matière première unique : le signal vocal. Sa stabilité. Sa qualité. Sa résilience. Sa latence. Chaque paramètre a été étudié, mesuré, optimisé dans des conditions d’exploitation réelles, en tenant compte des contingences effectives de nos clients.

Lorsque l’IA vocale a émergé, nous n’avons pas découvert la voix. Nous avions déjà acquis une compréhension fine de ses contraintes techniques, de ses spécificités réglementaires et opérationnelles. Le passage vers l’IA n’est pas une rupture pour Manifone. Nous nous inscrivons dans la continuité logique de notre évolution technologique. Nous n’avons pas changé de terrain ; c’est le terrain qui a évolué autour de nous, et nous nous sommes saisis de l’enjeu.

 

« L’intelligence artificielle progresse à une vitesse fulgurante. Notre conviction est simple : elle doit désormais s’incarner dans une conversation fluide, naturelle, instantanée. C’est sur ce terrain que nous entendons jouer un rôle majeur dans les années à venir ! »

 

Pourquoi l’appel sortant a-t-il été aussi structurant ?

L.G : L’appel sortant est probablement l’environnement le plus exigeant qui soit. Vous appelez un interlocuteur qui ne vous attend pas. Vous avez quelques secondes pour susciter l’attention, sans irriter, dans un cadre réglementaire devenu particulièrement strict.

Dans ce contexte, chaque milliseconde compte : la présentation du numéro, la détection du répondeur, la suppression du blanc au décroché, la fluidité de la mise en relation. Nous avons passé des années à optimiser chacun de ces paramètres pour améliorer la performance opérationnelle de nos clients, qu’il s’agisse de taux de contact, de productivité agent ou de satisfaction client.

Cette discipline nous a appris à penser la voix comme un écosystème global. Rien n’est jamais anodin. La moindre latence dégrade la perception. Cette culture de l’optimisation fine s’avère aujourd’hui déterminante dans la conception d’agents IA vocaux crédibles.

Lounis Goudjil © Edouard Jacquinet

Le marché de l’IA vocale est très actif. Où voyez-vous le principal décalage entre promesses et réalité ?

L.G : Il tient en un mot : la latence. La latence n’est pas un simple indicateur technique. Elle conditionne le naturel de l’échange. Au-delà d’un certain seuil, l’utilisateur ressent immédiatement un problème, une friction. L’interaction devient mécanique, et la confiance dans l’agent IA s’effrite.

Beaucoup d’acteurs communiquent sur des temps de réponse très ambitieux, souvent mesurés dans des conditions idéales. Mais entre un environnement de démonstration contrôlé et des conditions réelles d’exploitation, avec des flux télécom, des conversions audios, des briques technologiques distinctes, les performances peuvent varier sensiblement. Notre approche est pragmatique : mesurer en situation réelle, identifier chaque source de délai et la réduire méthodiquement.

Où se créent concrètement ces latences et comment en réduire les impacts ?

L.G : Dans la chaîne technologique elle-même. Un appel téléphonique arrive en 8 kHz. Il est souvent converti vers des formats web 16 ou 48 kHz pour être traité par des moteurs de transcription. Le texte est ensuite transmis à un modèle de langage, puis à un moteur de synthèse vocale. La réponse audio est enfin reconvertie vers le format télécom. Chaque conversion, chaque appel d’API, chaque transit réseau ajoute des millisecondes. Individuellement, cela paraît marginal. Mais une fois additionnés, cumulés, ces délais deviennent perceptibles et ont un impact parfois très significatif sur le ressenti de l’interlocuteur.

Chez Manifone, nous avons fait un choix radical : reconstruire un pipeline vocal intégré, hébergé dans un environnement maîtrisé, en limitant au maximum les conversions inutiles et les dépendances externes.

Nous travaillons l’audio au plus près du format télécom, et nous optimisons la détection de fin de parole afin d’éviter les attentes excessives entre la fin de l’énoncé de l’utilisateur et le début de la réponse de l’agent.

Ce n’est pas une innovation isolée. C’est une somme d’optimisations micro-techniques à chaque niveau et appliquées avec rigueur. C’est cela qui transforme l’expérience globale.

Lounis Goudjil © Edouard Jacquinet

Quels résultats obtenez-vous ?

L.G : Nous atteignons de manière reproductible des temps de réponse inférieurs à 800 millisecondes, et parfois bien en dessous selon les configurations. Mais le plus important n’est pas le chiffre brut. C’est la sensation conversationnelle.

Un agent performant ne se contente pas de répondre vite. Il respecte le rythme humain. Il distingue un acquiescement d’une véritable interruption. Il reprend après une hésitation sans créer de rupture. Il évite de couper la parole à tort. Ces comportements, en apparence subtils, sont déterminants pour l’acceptabilité de l’agent par les utilisateurs finaux, qu’il s’agisse d’un client appelant pour signaler un incident ou d’un prospect contacté dans le cadre d’une campagne sortante.

Nous avons développé des mécanismes d’analyse en temps réel des premiers mots prononcés par l’interlocuteur afin d’adapter dynamiquement la réaction de l’agent. Ces micro-ajustements sont invisibles à l’utilisateur, mais ils changent profondément sa perception de la qualité de l’échange. C’est ce niveau de finesse qui fait la différence entre un agent IA que l’on accepte et un agent IA que l’on subit.

Certaines promesses du marché vous semblent-elles fragiles ?

L.G : La performance conversationnelle dépend de l’ensemble de l’architecture. L’idée d’un agent vocal totalement « plug and play », indépendamment du socle télécom, est souvent simplificatrice, voire limitante. L’intelligence du modèle est essentielle, mais elle ne compense pas une architecture technique mal optimisée.

Un grand modèle de langage ne peut pas effacer une demi-seconde perdue dans des conversions ou des allers-retours réseau. La qualité de la couche télécom n’est pas un détail d’intégration : c’est une condition sine qua non de la qualité de l’expérience. C’est précisément ce que vingt ans de terrain nous ont appris à ne jamais négliger.

Ne quittez pas un correspondant cherche à vous joindre, édité par Malpaso-RCM, à commander ici. 

Quelle est votre ambition pour les prochaines années ?

L.G : Nous construisons une plateforme ouverte et modulaire. Les entreprises pourront y connecter les modèles d’IA de leur choix, leurs bases de données, leurs CRM. Nous ne cherchons pas à concurrencer les acteurs spécialisés dans les LLM ; certains sont d’ailleurs nos partenaires ou nos clients potentiels. Notre positionnement est celui d’un opérateur de confiance, pas d’un éditeur de modèles.

Notre mission telle que nous la concevons est claire : fournir une couche vocale optimisée, robuste et scalable. En tant qu’opérateur télécom historiquement dédié aux centres de contacts, nous savons gérer des flux massifs, garantir la continuité de service et intégrer sans couture des environnements entrants et sortants. Nous pouvons également proposer des architectures entièrement maîtrisées en environnement européen, voire français, pour répondre aux enjeux de souveraineté et de conformité réglementaire qui deviennent centraux pour de nombreuses entreprises. La question de la localisation des données et du contrôle de l’infrastructure s’impose désormais dans les appels d’offres, en particulier dans les secteurs régulés comme la finance, la santé ou les services publics.

Après vingt ans consacrés à la voix, il nous a semblé naturel d’en faire le socle d’une nouvelle génération d’agents conversationnels. L’intelligence artificielle progresse à une vitesse fulgurante. Notre conviction est simple : elle doit désormais s’incarner dans une conversation fluide, naturelle, instantanée. C’est sur ce terrain que nous entendons jouer un rôle majeur dans les années à venir !

Photo de une: Lounis Goudjil © Edouard Jacquinet

A lire aussi

Profitez d'un accès illimité au magazine En-contact pour moins de 3 € par semaine.
Abonnez-vous maintenant
×