Après les appels sortants Manifone veut disrupter l'IA vocale

Publié le 13 avril 2026 à 08:30 par Magazine En-Contact

Créé en 2006 à Vannes, l’opérateur télécom spécialiste des centres de contacts fête ses vingt ans avec une ambition renouvelée : faire de son expertise historique du canal voix le socle d’une plateforme d’IA conversationnelle taillée pour la performance.

Son fondateur, Lounis Goudjil, revient sur une trajectoire singulière, les enseignements d’une longue pratique du signal vocal et sa lecture d’un marché en pleine effervescence dans le dernier numéro d'En-Contact, #139.

Manifone fête ses vingt ans. En quoi ces deux décennies vous ont-elles préparé à l’IA vocale ?

Lounis Goudjil : Manifone est née d’un problème très concret : le coût prohibitif des appels internationaux depuis un mobile. Nous avons commencé en démocratisant la voix sur IP pour le grand public, avant que l’essor des applications OTT comme WhatsApp ou Skype ne rende ce modèle économique obsolète. C’est ce premier pivot qui nous a conduits vers les centres de contacts, un marché très différent, où la voix n’est pas un usage récréatif mais un outil de production, soumis à des exigences de qualité, de disponibilité et de conformité réglementaire élevées.

Ce choix a profondément structuré notre ADN. Nous sommes devenus un opérateur exclusivement dédié à la relation client. Aujourd’hui, ce sont plusieurs milliards d’appels acheminés chaque année, des millions d’interactions quotidiennes, plus de 300 clients, dont la grande majorité des principaux outsourceurs du marché français.

Pendant vingt ans, nous avons travaillé sur une matière première unique : le signal vocal. Sa stabilité. Sa qualité. Sa résilience. Sa latence. Chaque paramètre a été étudié, mesuré, optimisé dans des conditions d’exploitation réelles, en tenant compte des contingences effectives de nos clients.

Lorsque l’IA vocale a émergé, nous n’avons pas découvert la voix. Nous avions déjà acquis une compréhension fine de ses contraintes techniques, de ses spécificités réglementaires et opérationnelles. Le passage vers l’IA n’est pas une rupture pour Manifone. Nous nous inscrivons dans la continuité logique de notre évolution technologique. Nous n’avons pas changé de terrain ; c’est le terrain qui a évolué autour de nous, et nous nous sommes saisis de l’enjeu.

« L’intelligence artificielle progresse à une vitesse fulgurante. Notre conviction est simple : elle doit désormais s’incarner dans une conversation fluide, naturelle, instantanée. C’est sur ce terrain que nous entendons jouer un rôle majeur dans les années à venir ! »

Pourquoi l’appel sortant a-t-il été aussi structurant ?

L.G : L’appel sortant est probablement l’environnement le plus exigeant qui soit. Vous appelez un interlocuteur qui ne vous attend pas. Vous avez quelques secondes pour susciter l’attention, sans irriter, dans un cadre réglementaire devenu particulièrement strict.

Dans ce contexte, chaque milliseconde compte : la présentation du numéro, la détection du répondeur, la suppression du blanc au décroché, la fluidité de la mise en relation. Nous avons passé des années à optimiser chacun de ces paramètres pour améliorer la performance opérationnelle de nos clients, qu’il s’agisse de taux de contact, de productivité agent ou de satisfaction client.

Cette discipline nous a appris à penser la voix comme un écosystème global. Rien n’est jamais anodin. La moindre latence dégrade la perception. Cette culture de l’optimisation fine s’avère aujourd’hui déterminante dans la conception d’agents IA vocaux crédibles.

Le marché de l’IA vocale est très actif. Où voyez-vous le principal décalage entre promesses et réalité ?

L.G : Il tient en un mot : la latence. La latence n’est pas un simple indicateur technique. Elle conditionne le naturel de l’échange. Au-delà d’un certain seuil, l’utilisateur ressent immédiatement un problème, une friction. L’interaction devient mécanique, et la confiance dans l’agent IA s’effrite.

Beaucoup d’acteurs communiquent sur des temps de réponse très ambitieux, souvent mesurés dans des conditions idéales. Mais entre un environnement de démonstration contrôlé et des conditions réelles d’exploitation, avec des flux télécom, des conversions audios, des briques technologiques distinctes, les performances peuvent varier sensiblement. Notre approche est pragmatique : mesurer en situation réelle, identifier chaque source de délai et la réduire méthodiquement.

Où se créent concrètement ces latences et comment en réduire les impacts ?

L.G : Dans la chaîne technologique elle-même. Un appel téléphonique arrive en 8 kHz. Il est souvent converti vers des formats web 16 ou 48 kHz pour être traité par des moteurs de transcription. Le texte est ensuite transmis à un modèle de langage, puis à un moteur de synthèse vocale. La réponse audio est enfin reconvertie vers le format télécom. Chaque conversion, chaque appel d’API, chaque transit réseau ajoute des millisecondes. Individuellement, cela paraît marginal. Mais une fois additionnés, cumulés, ces délais deviennent perceptibles et ont un impact parfois très significatif sur le ressenti de l’interlocuteur.

Chez Manifone, nous avons fait un choix radical : reconstruire un pipeline vocal intégré, hébergé dans un environnement maîtrisé, en limitant au maximum les conversions inutiles et les dépendances externes.

Nous travaillons l’audio au plus près du format télécom, et nous optimisons la détection de fin de parole afin d’éviter les attentes excessives entre la fin de l’énoncé de l’utilisateur et le début de la réponse de l’agent.

Ce n’est pas une innovation isolée. C’est une somme d’optimisations micro-techniques à chaque niveau et appliquées avec rigueur. C’est cela qui transforme l’expérience globale.

Quels résultats obtenez-vous ?

L.G : Nous atteignons de manière reproductible des temps de réponse inférieurs à 800 millisecondes, et parfois bien en dessous selon les configurations. Mais le plus important n’est pas le chiffre brut. C’est la sensation conversationnelle.

Un agent performant ne se contente pas de répondre vite. Il respecte le rythme humain. Il distingue un acquiescement d’une véritable interruption. Il reprend après une hésitation sans créer de rupture. Il évite de couper la parole à tort. Ces comportements, en apparence subtils, sont déterminants pour l’acceptabilité de l’agent par les utilisateurs finaux, qu’il s’agisse d’un client appelant pour signaler un incident ou d’un prospect contacté dans le cadre d’une campagne sortante.

Nous avons développé des mécanismes d’analyse en temps réel des premiers mots prononcés par l’interlocuteur afin d’adapter dynamiquement la réaction de l’agent. Ces micro-ajustements sont invisibles à l’utilisateur, mais ils changent profondément sa perception de la qualité de l’échange. C’est ce niveau de finesse qui fait la différence entre un agent IA que l’on accepte et un agent IA que l’on subit.

Certaines promesses du marché vous semblent-elles fragiles ?

L.G : La performance conversationnelle dépend de l’ensemble de l’architecture. L’idée d’un agent vocal totalement « plug and play », indépendamment du socle télécom, est souvent simplificatrice, voire limitante. L’intelligence du modèle est essentielle, mais elle ne compense pas une architecture technique mal optimisée.

Un grand modèle de langage ne peut pas effacer une demi-seconde perdue dans des conversions ou des allers-retours réseau. La qualité de la couche télécom n’est pas un détail d’intégration : c’est une condition sine qua non de la qualité de l’expérience. C’est précisément ce que vingt ans de terrain nous ont appris à ne jamais négliger.

*Ne quittez pas un correspondant cherche à vous joindre*, édité par Malpaso-RCM, à commander ici.

Quelle est votre ambition pour les prochaines années ?

L.G : Nous construisons une plateforme ouverte et modulaire. Les entreprises pourront y connecter les modèles d’IA de leur choix, leurs bases de données, leurs CRM. Nous ne cherchons pas à concurrencer les acteurs spécialisés dans les LLM ; certains sont d’ailleurs nos partenaires ou nos clients potentiels. Notre positionnement est celui d’un opérateur de confiance, pas d’un éditeur de modèles.

Notre mission telle que nous la concevons est claire : fournir une couche vocale optimisée, robuste et scalable. En tant qu’opérateur télécom historiquement dédié aux centres de contacts, nous savons gérer des flux massifs, garantir la continuité de service et intégrer sans couture des environnements entrants et sortants. Nous pouvons également proposer des architectures entièrement maîtrisées en environnement européen, voire français, pour répondre aux enjeux de souveraineté et de conformité réglementaire qui deviennent centraux pour de nombreuses entreprises. La question de la localisation des données et du contrôle de l’infrastructure s’impose désormais dans les appels d’offres, en particulier dans les secteurs régulés comme la finance, la santé ou les services publics.

Après vingt ans consacrés à la voix, il nous a semblé naturel d’en faire le socle d’une nouvelle génération d’agents conversationnels. L’intelligence artificielle progresse à une vitesse fulgurante. Notre conviction est simple : elle doit désormais s’incarner dans une conversation fluide, naturelle, instantanée. C’est sur ce terrain que nous entendons jouer un rôle majeur dans les années à venir !

Ne pas rater le prochain standard

Il y a quelques années, un des cadres techniques de Webhelp, devenu Concentrix, François-Régis Leclercq, avait dans un article d'En-Contact résumé de façon simple les enjeux des BPO, directeurs de l'expérience client, CTO : dans nos métiers, il ne faut pas rater l'outil, la plateforme, l'innovation qui va devenir un nouveau standard. Du temps a passé, de nombreux cadres, fondateurs de ces champions français ont quitté le marché ou le métier. Le constat demeure.

TP se réorganise, chez Foundever, on songe à faire de la télévente. Les agents conversationnels peuvent s'avérer efficaces, en appels sortants, actionnés sur des fichiers prospects. Hier, chez l'un des leaders du lead intentionniste en France, on a parlé de la nouvelle stratégie d'Eleven Labs, qui réserverait ses outils à des clients gérés en direct. Ce sera, serait un changement de paradigme radical pour tous ceux qui ont développé leur IA vocale sur/avec ElevenLabs.

On va vivre des mois et des années passionnants. A Vannes, Lounis et ses équipes ne se soucient pas de la vente de SFR, mais de concevoir le produit adéquat.

Propos recueillis par Manuel Jacquinet.

Après les appels sortants Manifone veut disrupter l'IA vocale

Créé en 2006 à Vannes, l’opérateur télécom spécialiste des centres de contacts fête ses vingt ans avec une ambition renouvelée : faire de son expertise historique du canal voix le socle d’une plateforme d’IA conversationnelle taillée pour la performance.

« L’intelligence artificielle progresse à une vitesse fulgurante. Notre conviction est simple : elle doit désormais s’incarner dans une conversation fluide, naturelle, instantanée. C’est sur ce terrain que nous entendons jouer un rôle majeur dans les années à venir ! »

A lire aussi

Les plus populaires