5,5 millions de verbatim à analyser, correspondant souvent à de réels textes et pas seulement des onomatopées. Sur une période d’une dizaine de jours. Tel fût le challenge auquel a été confronté QWAM dans le cadre du Grand débat. Challenge car personne n’avait analysé un tel volume de données textuelles de façon quasi-automatique avec une performance qui n’a fait l’objet d’aucune critique.

L’École nationale de l’administration, ENA (*), revient sur cette opération de début d’année en ouvrant les colonnes de son magazine à Christian Langevin, Directeur général de QWAM.

Rappelons brièvement le contexte : les 5,5 millions de verbatim provenaient du questionnaire ouvert sur une plateforme accessible via le Web. Chaque citoyen pouvait donc s’exprimer, ce qui en fait en soit, un réel challenge, une telle expérience de démocratie participative n’ayant jamais été réalisée à cette échelle. Très loin du référendum et de son manichéisme (l’histoire a montré que les réponses étaient surtout un jugement sur celui qui pose la question, plutôt qu’une réponse à la question elle-même). Ou encore, des Questions à Choix Multiples (QCM) où les réponses proposées sont toujours limitatives.

Il s’agissait bien de « questions ouvertes », sans contrainte, autorisant donc une expression libre et spontanée. Ces questions correspondaient à quatre thèmes sociétaux : Fiscalité et dépenses publiques ; organisation de l’État et des services publics ; Démocratie et citoyenneté; Transition écologique.

Expressions libres et spontanées sont aussi synonyme de très grande variabilité dans la rédaction : style, grammaire, vocabulaire… ne sont pas les mêmes s’agissant d’une personne ayant une maitrise limitée de notre langue ou inversement du titulaire d’une agrégation en Lettres classiques. Or, les deux sont citoyens et dans cet exercice démocratique, doivent avoir une parole prise en compte de façon équivalente.

Le recours à la technologie s’est avéré rapidement incontournable pour analyser une telle volumétrie dans le temps imparti : les réponses étaient autorisées jusqu’au 18 mars et les résultats attendus début avril.

La question est évidemment : quelle technologie ?

La société OpinionWay, qui était le fournisseur retenu dans le cadre de l’appel d’offres du gouvernement, s’est tournée vers QWAM.

Traditionnellement, l’analyse d’un tel corpus commence par extraire un échantillon représentatif dont la taille nécessairement limitée permettra une analyse humaine. Or, qu’est-ce qu’un échantillon représentatif lorsque la taille du corpus est de 5,5 millions ? S’il s’agit d’extraire quelques milliers (donc moins d’un millième) la représentativité risque d’être très limitée.

Une autre voie aurait été le recours à des modèles sémantiques permettant à l’aide de formalisme particulier de décrire ces univers. Il est probable qu’avec cette approche, les analystes seraient toujours à construire ces modèles et que le résultat n’arriverait qu’en fin d’année.

QWAM et son produit QWAM Text Analytics ont apporté une réponse originale et novatrice qui a permis d’analyser …. la totalité du corpus. Car là était bien évidemment le premier challenge. La parole de tous a été prise en compte et pas simplement celles de quelques milliers.

Les moteurs de QWAM Text Analytics reposent sur des technologies d’Intelligence artificielle notamment d’apprentissage automatique et d’analyse automatique du langage. Ils ont permis d’identifier les concepts – suite de mots ayant une valeur sémantique – pour chacune des réponses pour les quatre thèmes précédents.

Cette première analyse a ensuite été utilisée pour clustériser les réponses c.-à-d. les regrouper en ensemble de textes exprimant les mêmes préoccupations. Les technologies d’apprentissage automatique de QWAM ont permis de faire cette opération quasi-automatiquement. Les analystes d’OpinionWay ont créé les premiers regroupements puis ont validé le bon fonctionnement des outils et la qualité des résultats obtenus. Mais c’est bien la technologie qui a « fait le travail ».

Cette opération est une expérience à grande échelle qui ouvre des perspectives innombrables pour tous ceux qui s’intéressent à l’analyse d’opinions. Bien évidemment dans le cadre de consultations citoyennes notamment locales en aidant au développement d‘une réelle démocratie participative.

Mais aussi pour les entreprises notamment du B2C : il existe d’innombrables lieux d’expressions pour les consommateurs : pages Facebook, blogs, avis de consommateurs…. La question n’est plus celle-là mais plutôt comment traiter cette matière première ? Comment s‘assurer que cette richesse sera complétement exploitée ? QWAM a démontré – à très grande échelle – que les marketeurs pouvaient, grâce à QWAM Text Analytics, automatiser la quasi-totalité de cette chaine d’analyse.

L’ENA hors les murs, dossier IA / L’intelligence artificielle au service de la démocratie.