Dans notre dernier post, nous avons montré que QWAM Text Analytics apportait une réponse de très haut niveau à l’analyse de sentiments en les qualifiant à partir de trois critères : Thématique, Nature, Force. Donc de façon plus précise, qu’un simple « positif », « négatif » ou « neutre ».

Ainsi, en reprenant l’exemple d’une enquête d’opinions dans une entreprise à base de questions ouvertes, il est possible d’affirmer que « 80% des collaborateurs sont mécontents de leur rapport avec leur hiérarchie et l’expriment avec une force élevée (+2) » alors que « 50% sont mécontents des conditions d’accès au site mais l’expriment avec modération (-1) ». Ce travail est fait de façon quasi-automatique par QWAM Text Analytics ; nous allons expliquer comment.

Etape 2: comment qualifier Thématique, Nature et Force?

Rappelons que QWAM Text Analytics est construit autour de deux moteurs : un moteur d’extraction et un moteur de découverte, ces moteurs exploitant un référentiel d’analyse qu’ils contribuent à enrichir. L’analyste a toujours la main via un module de screening.

Dans un premier temps, le produit va, à partir de corpus de textes caractéristiques du domaine d’analyse, construire un référentiel spécifique. Le moteur d’extraction va permettre de détecter et d’extraire des suites de mots correspondants aux Thématiques données. Cette extraction sera validée par l’analyste via le module de screening, chaque expression se voyant attribuée une Force selon une échelle de -3 à +3.

Il est bien évident que dans les phases d’initialisation, il est indispensable qu’un opérateur humain « apprenne » au logiciel les connaissances propres à son domaine. Mais il est tout aussi évident que ce travail a été très largement préparé par QWAM Text Analytics, l’opérateur se contentant de valider et qualifier des éléments qui lui sont présentés. A aucun moment, cet opérateur a eu besoin de les modéliser préalablement comme cela est le cas avec de nombreux logiciels d’analyse sémantique.

Dans l’exemple de l’enquête d’opinions des collaborateurs d’une entreprise, le logiciel va proposer sur la thématique « Eloignement », l’expression « le temps de transport est trop élevé ». L’analyste la validera, la Force associée étant probablement de +1.

Lorsque ce « bootstrap » initial est fait, QWAM Text Analytics, grâce à sa technologie de Machine Learning, est capable d’enrichir son référentiel d’analyse en exploitant les nouveaux corpus qui lui sont soumis. Il pourra par exemple associer l’expression « je passe trop de temps dans les transports » à celle déjà connue « « le temps de transport est trop élevé » », en proposant une Force identique, soit +1. En dernier recours, l’analyste pourra valider, modifier voire refuser la proposition.

Dans un domaine sémantique précis, comme le sont par exemple les enquêtes d’opinions en entreprise, le référentiel va converger assez rapidement avec pour chaque nouvelle enquête très peu d’éléments nouveaux à valider. QWAM Text Analytics capitalise les connaissances au fur et à mesure de leur acquisition et ces connaissances sont mutualisables. Dans l’exemple précédent, si une autre entreprise lance une enquête d’opinion, une grande partie du référentiel déjà construit sera immédiatement opérationnelle ; seules certaines Thématiques très spécifiques à l’activité de la société devront probablement être complétées.

Et le troisième critère, la Nature du sentiment, comment est-il déterminé ? Remarquons que celui-ci est relativement indépendant des Thématiques et de leur Force. Lorsque je suis en colère, je le suis quelle que soit la raison. C’est un état qui va se verbaliser par des expressions qui sont propres à une Thématique et de façon plus ou moins virulente, indiquant une Force. Dans l’exemple précédent, dire « je ne comprends plus le management et je me demande où va l’entreprise » exprime un sentiment d’inquiétude pour la thématique « Lien avec la hiérarchie » avec une Force élevée.

Les deux critères « Thématique » et « Force » permettent de qualifier parfaitement ce sentiment, l’intérêt du troisième critère, la Nature, est d’avoir une vue d’ensemble sur l’enquête. Par exemple, si pour toutes les Thématiques de l’enquête (« Liens avec la hiérarchie, Transports, Conditions de travail…), la Nature dominante des sentiments exprimés est l’inquiétude, la Direction de cette entreprise sera avertie de ce problème et pourra agir en conséquence par des actions de communication inerne ! La Nature va donner une vision globale parfaitement complémentaire de celles apportées par les Thématiques et par la Force.

Le rôle de l’analyste dans son travail de validation est là aussi déterminant. Notons néanmoins que les façons d’exprimer sa colère sont multiples mais pour un domaine précis (par ex. les enquêtes d’opinion) convergent assez vite vers un ensemble fini. Le module de Machine Learning de QWAM Text Analytics permet d’accélérer cette convergence, les référentiels construits étant là aussi capitalisés et donc ré-exploitables.