Les « heat maps », telles que celle illustrant ce billet , se sont développées depuis plusieurs années, facilitant la lecture de l’analyste en mettant en avant des sous-ensembles de données. Ces sous-ensembles sont colorés de façon plus ou moins « chaude » (donc en se rapprochant des tons rouge) en fonction de l’intensité de la thématique étudiée. Par exemple, dans notre illustration, plus le sujet « politiques d’immigration » est intense, plus la zone géographique correspondante est « chaude » (ici en jaune orangé).

La question posée est comment déterminer cette intensité ? Une première approche est endogène dans le sens où elle va se limiter au corpus lui-même. Par exemple, on peut dénombrer le nombre de fois où l’expression « politiques d’immigration » est employée et plus ce nombre est élevé dans une zone géographique donnée, plus cette zone est chaude pour cette expression.

En étant un peu moins endogène, il est possible d’adjoindre à cet outil d’analyse rudimentaire un thesaurus qui va fournir les différents mots et expressions liés au sujet « politiques d’immigration » comme : accueil des migrants, mesures d’expulsions des sans-papiers, etc.

Au final, le système ainsi construit permettra une bonne analyse du corpus à partir de connaissances générales qui s’appliquent d’ailleurs à tout autre corpus. Il est possible bien évidemment de faire évoluer le thésaurus pour prendre en compte des éléments nouveaux.

Une autre approche, qui a été suivie par QWAM dans son produit QWAM Text Analytics, consiste à rechercher des connaissances exogènes c’est-à-dire qui ne se sont pas liées au corpus lui-même mais à des connaissances acquises par ailleurs. Le thésaurus que nous évoquions précédemment en est une. L’actualité suivi au quotidien en est une autre et offre de très nombreuses ressources pour déterminer les sujets brulants du moment.

A l’heure de la rédaction de ce billet, le sommet G20 de Hambourg vient de se terminer entérinant la sortie des Etats-Unis des accords de Paris sur le climat. Le suivi et l’analyse des articles rédigés à cette occasion vont mettre en évidence de très nombreux concepts : sortie des Etats-Unis, accords de Paris, réchauffement climatique… bien évidemment mais aussi des thématiques comme « migrations climatiques », « terres devenues inhabitables »…

Ce sont les concepts qui font l’actualité du jour et que nous appelons « concepts chauds ». Ils sont calculés par QWAM Text Analytics grâce à l’infrastructure de collecte d’informations Web de QWAM. Il s’agit d’opérations complexes qui imposent de traiter en temps quasi-réel des volumes de données très importants qu’il a fallu, au préalable, collecter sur des sources externes.

Cette approche est précieuse car elle permet d’extraire les concepts de l’actualité du jour. Si nous reprenons l’exemple du corpus des politiques d’immigration, la cartographie des concepts chauds – ceux de l’actualité – va mettre en avant des thèmes comme « migrations climatiques » même s’ils étaient peu représentés dans ce corpus. L’éclairage de l’actualité du jour leur donne une autre importance que celle qu’ils auraient eu en se limitant aux seules questions de politiques migratoire. Ils sont sans doute un signal faible compte-tenu de leur importance croissante sur les questions liées au réchauffement climatique.

Les « concepts chauds » calculés par QWAM Text Analytics permettent de colorer les cartes d’un corpus à partir de données de l’actualité, indépendamment du corpus et de leurs intensités. Ce sont donc des connaissances précieuses pour offrir une autre lecture à l’analyste !