On est ce qu’on mange ! Même avec de l’IA !

Tout le monde connaît cet adage que l’on peut aussi reformuler en « on est ce qu’on écrit ». Effectivement, chacun reconnait dans un mail le style d’écriture de son auteur. De la même façon, le ton enflammé de tel chroniquer sur des sujets de société est un « marqueur » qui le différentiera de son collègue au vocabulaire plus modéré dans le domaine économique.

Intuition que l’on souhaiterait bien évidemment pouvoir modéliser pour la rendre plus objective et surtout automatisable.

Ce problème se pose par exemple pour les agences de relations presse. Missionnées par les entreprises qui sont leurs clients, elles doivent adresser les communiqués de presse aux journalistes susceptibles d’être intéressés. Il y a bien évidemment le « noyau dur », les professionnels qui suivent régulièrement l’actualité de l’entreprise en question. Mais les autres ? Généralement, ces agences utilisent un annuaire qui associe à chaque journaliste des catégories : politique régionale, internationale, questions sociales, économie locale et régionale…

Par exemple, M. Dupond est un journaliste économique qui écrit surtout sur l’industrie automobile. Que M. Dupond ait d’autres centres d’intérêts comme par exemple l’Intelligence Artificielle échappera à cette catégorisation car il n’écrit que très peu sur le sujet mais cite régulièrement ces technologies dans ses articles. Or, il ne se passe pas une journée sans qu’un article sur les technologies d’IA ne soit publié. Qui intéressera M. Dupond. Par ailleurs, ce qui est vrai un jour ne l’est pas indéfiniment. Actuellement, M. Dupond est intéressé par l’IA et mais peut-être le sera-t-il plus par les robots médicaux dans quelques mois. Et enfin, non seulement M. Dupond peut être un journaliste économique, s’intéresser à l’IA mais il peut aussi se passionner pour le Rock and Roll. Et il est fort probable qu’une communication suite au dernier concert des Rolling Stones ne le laissera pas insensible, quel que soit le sujet.

Cet exemple, qui peut paraitre simpliste, cache en fait une réalité opérationnelle beaucoup plus complexe que vivent quotidiennement les agences de presse. Ces annuaires catégorisés ont plus que leurs limites surtout que l’on recense actuellement plus de 27 000 journalistes en France.

C’est en partant de ce constat que QWAM a développé une solution capable de définir un profil pour ces 27 000 journalistes qui partent non pas d’a priori mais au contraire de leurs productions documentaires parce que « on est ce qu’on écrit ».

Le principe de fonctionnement est le suivant : à chaque journaliste, on associe un corpus de ses cent derniers articles. Pourquoi cent ? Parce que même pour un rédacteur disert, cette valeur permettra de couvrir plusieurs semaines voire mois et donc de connaitre ses centres d’intérêts. Parce que même si M. Dupond est un journaliste économique passionné de rock and roll, il est peu probable qu’il n’écrive pas dans au moins un pour cent des cas sur sa passion, quel que soit le support. Ou alors elle est bien cachée !

Ensuite, ce corpus est indexé avec un enrichissement permettant des interrogations à partir de requêtes complexes par le moteur de recherche QWAM.

Lorsqu’un communiqué de presse est publié, il sera analysé par les outils de Text Analytics de QWAM qui vont en extraire les principaux concepts à commencer par les concepts chauds (voir Concepts chauds. Mais d’où vient la chaleur?) qui caractérisent l’actualité du moment.

Ces concepts seront autant de « requêtes » soumises au moteur de recherche QWAM sur le corpus des articles rédigés par la base de 27 000 journalistes. De façon très classique, le moteur propose une liste d’articles répondant à cette requête, classée par ordre. A chaque article est associé un journaliste. Il devient enfantin de construire la liste par ordre décroissant des journalistes intéressés par le sujet décrit par les « requêtes » c’est-à-dire le communiqué de presse.

Et le classement de cette première liste peut être optimisé : en effet, il est possible d’utiliser les modules de QWAM Text Analytics sur le corpus de chaque journaliste, ses cent derniers articles publiés, ceux du moment. Et d’extraire de ces articles, les concepts les plus importants. Cette deuxième analyse permettra de reclasser la première liste de journalistes et de mettre en premier ceux qui s’intéressent actuellement aux thématiques du communiqué de presse. L’impact de cette communication sera donc extrêmement efficace car l’agence aura ciblé précisément les journalistes les plus motivés !

Il est bien évidemment que toute la puissance du dispositif est liée d’une part, aux capacités d’indexation du corpus des productions des journalistes et d’autre part, à la qualité des concepts extraits du communiqué de presse. Autant de problématiques que les technologies intégrées dans les produits de QWAM notamment QWAM Text Analytics peuvent traiter avec performance en s’appuyant sur des algorithmes de Machine Learning.

Les bénéfices de cette approche ? Comparé à un annuaire statique, ils sont multiples :

    – Le dispositif est dynamique : les cent derniers articles associés à chaque journaliste évoluent quotidiennement ; l’évolution de ses centres d’intérêts caractérisés par ses productions sera prise en compte automatiquement.
    – Le dispositif est fidèle : il associe un communiqué de presse à partir des articles effectivement rédigés par les journalistes et non à partir de mots-clés définis à priori dans un annuaire plus ou moins obsolète (sans certitude que ces mots-clés soient justes).
    – Le dispositif est complet : même si le rock and roll est marginal pour son activité professionnelle, cette thématique sera associée aux centres d’intérêt de notre journaliste Jacques Dupond. Tout ce qu’il écrit est pris en compte !
    – Le dispositif est automatique : inutile de mettre à jour régulièrement les catégories d’un annuaire qui, de toutes les façons, sera incomplet. Tous les traitements décrits précédemment sont entièrement automatiques ; seul un contrôle final est recommandé pour vérifier l’absence d’erreurs.

Nous parlions la semaine passée de réalités opérationnelles de l’Intelligence Artificielle : cet exemple d’applications illustre parfaitement la puissance des outils comme QWAM Text Analytics. Et il n’y a rien de mystique !


Publié

dans

Étiquettes :