Interview d’Ivan Monnier, CTO de QWAM suite à AI Paris

Ivan Monnier a animé l’atelier Machine Learning et Sémantique lors de la conférence AI Paris le 7 juin 2017. Nous l’avons interviewé à l’issue de la conférence, l’occasion de revenir sur les temps forts de sa présentation.

Ivan, quel est ton sentiment suite à cette conférence ?

Extrêmement positif ! Nous avons eu un flux continu de visiteurs sur notre stand et l’atelier que nous animions affichait « complet » ce qui n’est pas si fréquent ! « AI Paris » est un vrai succès qui montre que l’Intelligence artificielle est, comme le disait la CEO de Google, ce qui va dominer le monde dans les 10 prochaines années.

Ton intervention s’intitulait « Machine Learning et sémantique ». Il est assez inhabituel de voir ces deux mots ensemble ?

Et c’est pourtant la voie du succès. Pendant des années, les modèles et donc les technologies se sont opposés : la statistique à l’opposé d’une sémantique déclarative, l’IA et les techniques d’apprentissage étant un monde à part. Tout ceci n’a pas de sens et la vraie question est plutôt comment construire un référentiel d’analyse pour permettre à un utilisateur d’analyser rapidement et précisément ses données textuelles sans cesse croissantes. Chez QWAM nous n’avons pas choisi une « école » mais nous appartenons à toutes, conscient qu’un outil est adapté à certaines tâches alors qu’un autre le sera pour d’autres tâches. Notre référentiel d’analyse fait appel à des technologies à base de règles, par exemple pour extraire des entités nommées régulières comme le sont les noms de personnes et de lieux, …Il fait appel à des méthodes statistiques pour extraire les « concepts chauds » et au Machine Learning lorsqu’il s’agit de classifier des données inconnues que l’on peut, par ces techniques, regrouper sans supervision préalable. En un mot, le succès est dans la diversité des outils ! Et c’est ce qui fait la puissance de notre produit QWAM Text Analytics.

Tu parles de « concepts chauds » ce qui est assez original. Tu peux en dire plus ?

Oui, c’est un « unique » de QWAM qui est le fruit de plusieurs années de travail. Dans notre Datacenter, nous collectons quotidiennement des dizaines de milliers de pages Web que nous analysons pour en extraire les termes les plus significatifs du jour. Actuellement, le vocabulaire autour des législatives est très « chaud »… tout comme celui des attentats, malheureusement. Le tout classé en fonction des sources et des thématiques, notamment celles suivies par nos clients.

Avec ces concepts chauds, nous avons des informations complémentaires pour analyser un corpus de documents, indépendamment du corpus lui-même. C’est une connaissance à part entière qui est liée à l’actualité. Ainsi, lorsqu’on analyse un nouveau corpus, ces « concepts » peuvent y apparaître mais de façon marginale au sein du corpus. Alors qu’ils auraient été normalement rejetés, en les ayant identifiés comme « chauds », ils seront mis en exergue pour ce corpus.

A la fin de la présentation, plusieurs personnes ont fait remarquer qu’à l’évidence votre approche était très opérationnelle. Sentiment partagé ?

Oui, et nous en sommes fiers. Encore une fois, nous ne sommes pas d’une « école » et ce que j’ai présenté est le fruit d’un travail réalisé en commun avec nos clients. Ce qui ne veut pas dire que nous n’avons pas de programmes de recherche. Je le rappelais au début de mon intervention, nous participons à plusieurs consortiums comme celui du LIP6 de l’Université Pierre et Marie Curie. Mais le travail théorique n’a de sens que s’il est confronté à une démarche expérimentale : on apprend aussi en marchant. Nous commençons à communiquer sur les applications réalisées avec nos clients et nous sommes toujours ravis de discuter avec nos futurs clients comment notre produit QWAM Text Analytics pourrait les aider et quels résultats peuvent-ils en attendre. L’IA c’est maintenant !

En parlant de sentiment, vous semblez avoir une approche originale en matière de « Sentiment Analysis »?

Oui, nous n’avons pas voulu nous inscrire dans la démarche classique des logiciels de eReputation, en catégorisant les données en « positif, négatif, neutre »… parce que cela ne sert pas à grand-chose ! Nous parlons plutôt de « cible », de « nature » et de « force » d’un sentiment. Un vaste sujet sur lequel nous aurons l’occasion de revenir prochainement.


Publié

dans