L’extraction d’entités nommées ? Derrière ce terme un peu barbare pour le néophyte se cache une réalité bien connue des spécialistes des moteurs de recherche et des plateformes de crawling.
Rappelons que l’opération consiste à extraire dans un texte, des suites de mots respectant des règles prédéfinies, les mots pouvant venir de dictionnaires spécifiques. Le cas d’école est celui des suites PRÉNOM NOM. Généralement, un prénom est une suite de caractères commençant par une majuscule et appartenant à un dictionnaire des prénoms ; un nom commence aussi par une majuscule, est soit un terme inconnu d’un dictionnaire soit au contraire un terme référencé dans un dictionnaire des patronymes courants : Martin, Durand, Dupond, ….
Le mot « généralement » de la phrase précédente n’est pas fortuit car sur le simple exemple PRÉNOM NOM, il y aura toujours des parents créatifs pour donner un prénom inconnu et il n’est pas difficile de trouver des contre-exemples. Sophia Antipolis est l’un d’eux !
Quelques semaines après le 25 mai, et la date officielle d’entrée en vigueur du RGPD, cette opération appelle quelques commentaires. L’intérêt de l’extraction d’entités nommées est certes de savoir que Jean Dupond est cité dans un document mais dans une perspective d’Intelligence économique, il est aussi d’associer à son nom tous les documents et donc les informations qui auront plus être collectées sur des sites d’accès libres. Intérêt d’autant plus marqué si Jean Dupond est un des cadres dirigeants de votre principal concurrent.
D’un point de vue légal, construire une telle base documentaire autour de Jean Dupond nécessite de l’en informer et de lui demander son autorisation, d’autant plus que cette extraction d’entités nommées s’appliquera à un large domaine, potentiellement tout cde qui se dit sur le Net à propos de Jean Dupond. Il sera ainsi possible de savoir qu’il est en relation avec Pierre Durand, et les médias sociaux étant le lieu de toutes les confidences, connaître aussi ses goûts et ses couleurs.
Or, demander l’autorisation de son principal concurrent est assez illusoire ! Cette question est de celle qui s’apprécie en prenant en compte l’intérêt légitime de la société qui réalise l’opération pour la conduite de ses affaires et le respect des données personnelles et des droits qui y sont associés. A réfléchir soigneusement.
L’extraction d’entités nommées concerne bien évidemment d’autres entités que les PRÉNOM et NOM de personnes, en particulier les noms des entreprises, les lieux, les produits, etc.
Ces éléments étant repérés, il peut être utile d’extraire des relations entre ces entités qui ne soient pas seulement « cette entreprise est citée dans ce document » mais par exemple, « ces deux entreprises sont citées dans la même phrase ». Et d’analyser la nature de la relation qui existe entre elles dans cette phrase.
Depuis de nombreuses années, plusieurs acteurs se sont intéressés à l’extraction de relations spécifiques comme par exemple celles caractérisant la participation d’une société à un salon : « X sera présent au salon Y »; « Retrouver Z sur son stand au Salon W à Paris » et toutes les variantes autour de cette thématique. Or, ces variantes sont nombreuses bien qu’on puisse estimer que leur nombre convergera et même si un commentateur pourra toujours inventer un terme alambiqué pour dire que X exposera lors du salon Y. L’approche classique a été de modéliser ses « nombreuses » variantes dans des composants spécifiques (cartouches de connaissances, réseaux sémantiques…). Modélisation onéreuse dans la mesure où elle est réalisée par un spécialiste qui y consacrera un temps significatif. Opération qu’il faudra renouveler pour la prise en compte de chaque nouvelle relation.
QWAM propose une solution très performante et originale pour résoudre ce problème grâce au produit QWAM Text Analytics et à sa technologie de Deep Learning. L’opération de modélisation décrite préalablement se simplifie considérablement. Après avoir entraîné l’outil sur un jeu d’exemples, QWAM Text Analytics sera capable de découvrir par lui-même les « variantes » que nous évoquions et aura la capacité de s’adapter à leurs évolutions.
Cette approche permet d’obtenir des résultats très performants lorsqu’il s’agit d’apprendre des relations qui sont spécifiques à un métier pour un secteur économique particulier.
D’un côté, un modèle statique et onéreux à paramétrer. De l’autre, un modèle dynamique dont le coût de mise en œuvre est raisonnable, avec des capacités d’adaptations extraordinaires. Indéniablement, le chemin parcouru est impressionnant !