Traitement Automatique du Langage (TAL).Opportunités pour les entreprises

La 22ème édition de l’International Conference on Natural Language and Information Systems s’est tenue à HEC Liège en juin dernier avec le soutien de Digital Wallonia. Ce domaine d’activité est porteur de nombreuses applications dans l’optimisation des décisions prises par les entreprises.

D’où provient l’intelligence du moteur de recherche de Google ? Qu’est-ce qui permet à l’application Siri d’Apple de répondre à nos questions ? Comment Google Translate arrive-t-il à reproduire une traduction, d’une qualité raisonnable, pour une multitude de langues ? Ces questions intriguent et fascinent. Elles étaient au coeur d'un événement organisé par HEC Liège en juin 2017.

Traitement Automatique du Langage (TAL)

Ces technologies sont basées sur les algorithmes de NLP (Natural Language Processing) ou TAL (Traitement Automatique du Langage). Le TAL est un domaine de l’intelligence artificielle (IA) dont l'objectif est de développer des algorithmes qui permettent à une machine d’interpréter les langages humains, de raisonner à partir des faits mentionnés dans un discours ou un texte, et d’en tirer des conclusions.

Pour y parvenir, les algorithmes TAL se basent sur des éléments de statistiques et de linguistique. Parmi ceux-ci, on trouve par exemple les chaînes de Markov pour calculer la probabilité d'identifier le prochain mot dans une phrase sur base des mots déjà lus. Par exemple, après le mot "financial", est-il plus probable que le prochain mot soit "crash" ou "car" ? Ou encore, après un "nom", est-il plus probable que le prochain mot soit un "verbe" ou un "adjectif"?

L'idée est d'entraîner l’algorithme à apprendre un langage spécifique. Ce type d’apprentissage, qui se fait automatiquement, est communément appelé le "machine learning".

TAL et Business Intelligence

Au-delà d'applications telles que Google Translate ou Apple Siri, les algorithmes de TAL sont de plus en plus utilisés à des fins commerciales, plus particulièrement dans le domaine de l’optimisation des prises de décisions (Business Intelligence). Voici quelques exemples typiques d’applications du TAL en entreprise.

Sentiment Analysis et Opinion Mining

Ces algorithmes permettent notamment à une entreprise d'analyser les avis des consommateurs, comme par exemple pour des appareils d'électroménager ou des établissements du secteur de l’Horeca.

Prenons le cas de Philips Consumer Lifestyle, avec son offre de produits électroménagers (rasoirs électriques, machines à café, ...). Pour cette entreprise, il est essentiel d’être à l’écoute des plaintes éventuelles des consommateurs. Avec les nouvelles formes de communication (forums, sites d’e-commerce, réseaux sociaux, ...) les consommateurs s'expriment et communiquent leurs avis à leurs pairs en temps réel. Un commentaire négatif sur un produit, diffusé via Amazon ou Twitter, peut rapidement se propager, sans contrainte temporelle et géographique, et impacter très négativement l'image de l’entreprise.

Les algorithmes de Sentiment Analysis offrent une solution intéressante aux entreprises face à ces nouveaux défis. Ils permettent d’analyser des quantités importantes de données textuelles (par exemple les commentaires sur des sites d'e-commerce, des tweets, ...) et de déterminer l’opinion ou le sentiment transmis par ces textes, afin de les classer en mode "positif" ou "négatif". Sur cette base, un "product manager" peut examiner la classification produite par l’algorithme et prendre des mesures appropriées pour répondre aux avis des consommateurs sur un produit spécifique.

Information Extraction (IE) et Named Entity Recognition (NER)

Ces algorithmes permettent d’identifier les mots pertinents et les entités mentionnées dans un texte pour, ensuite, détecter et classifier les relations sémantiques qui existent entre ces mots clés et entités. Par exemple, en analysant la phrase "The fall of Lehmann Brothers was the main reason of the financial crisis", un algorithme d’IE ou de NER détectera les mots clés et entités "(fall of) Lehmann Brothers" et "financial crisis". Ensuite, en analysant la structure syntaxique, l’algorithme verra que ces deux termes sont reliés grammaticalement par "was the main reason". D’autres algorithmes feront une analyse encore plus poussée en classifiant cette relation comme étant de causalité.

Question-Answering (QA) systems et Chatbots

Ces systèmes peuvent être considérés comme une version plus avancée des moteurs de recherche classiques. A l’inverse de ceux-ci, qui travaillent sur base de requêtes formulées via des mots clés, un QA system permet à l’utilisateur de formuler sa demande en langage naturel. On peut donc poser des questions telles que "quels sont les restaurants Michelin dans une périphérie de 5 kilomètres de ma position actuelle ?" ou "quelles sont les causes d’un cancer de type X ?" ou, plus simplement, "qui est le CEO de telle entreprise ?". Autre avantage, le résultat d'une recherche via QA systems tient dans une réponse unique et précise, tandis qu’un moteur de recherche retournera une liste de sites web et de documents susceptibles (ou pas) de satisfaire la requête de l’utilisateur.

Les Chatbots sont des applications très similaires aux QA systems. Il s'agit d'agents virtuels capables de dialoguer avec les utilisateurs. On les retrouve de plus en plus sur les sites web pour répondre aux questions des clients.

TAL @ HEC Liège

Depuis quelques années, HEC Liège a renforcé son offre d'enseignement et de recherche dans le domaine du numérique. Le groupe du Professeur Ashwin Ittoo est spécialisé dans le Natural Language Processing (NLP). Il développe, entre autres, des algorithmes de NLP de Business Intelligence, dans divers secteurs, comme :

la finance en déduisant les préférences des investisseurs ou les avis sur les marchés boursiers depuis des news ou des tweets,
le marketing par la prédiction d’évaluations chiffrées de produits et services sur base d’avis et de commentaires d’utilisateurs,
la médecine en déterminant les évolutions et tendances de médecine générale sur base de résumés d’articles scientifiques.

NLDB 2017 @ HEC Liège

Depuis 1995, "l'International Conference on Natural Language and Information Systems" (NLDB, nldb.org) rassemble des chercheurs, des professionnels de l'industrie et des utilisateurs potentiels intéressés par diverses applications du langage naturel dans le domaine des bases de données et des systèmes d'information.

HEC Liège a organisé et présidé la 22ème édition de NLDB du 21 au 23 juin 2017. A cette occasion, pas moins de 125 articles scientifiques ont été reçus en provenance de groupes de recherche à travers le monde entier (USA, Canada, Irlande, Allemagne, Inde, Chine, Italie, Pérou, Japon, etc.). Ils étaient répertoriés dans les domaines suivants :

Neural Language Models/Deep Learning.
Sentiment Analysis & Opnion Mining.
Information Extraction.
Semantic-based Models.
Feature Engineering.