Le « text mining » pour une meilleure connaissance Client

old_uid6853
titleLe « text mining » pour une meilleure connaissance Client
start_date2009/05/05
schedule14h30
onlineno
detailsContact : P. Paroubek
summaryLes données issues des contacts avec nos clients (enquêtes, « call center » , « mails » ...) constituent une source pertinente d'information sur nos clients, venant renseigner notamment sur leurs besoins et l'adéquation avec nos offres de services, ainsi que sur leur satisfaction et leur intention de fidélité. Le volume de ces données est important et ne cesse de croître. Le « text mining » va permettre de faire ressortir l'information pertinente de ces gros corpus de textes : Il associe des techniques du traitement automatique du langage naturel avec celles du « data mining » afin de représenter l'information sous une forme informatiquement exploitable et d'en extraire de la connaissance. Cette information extraite est stratégique pour une meilleure connaissance Client, car elle est issue de l'expression spontanée de celui-ci et donc au plus près de ses préoccupations. EDF utilise depuis plusieurs années ces techniques de « text mining » pour améliorer la connaissance Client, avec l'utilisation des outils TEMIS. L'exploration des données et les regroupements par thématiques sont effectués avec un algorithme de type « k-means », et la pondération TD-IDF. Ces techniques n'ont pas été suffisantes par rapport aux besoins très précis de la Direction Commerce. Nous avons été amené à  enrichir le texte avec la modélisation de concepts métier, au travers d'une cartouche de connaissance (« skill cartridge ») qui contient des règles d'extraction pour détecter des entités nommées, des relations ... et plus particulièrement pour nous, les concepts métier et des concepts liés à la notion de satisfaction ou de mécontentement. Ils permettent d'englober sous un même nom, des termes qui, dans un contexte défini, sont proches sémantiquement. Par exemple, le concept « facturation » va regrouper les termes : « facture » , « facturation », mais également les notions d'estimation » et de « duplicata ». Pour les analyses récurrentes, des modèles de classement des documents dans des catégories pré-définies sont élaborés, basés sur les réseaux bayesiens. Une « industrialisation » de ces études s'est faite au travers de la création, en 2007, d'une application WEB permettant d'automatiser ces traitements (Portail d'Analyse des réponses aux Questions Ouvertes d'enquête, PAQO). Dans cet exposé, nous présenterons la méthodologie du « text mining » telle qu'elle est utilisée à EDF, et quelques exemples concrets d'applications.
responsiblesParoubek, Turner