Réponses aux remarques concernant le projet ClasSel

27 octobre 2008

Résumé

Ce document présente les réponses des partenaires du projet ANR Défis ClasSel aux remarques des rapporteurs. On y trouve notamment une proposition pour la création d’un comité d’utilisateurs, une description détaillée des différents livrables du projet ainsi que l’explicitation des relations entre les applications visées dans le projet et la classification croisée. Le document est organisé en suivant le rapport du comité d’évaluation.

Impact global du projet

Concernant la remarque sur la création d’un comité d’utilisateurs nous sommes d’accord quant à son intérêt. Des contacts ont déjà été pris avec le consortium du projet ANR CADI (Composants Avancés pour la Distribution) qui travaille sur la problématique des systèmes de recommandation. Les partenaires industriels de ce projet ont proposé des données qui devraient être utilisées dans le cadre de ClasSel. Ces partenaires ont déjà été approchés et ils sont à même constituer le noyau d’un comité d’utilisateurs. Il s’agit de KXEN, Mondomix, SAMSE-La Boite à Outils et NumSight.

Méthodologie, qualité de la construction du projet et de la coordination

La stratégie de protection des résultats sera vue avec les SAIC des différents partenaires. Si des brevets sont possibles ils seront déposées.

Description des livrables du projet ClasSel

Dans le principe, le projet est divisé en tâches et un rapport est produit à l’issue de chacune des tâches du projet.

LOT 0

les livrables de ce lots sont le site WEB du projet et le rapport final sur la gestion du projet

L0.1 Site WEB et outils collaboratif - dû à T0 + 3 - coordinateur : LITIS

Ce livrable est le site WEB du projet, avec les outils collaboratifs permettant le bon déroulement du projet et la bonne collaboration entre les partenaires.

L0.2 Gestion du projet dû à T0 + 36 coordinateur : LITIS

Ce livrable est un rapport faisant le point sur la gestion du projet.

LOT 1

Les livrables de ce lot sont des rapports présentant les résultats théoriques produis par le projet.

L1.1 Etat de l’art dû à T0 + 3 coordinateur : LITIS

Ce livrable est un rapport

L1.2 Modèle pour les données continues dû à T0 + 12 coordinateur : Heudiasyc

Ce livrable est un rapport contenant des résultats théoriques

L1.3 Méthodes factorielles dû à T0 + 18 coordinateur : LITIS

Ce livrable est un rapport contenant des résultats théoriques

L1.4 Classification croisée hiérarchique dû à T0 + 24 coordinateur : Heudiasyc

Ce livrable est un rapport contenant des résultats théoriques

L1.5 Traitement des données manquantes dû à T0 + 18 coordinateur : CRIP5

Ce livrable est un rapport contenant des résultats théoriques

LOT 2

Comme pour le lot 1, les livrables de ce lot sont des rapports présentant les résultats théoriques produis par le projet.

L2.1 Etat de l’art dû à T0 + 3 coordinateur : LITIS

Ce livrable est un rapport

L2.2 Aspects asymptotiques dû à T0 + 18 coordinateur : Heudiasyc

Ce livrable est un rapport

L2.2 Aspects non asymptotiques dû à T0 + 18 coordinateur : Heudiasyc

Ce livrable est un rapport

LOT 3

Les livrables de ce lot sont principalement du code, leur documentation et des rapports présentant les expériences menées et les résultats obtenus.

L3.1 Choix des méthodes d’optimisation dû à T0 + 18 coordinateur : Heudiasyc

Ce livrable est du code et un rapport présentant les résultats expérimentaux permettant de comparer les différentes méthodes.

L 3.2 Mise en oeuvre des méthodes dû à T0 + 24 coordinateur : CRIP 5

Ce livrable est du code et un rapport présentant les résultats expérimentaux permettant de comparer les différentes méthodes d’initialisation et de gestion des classes vides.

L 3.3 Intégration logicielle dû à T0 + 30 coordinateur : Heudiasyc

Ce livrable est du code, un jeu de tests d’intégration et une documentation concernant l’ajout de la composante « classification croisée » au logiciel MIXMOD.

L 3.4 Validation et test dû à T0 + 36 coordinateur : LITIS

Ce livrable est du code, un jeu de tests et un rapport concernant le benchmarking des solutions proposées concernant leur capacité à passer à l’échelle et leur complexité empirique, à traiter les valeurs manquantes, à sélectionner les bons modèles et à résister au bruit.

L 3.4 Visualisation dû à T0 + 30 coordinateur : CRIP 5

Ce livrable est du code permettant de visualiser des résultats de modèles de mélanges croisés, de différents types de données dans le but de les rendre mieux interprétables.

LOT 4

Les livrables de ce lot sont principalement l’application du code sur des problèmes réels et des rapports présentant les expériences menées et les résultats obtenus.

L 4.1 Données marketing dû à T0 + 30 coordinateur : LITIS

Ce livrable est du code, des données et un rapport concernant l’application des méthodes de classification croisées appliquées à des données marketing caractérisant les avis de touristes sur différents sites de Vienne.

L 4.2 Données Netflix dû à T0 + 30 coordinateur : LITIS

Ce livrable est du code, des données et un rapport concernant l’application des méthodes de classification croisées appliquées aux données du challenge NETFLIX caractérisant les avis de spectateurs sur différents films.

L 4.3 Données de textes dû à T0 + 36 coordinateur : CRIP5

Ce livrable est du code, des données et un rapport concernant l’application des méthodes de classification croisées appliquées à données textuelles permettant de déceler des blocs homogènes d’un ensemble de documents à partir de mots clés.

Adéquations projet moyens / Faisabilité du projet

La remarque concernant les postes de doctorants est judicieuse. Nous avions initialement pensé a associer au projet des étudiants en cotutelle et des boursiers CIFRE pour le volet applicatif. Conformément à l’avis des rapporteurs du projet, il pourrait être plus pertinent d’utiliser une partie du budget pour un doctorant que pour un ingénieur. Lorsque nous disposerons d’une vision globale des moyens humains et financiers (quelles bourses et quels candidats), nous fixerons la marche à suivre pour le bon déroulement du projet.

Recommandations

Nous sommes d’accord avec la nécessité de mieux définir la stratégie d’exploitation des résultats. Notre stratégie est double : elle s’appuie sur une relation étroite avec le projet CADI pour la définition générique des besoins dans le cadre des systèmes de recommandation et la création d’un comité d’utilisateurs (voir ci-dessus).

Demandes de modifications

Les relations entre les applications visées dans le projet et la classification croisée s’expriment de la manière suivante :

Marketing
- L’université WU Vien dispose de nombreux jeux de données expérimentaux concernant des milliers de notes de touristes sur de sites ou de client sur des produits.
- les variables sont des évaluations
- les objectifs sont principalement la réalisation d’une segmentation marketing simultanée des touristes et des sites. Dans ce cas, on cherche une méthode permettant d’obtenir des groupes non exclusif, un individu ou un produit peuvent appartenir à plusieurs groupes.
Netflix
- 20 000 films et 450 000 spectateurs. Les données disponibles concernent 100 millions de notes soit un taux de remplissage de la matrice de 1,16 %
- les variables sont des entiers de 1 à 5 traduisant l’appréciation du film par le spectateur.
- les objectifs sont les suivants : prévoir la note donnée a certains film par un certain nombre e spectateurs. Le coclustering devrait nous aider à mieux caractériser les groupes films/secteurs et donc à mieux prévoir la note. La difficulté principale est la taille du problème.
Fouille de textes
- xxx documents et yyy mots
- les variables sont des zzz
- les objectifs sont les suivants : aaa

La nature des livrable a été précisée ci-dessus.