====== Réunion du 10 avril 2009 ====== * Recrutement : * UTC : 1 stagiaire de Master (José Flores) sur le bootstrap pour la sélection de modèle en clustering * LITIS : 1 stagiaire indien (undergraduate) sur netflix et 1 candidat ingénieur de recherche (Julien Delpote, début en mai ?) * CRIP5 : 1 stagiaire de Master (Anmed Najjar) sur les modèles de mélange et la classification hiérarchique et 1 candidat pour 3 mois IR (peut être) sur les modèles de mélange par bloc et la visualisation * A faire : * Accord de consortium : Stéphane envoie un projet de contrat. * Comité d'utilisateurs : Stéphane s'en occupe / coordination avec le projet CADI * Avancement des tâches : * Tâche T0.1 : site web / OK * Il est opérationnel. * On peu penser à ajouter une rubrique bibliographique pour les papiers intéressants plutôt fermé par mot de passe et une rubrique data ouverte. * Gérard regarde l'éventualité et l'opportunité d'installer un WIKI pour l'intranet du projet. * Tâche T1.1 : état de l'art pour la classification croisée et pour la factorisation * Gérard à récupéré ses documents. * Cible : Foundations and Trends in Machine Learning http://www.nowpublishers.com/product.aspx?product=MAL * Clarifier la terminologie * Faire l'historique * Envoyer les papiers intéressants, voir le livre Cluster analysis de Tryon et Bailey. * Comment les mélanges et l'acp se rejoignent ? Le co-clustering c'est de l'ACP sous contraintes min U,D,V||X-U.D.V'||2 s.t. D diagonale, V'V=I,U'U=I sous les contraintes U,V ∈ {0,1}, on retrouve le co-clustering (ref : Thèse d'état de G. Govaert) * Tâche T2.1 : état de l'art pour la sélection de modèle : Dominique, Stéphane, Yves, Gérard et Mohamed * Il y a déjà des livres : sélection de modèle en statistique. * Il faut bien cibler : au moins clustering (peut être se limiter au clustering croisée) et les modèles associés. * Titre : sélection de modèle en clustering * Il faut être génératif (on ne peut plus de contenter d'être discriminatif) *Sélection de modèle associées au mélange, voire au bloc clustering (nb de classes) * Factorisation : combien de facteurs, coude sur le chemin de régularisation, test * Appliquer les techniques de Dominique au problème de clustering : attention, il faut disposer d'une forme analytique de l'estimateur μ^ * Clustering et sélection de variables / sélection de variable : Raftery Raftery, A.E. and Dean, N. (2006). Variable Selection for Model-Based Clustering. /Journal of the American Statistical Assocation/, 101, 168-178. * Remarques diverses : * Ne pas oublier : KPCA : l. Zwald * Comment comparer les différentes méthodes de clustering : on les utilise comme pré processing pour un problème supervisé (discutable) * Workshop de cet été sur le clustering http://www.stat.washington.edu/raftery/Onrgroup/wgsum09.html