Travailler avec le modèle
MaisonMaison > Nouvelles > Travailler avec le modèle

Travailler avec le modèle

Jul 21, 2023

Monodeep Mukherjee

Suivre

--

Écouter

Partager

Auteurs : Luca Scrucca, Mohammed Saqr, Sonsoles López-Pernas, Keefe Murphy

Résumé : L'hétérogénéité est un sujet brûlant dans la littérature pédagogique récente. Plusieurs appels ont été lancés pour adopter des méthodes qui capturent différents modèles ou sous-groupes au sein du comportement ou du fonctionnement des élèves. En supposant qu’il existe un modèle moyen qui représente l’ensemble des populations étudiantes, le concept mesuré doit avoir le même mécanisme causal, le même modèle de développement et affecter les étudiants exactement de la même manière. À l'aide d'une méthode centrée sur la personne (modèle de mélange gaussien fini ou analyse de profil latent), le présent tutoriel montre comment découvrir l'hétérogénéité au sein des données d'engagement en identifiant trois clusters latents ou non observés. Ce chapitre propose une introduction au clustering basé sur un modèle qui comprend les principes des méthodes, un guide pour le choix du nombre de clusters, l'évaluation des résultats du clustering et un guide détaillé avec du code et un ensemble de données réelles. La discussion développe l'interprétation des résultats, les avantages du clustering basé sur un modèle ainsi que sa comparaison avec d'autres méthodes.

2. Une revue du clustering basé sur un modèle bayésien (arXiv)

Auteur : Clara Grazian

Résumé : Le clustering est une tâche importante dans de nombreux domaines de la connaissance : médecine et épidémiologie, génomique, sciences de l'environnement, économie, sciences visuelles, entre autres. Les méthodologies permettant d'effectuer des inférences sur le nombre de grappes se sont souvent révélées incohérentes, et l'introduction d'une structure de dépendance entre les grappes implique des difficultés supplémentaires dans le processus d'estimation. Dans un contexte bayésien, le clustering est effectué en considérant la partition inconnue comme un objet aléatoire et en définissant une distribution a priori sur celle-ci. Cette distribution a priori peut être induite par des modèles sur les observations, ou directement définie pour la partition. Plusieurs résultats récents ont cependant montré les difficultés d’estimer de manière cohérente le nombre de clusters, et donc la partition. Le problème lui-même de la synthèse de la répartition a posteriori sur la cloison reste ouvert, compte tenu de la grande dimension de l'espace de la cloison. Ce travail vise à passer en revue les approches bayésiennes disponibles dans la littérature pour réaliser du clustering, en présentant les avantages et les inconvénients de chacune d'entre elles afin de suggérer de futures pistes de recherche.