Project list

Modèle de prédiction

Projet

Project

>
>

Annexes

Général
22
Modèle de prédiction
Prediction model
Sebastian Engelke
Sebastian.Engelke@unige.ch
Machine Learning
S403011
Catégorisation
Master
50 - 100
Responsabiliser
Exposer des cas pratiques
Université de Genève
GSEM
2019
Oui
Description du projet
Le cours propose aux étudiant-es de participer à un concours sur la plateforme Kaggle, où ils/elles développent des modèles de prédiction en utilisant des bases de données fournies par des entreprises. Ils/elles reçoivent des feedbacks pour améliorer leurs modèles.

La volonté de l’enseignant est de permettre aux étudiant-es d’aborder le concept de « Machine Learning » de manière appliquée. Le but est donc que le travail réalisé en cours soit pratique et représentatif du monde actif. Pour ce faire, l’enseignant a créé pour ses étudiant-es un projet de concours en exploration de données (« Data mining competition ») interne au cours. L’exercice s’effectue sur des données réelles issues de compagnies les ayant mises en ligne.

Le cours débute par 2 à 3 séances durant lesquelles le concept étudié ainsi que les bases théoriques et pratiques sont définies. L’enseignant propose ensuite de prendre part au concours en utilisant la plateforme Kaggle. Cette plateforme permet à de nombreuses entreprises de mettre à disposition de larges bases de données afin de répondre à une demande précise. Les étudiant-es sont ainsi placé-es dans une situation intermédiaire entre cours et réalité. 

Durant les 8 semaines suivantes, les étudiant-es participent par groupe de 2 à cette compétition. En utilisant un échantillon de la base de données mise à disposition, leur objectif est de développer le meilleur modèle de prédiction (« machine learning model ») de comportement du reste des données. Pour ce faire, les groupes peuvent, s’ils le souhaitent, soumettre jusqu’à une proposition de modèle par jour. À chaque proposition soumise, un feedback leur est envoyé leur permettant d’améliorer leur modèle tout en travaillant de manière autonome. La fréquence à laquelle ils participent à cette compétition n’est pas imposée ce qui permet de les responsabiliser. 

Parallèlement, les étudiant-es participent à des travaux pratiques organisés par les assistant-es. Durant ces TP, ils/elles réalisent des exercices pratiques et peuvent également poser des questions en lien avec les modèles développés dans le cadre de la compétition. 

Une partie de l’évaluation (40%) porte sur le rapport écrit de fin de semestre dans lequel les étudiant-es font part de leur réflexion autour du modèle proposé. Les modèles sont appliqués à toute la base de données et les 3 modèles prédisant le mieux les données sont récompensés par un bonus pour l’examen final. Celui-ci se présente sous forme écrite classique et compte pour 60% de la note finale.

Une des difficultés lors de la mise en place de ce projet concerne le choix de la base de données exploitée. Celle-ci ne devant être ni trop simple ni trop complexe. Le risque étant de démotiver ou décourager les étudiant-es. 

La mise en place d’un tel projet a apporté beaucoup à son créateur et lui a permis de repenser sa façon d’enseigner en s’impliquant de manière plus directe dans son enseignement en interagissant plus avec les étudiant-es. 

D’une part, l’aspect très appliqué et la notion de compétition sont des caractéristiques qui motivent les étudiant-es à prendre part au cours et à se dépasser. D’autre part, ils/elles ont parfois tendance à sous-estimer le temps à investir en dehors des heures de cours et pourraient se sentir submergé-es.

« Le cours est complet, avec un côté théorique, un côté pratique avec le rapport, et un côté compétition avec le défi sur Kaggle. »

« Le cours est très orienté vers l'application. La structure est également claire. Le concours de données est un moyen très agréable de rendre le processus d'apprentissage plus dynamique. »  

« Le concours de données est intéressant et stimulant. » 

« Le concours de données peut détourner l'attention des objectifs réels du cours. » 

« Très bon cours ! Le contenu est exigeant, mais l'enseignant stimule la réflexion et le concours Kaggle est une bonne incitation à faire de la vraie ML ! » 

The course offers students the opportunity to participate in a competition on the Kaggle platform, where they develop prediction models using databases provided by companies. They receive feedback to improve their models.

The teacher's intention is to allow students to approach the concept of "Machine Learning" in an applied way. The goal is that the work done in class be practical and representative of the active world. To do so, the teacher has created an internal data mining competition for the students. The exercise is carried out on real data from companies that have put them online.

The course starts with 2 to 3 sessions during which the concept studied as well as the theoretical and practical bases are defined. The teacher then proposes to take part in the competition using the Kaggle platform. This platform allows many companies to make available large databases to meet a specific demand. The students are thus placed in an intermediate situation between course and reality.  

During the next 8 weeks, the students participate in groups of 2 in this competition. Using a sample of the database provided, their objective is to develop the best prediction model ("machine learning model") of the behavior of the rest of the data. To do this, groups can submit up to one model proposal per day if they wish. For each proposal submitted, feedback is sent allowing them to improve their model while working independently. The frequency with which they participate in this competition is not imposed, which allows them to take responsibility.  

At the same time, the students participate in practical work organized by the assistants. During these practical work sessions, they carry out practical exercises and can also ask questions related to the models developed during the competition.  

Part of the evaluation (40%) is the written report at the end of the semester in which the students present their thoughts on the proposed model. The models are applied to the whole database and the 3 models that best predict the data are rewarded with a bonus for the final exam. The final exam is in a classical written form and counts for 60% of the final grade.

One of the difficulties during the implementation of this project concerns the choice of the exploited database. This one should be neither too simple nor too complex. The risk is to demotivate or discourage the students.  

The implementation of such a project brought a lot to its creator and allowed him to rethink his way of teaching by getting more directly involved in his teaching by interacting more with the students.  

On the one hand, the very applied aspect and the notion of competition are characteristics that motivate students to take part in the course and to push themselves. On the other hand, they sometimes tend to underestimate the amount of time to invest outside of class and may feel overwhelmed.

"The course is complete, with a theoretical side, a practical side with the report, and a competition side with the challenge on Kaggle." 

"The course is very much application-oriented. The structure is also clear. The data competition is a very nice way to make the learning process more dynamic." 

"The data competition is interesting and challenging." 

"The data competition may redirect focus from the actual objectives of the course." 

"Very good course! Demanding content, but teacher stimulates reflection and the Kaggle competition is a good incentive for us to do some real ML!" 

Illustrations/annexes
Nouvelles fonctionnalitées
01/12/2019
Non
Institution Faculté Couleur (Hexadecimal)
Université de Genève Transversal #CF0063
Université de Genève Théologie #4B0B71
Université de Genève SDS #F1AB00
Université de Genève Sciences #007E64
Université de Genève Médecine #96004B
Université de Genève Lettres #0067C5
Université de Genève GSEM #465F7F
Université de Genève FTI #FF5C00
Université de Genève FPSE #00b1ae
Université de Genève Droit #F42941
Situation problématique Page cible Situation Main color Dark color Illustration
Préparer Préparer Prepare #9966ff #613fa4 Préparer.svg
Rendre actifs Rendre actif Engage #33cc99 #269973 RendreActif.svg
Responsabiliser Responsabiliser Make responsible #0099ff #297eb6 Responsabiliser.svg
Faire créer Faire creer Create #ffa248 #bc7c3c FaireCréer.svg
Nom de l'innovation Page Cible Innovation name
Impliquer dans l'enseignement Impliquer dans l'enseignement Involve students in the teaching process
Exposer des cas pratiques Exposer des cas pratiques Examine case studies
Impliquer dans la Recherche Impliquer dans la Recherche Involve students in the research process
Démontrer Démontrer Demonstrate
Donner la parole Donner la parole Hear from students
Faire conceptualiser un projet Faire conceptualiser un projet Have students conceptualize a project
Faire gérer un projet Faire gérer un projet Have students manage a project
Faire réagir Faire réagir Generate reactions
Faire réaliser une production originale Faire réaliser une production originale Have students produce an original production
Développer des compétences Développer des compétences Develop skills
Simuler une situation Simuler une situation Simulate a situation
Questionner Questionner Ask questions
Faire collaborer Faire collaborer Encourage cooperation
Faire voter Faire voter To Vote
Logo Nom court Nom de l'institution
UNINE Université de Neuchâtel
UNIGE Université de Genève