Analyse de données via ChatGPT

Projet

Project

>
>

Annexes

Général
164
Analyse de données via ChatGPT
Data analysis via ChatGPT
Eva Cantoni
Anna Van Es
Eva.Cantoni@unige.ch
Modern flexible regression
S411001
Catégorisation
Master
Moins de 25
Responsabiliser
Développer des compétences
Université de Genève
GSEM
2024
Oui
Description du projet
Dans ce projet, les étudiant-es sont amené-es à interagir avec ChatGPT pour effectuer une analyse statistique, tout en fournissant un rapport critique à l’égard des résultats obtenus. Ils/elles sont encouragés à explorer les potentialités et les limites de l’usage de l’intelligence artificielle générative dans l’analyse de données.

Ce projet est né d’un questionnement sur l’impact des outils d’intelligence artificielle générative, comme ChatGPT, dans les pratiques pédagogiques et professionnelles de la statistique. Le contenu du cours n’a pas été modifié, mais l’apparition de ces nouveaux outils a suscité une double réflexion. D’une part, sur l’évolution nécessaire des modalités d’enseignement face à ces technologies, et d’autre part, sur la manière dont le métier de statisticien-ne pourrait être amené à intégrer, voire dépendre, de telles assistances numériques. La volonté de confronter les étudiant-es à ces transformations dans un cadre balisé s’est donc imposée comme une priorité.

Cette réflexion s’est inscrite dans un contexte institutionnel ouvert à l’expérimentation, où l’usage de l’IA n’est pas interdit, mais reste encore peu encadré. Le cours concerné, dispensé au sein du master en statistique, se prête particulièrement bien à ce type d'exploration, car les étudiant-es y possèdent déjà des connaissances solides en modélisation et en analyse de données. L’introduction de ChatGPT dans un projet d’analyse a donc permis d’explorer concrètement la manière dont l’IA pouvait intervenir dans la chaîne de traitement statistique, tout en en évaluant les apports et les limites.

Ce cours d’analyse de données présente les approches de la modélisation de la régression pour une grande variété de variables de réponse. A la fin de ce cours, un-e étudiant-e doit être capable de décider quelle technique est pertinente dans quelle situation et de l'appliquer avec succès, y compris à de nouvelles situations.

Les étudiant-es, regroupé-es en groupe (3-4 personnes), reçoivent un jeu de données simulées. A la différence de la première année qui a révélé que le jeu de données proposé était trop trivial (données réelles), la deuxième année les enseignantes ont préalablement altéré les données simulées afin d’amener les étudiant-es à effectuer des choix méthodologiques. Des valeurs manquantes, des observations aberrantes ou des incohérences ont été volontairement introduites, de sorte que l'analyse ne puisse être simplement automatisée. Leur tâche consiste à analyser les données fournies pour répondre à la question scientifique d'intérêt en utilisant ChatGPT comme partenaire numérique jouant le rôle d'analyste.

Le déroulement du projet repose sur l’engagement actif des étudiant-es dans une interaction critique avec l’outil en guidant son analyse par l'intégration des outils méthodologiques et statistiques couverts par le cours. ChatGPT est mobilisé pour générer un code en R et analyser les données fournies en rapport avec la question de recherche. Les étudiant-es rédigent ensuite un rapport critique.

Le rapport attendu doit inclure une évaluation rigoureuse des propositions de l’IA, en tenant compte de l'exactitude et de la cohérence des choix statistiques, de la validité des méthodologies appliquées par rapport au contenu du cours, la robustesse des interprétations, ainsi que des éventuels biais, erreurs ou incohérences rencontrés dans la réponse générée. L’ensemble des échanges avec ChatGPT doit être documenté via un lien accessible. À la fin du projet, les groupes présentent leur travail à l’oral et sont interrogés par un autre groupe ayant travaillé sur le même jeu de données.

Ce dispositif est complété par un temps d’illustration en cours, lors d’un TP durant lequel l’assistante d’enseignement démontre une interaction avec ChatGPT sur un exemple concret. Une phase de feedback intermédiaire est également proposée, au cours de laquelle les groupes peuvent demander un rendez-vous pour discuter de leur avancement.

Tandis que la première année ce travail ne dispensait qu’un bonus aux étudiant-es, l’évaluation du projet représente désormais 30 % de la note finale du cours, les 70 % restants étant attribués à un examen individuel sur ordinateur. Celui-ci porte sur un jeu de données inédit, avec des questions qui évaluent la compréhension et l’application des méthodes vues en cours.

La mise en œuvre de ce projet a révélé un fort engouement de la part des étudiant-es. Lors de la première édition, alors que l’activité était facultative et récompensée par un bonus, l’ensemble des étudiant-es y avait pris part. Cette participation volontaire a conforté les enseignant-es dans l’idée de rendre le projet obligatoire l’année suivante, avec un poids significatif dans l’évaluation. Le retour des étudiant-es a mis en évidence leur intérêt à expérimenter ChatGPT dans un cadre pédagogique structuré, leur permettant d’en comprendre à la fois l’utilité et les limites. Ils/Elles ont mis en place des stratégies intéressantes, par exemple l’attribution de rôles différents (utilisateur ignare de statistique versus utilisateur avancé) ou la comparaison avec une analyses effectuée par les étudiants eux-mêmes (sans aide de l’IA générative).

Le principal défi réside dans l’équilibre à trouver entre ouverture et encadrement. Une consigne trop large peut générer des productions hétérogènes et rendre l’évaluation difficile, tandis qu’une consigne trop précise risque de brider la créativité. Il est donc essentiel de baliser clairement le périmètre de l’exercice, en limitant par exemple les outils autorisés (ici, uniquement R et ChatGPT), tout en laissant une certaine marge de manœuvre dans la manière de construire l’interaction. Par exemple, l’année précédente, le nombre de prompts avait été limité à 10. Cependant les enseignantes ont découvert qu’il n’était pas pédagogiquement intéressant de restreindre les étudiant-es sur cette dimension. Elles leur demandent désormais de fournir le lien de la conversation avec ChatGPT.

Un autre point de vigilance concerne la formulation des consignes. Il est parfois difficile de transmettre les attentes sans enfermer les étudiant-es dans une démarche trop rigide. Il est recommandé de formuler les attentes de manière à préserver une part d’autonomie dans l’approche choisie, tout en précisant les critères d’évaluation à l’aide d’une grille structurée. Les consignes concernant le rapport critique ont par exemple été reformulées et développées afin de préciser le niveau attendu pour cet exercice.

Enfin, il est important de garder en tête que les outils d’IA évoluent très rapidement. Ce qui semblait impossible ou peu fiable une année peut devenir accessible la suivante. Le projet doit donc rester flexible, et son cadre méthodologique régulièrement réévalué. Le recours à des jeux de données simulées et enrichies d’erreurs s’est avéré particulièrement utile pour éviter des réponses trop standardisées et inciter les étudiant-es à prendre du recul sur les propositions de l’IA.

Le soutien du Pôle SEA peut également s’avérer précieux pour accompagner la mise en place d’un tel dispositif, notamment en phase de conception ou de révision du projet.

« J'ai trouvé que travailler avec ChatGPT m'aidait à mieux comprendre les concepts étudiés en classe, car il faut en quelque sorte « lutter » avec lui et lui dire exactement ce que l'on veut faire, ce qui oblige à vraiment comprendre ce que l'on fait. »

« Ce fut vraiment une expérience formidable, car elle était très pratique et nous a permis de nous mettre véritablement à la place d'analystes de données. Ce type d'approche est également très utile, car nous devons travailler avec les dernières innovations si nous voulons être employables. »

 

In this project, students will interact with ChatGPT to perform a statistical analysis, while providing a critical report on the results obtained. They are encouraged to explore the potential and limitations of using generative artificial intelligence in data analysis.

This project arose from a questioning of the impact of generative artificial intelligence tools, such as ChatGPT, on pedagogical and professional statistical practices. The course content has not changed, but the emergence of these new tools has prompted a twofold reflection. On the one hand, on the necessary evolution of teaching methods in the face of these technologies, and on the other, on the way in which the profession of statistician could be led to integrate, or even depend on, such digital assistance. The desire to confront students with these transformations within a defined framework therefore became a priority.

This reflection has taken place in an institutional context open to experimentation, where the use of AI is not forbidden, but remains little regulated. The course in question, taught as part of the Master's degree in Statistics, lends itself particularly well to this type of exploration, as students already have a solid grounding in modeling and data analysis. The introduction of ChatGPT in an analysis project therefore enabled us to explore in concrete terms how AI could intervene in the statistical processing chain, while assessing its contributions and limitations.

This data analysis course introduces approaches to regression modeling for a wide variety of response variables. By the end of the course, students should be able to decide which technique is relevant in which situation and apply it successfully, including to new situations.

Students work in groups of 3-4 and are given a set of simulated data. Unlike the first year, which revealed that the proposed data set was too trivial (real data), in the second year the teachers altered the simulated data beforehand, to get the students to make methodological choices. Missing values, outliers and inconsistencies were deliberately introduced, so that the analysis could not simply be automated. Their task is to analyze the data provided to answer scientific question of interest, using ChatGPT as a digital partner playing the role of analyst.

The project relies on students' active involvement in a critical interaction with the tool, guiding its analysis by integrating the methodological and statistical tools covered in the course. ChatGPT is used to generate code in R and analyze the data provided in relation to the research question. Students then write a critical report.

The expected report must include a rigorous evaluation of the AI proposals, considering the accuracy and consistency of the statistical choices, the validity of the methodologies applied in relation to the course content, the robustness of the interpretations, as well as any biases, errors or inconsistencies encountered in the response generated. All exchanges with ChatGPT must be documented via an accessible link. At the end of the project, the groups present their work orally and are questioned by another group having worked on the same data set.

This is supplemented by an in-class practical session during which the teaching assistant demonstrates an interaction with ChatGPT on a concrete example. An intermediate feedback phase is also offered, during which groups can request a meeting to discuss their progress.

Whereas in the first year this work only provided students with a bonus, the project assessment now accounts for 30% of the final course grade, with the remaining 70% allocated to an individual computer-based examination. This exam is based on a new dataset, with questions assessing students' understanding and application of the methods taught in class.

The implementation of this project revealed a high level of enthusiasm on the part of the students. In the first year, when the activity was optional and rewarded with a bonus, all students took part. This voluntary participation encouraged teachers to make the project compulsory the following year, with a significant weighting in the evaluation. Feedback from the students highlighted their interest in experimenting with ChatGPT within a structured pedagogical framework, enabling them to understand both its usefulness and its limitations. They implemented some interesting strategies, such as assigning different roles (statistics ignoramus versus advanced user) or comparing it with an analysis carried out by the students themselves (without the help of generative AI).

The main challenge lies in striking the right balance between openness and supervision. Too broad a set of instructions can generate heterogeneous productions and make evaluation difficult, while too precise a set of instructions risks stifling creativity. It is therefore essential to clearly define the scope of the exercise, for example, by limiting the tools authorized (in this case, only R and ChatGPT), while leaving some leeway in the way the interaction is constructed. For example, last year, the number of prompts was limited to 10, but the teachers discovered that it was not pedagogically interesting to restrict students in this respect. They now ask them to provide the link to the ChatGPT conversation.

Another point of vigilance concerns the formulation of instructions. It is sometimes difficult to convey expectations without locking students into an overly rigid approach. It is advisable to formulate expectations in such a way as to preserve a degree of autonomy in the chosen approach, while specifying evaluation criteria using a structured grid. The instructions for the critical report, for example, have been reworded and expanded to specify the level expected for this exercise.

Finally, it is important to bear in mind that AI tools evolve very rapidly. What seemed impossible or unreliable one year may become accessible the next. The project must therefore remain flexible, and its methodological framework regularly reassessed. The use of simulated, error-enriched datasets has proved particularly useful in avoiding overly standardized answers and encouraging students to take a step back from AI proposals.

The support of the Pôle SEA can also prove invaluable in helping to set up such a system, particularly during the design or revision phase of the project.

“I found that working with chatgpt made me understand concepts studied in class a lot better because you kind of have to”fight” with it and tell it exactly what you want to do, so you really need to understand what you’re doing.”

“It was really a great experience because it was very practical and we could really put ourselves in the shoes of data analysts. This kind of approach is super useful too because we need to work with new innovation if we want to be employable.”

Illustrations/annexes
https://luniwebconcrete1.unige.ch/c5/innovations-pedagogiques-new/application/files/3017/6339/1047/Eva_Cantoni_Learning_Goals.png
Nouvelles fonctionnalitées
17/11/2025
17/11/2025
Non
Institution Faculté Couleur (Hexadecimal)
Université de Genève Transversal #CF0063
Université de Genève Théologie #4B0B71
Université de Genève SDS #F1AB00
Université de Genève Sciences #007E64
Université de Genève Médecine #96004B
Université de Genève Lettres #0067C5
Université de Genève GSEM #465F7F
Université de Genève FTI #FF5C00
Université de Genève FPSE #00b1ae
Université de Genève Droit #F42941
Situation problématique Page cible Situation Main color Dark color Illustration
Préparer Préparer Prepare #9966ff #613fa4 Préparer.svg
Rendre actifs Rendre actif Engage #33cc99 #269973 RendreActif.svg
Responsabiliser Responsabiliser Make responsible #0099ff #297eb6 Responsabiliser.svg
Faire créer Faire creer Create #ffa248 #bc7c3c FaireCréer.svg
Nom de l'innovation Page Cible Innovation name
Impliquer dans l'enseignement Impliquer dans l'enseignement Involve students in the teaching process
Exposer des cas pratiques Exposer des cas pratiques Examine case studies
Impliquer dans la Recherche Impliquer dans la Recherche Involve students in the research process
Démontrer Démontrer Demonstrate
Donner la parole Donner la parole Hear from students
Faire conceptualiser un projet Faire conceptualiser un projet Have students conceptualize a project
Faire gérer un projet Faire gérer un projet Have students manage a project
Faire réagir Faire réagir Generate reactions
Faire réaliser une production originale Faire réaliser une production originale Have students produce an original production
Développer des compétences Développer des compétences Develop skills
Simuler une situation Simuler une situation Simulate a situation
Questionner Questionner Ask questions
Faire collaborer Faire collaborer Encourage cooperation
Faire voter Faire voter To Vote
Logo Nom court Nom de l'institution
UNINE Université de Neuchâtel
UNIGE Université de Genève