Boîte 2 : Recherche qualitative > Module 4 - Analyser les vebatims sur ChatGPT
Boîte 2 : Recherche qualitative > Module 4 - Analyser les vebatims sur ChatGPT
Ce module a été conçu pour vous accompagner dans l’analyse des verbatims issus de variables qualitatives ouvertes, que ce soit pour des enquêtes en ligne ou des plateformes comme Santé Info Droits. Elle inclut un prompt structuré en deux étapes pour maximiser la pertinence des résultats obtenus avec ChatGPT.
Pourquoi deux étapes ?
ChatGPT a tendance à ne pas exécuter parfaitement toutes les tâches demandées en une seule fois. C’est pourquoi le prompt est conçu en deux étapes pour :
1) Prétraiter les données de manière rigoureuse (nettoyage, uniformisation, concaténation des concepts).
2) Effectuer une analyse thématique approfondie et structurée.
Il est essentiel de bien vérifier le travail réalisé à chaque étape, car des omissions ou des erreurs peuvent survenir. Ces limitations exigent une attention particulière pour garantir la qualité et la cohérence des résultats.
Attention au RGPD :
Aucune donnée identifiante de doit être mise sur ChatGPT
Vous devez avoir une version payante de ChatGPT
Dans les paramètres de ChatGPT, Gestion des données, désactivez l'option "Améliorer le modèle pour tous".
Mistral est une alternative souveraine à ChatGPT, mais un plus complexe à utiliser.
Préparer les données
Chargez le fichier sur ChatGPT et copier/coller les prompt.
Commencez par le premier, puis terminez par le deuxième.
Les opérations de prétraitement des verbatim sont essentielles pour transformer les réponses ouvertes en données exploitables. Ces étapes permettent de nettoyer, uniformiser, et standardiser les textes, afin de faciliter leur analyse, que ce soit pour identifier des thèmes récurrents, créer des catégories, ou effectuer une analyse lexicale.
Voici une explication des différentes étapes et de leur utilité :
Convertir le texte en minuscules :
Pourquoi : Uniformiser les données en éliminant les différences de casse. Par exemple, "Médecin" et "médecin" seront traités comme un seul mot.
Supprimer les signes de ponctuation et les caractères spéciaux :
Pourquoi : Simplifier le traitement du texte en supprimant les éléments non pertinents, tels que la ponctuation ou les caractères spéciaux (#, @, &, etc.), qui n’ajoutent pas de valeur à l’analyse.
Nettoyer les données en supprimant :
Les mots vides (stop-words communs) :
Pourquoi : Ces mots (ex. : "le", "de", "et", "ou") sont très fréquents mais n’apportent pas d’information significative dans l’analyse du contenu. Leur suppression permet de se concentrer sur les mots porteurs de sens.
Les formules de politesse :
Pourquoi : Les expressions telles que "Bonjour", "Cordialement", ou "Merci" ne participent pas au contenu analytique. Leur suppression garantit que seuls les éléments informatifs restent dans le texte.
Standardiser les expressions (concaténation) :
Pourquoi : Cette étape, appelée concaténation, permet de ramener à un seul "mot" une idée ou un concept composé de plusieurs termes. Par exemple, "prise en charge" devient "prise_en_charge". Cela regroupe toutes les variantes d’une expression sous une forme unique et facilite l’analyse.
Simplifier les mots avec une normalisation sémantique :
Pourquoi : Les mots ayant des formes différentes mais le même sens (ex. : "examiné", "examine") sont ramenés à une forme de base ("examiner"). Cela permet de regrouper toutes les occurrences d’une même idée, quelle que soit la conjugaison ou la déclinaison grammaticale utilisée.
Normalisation des verbes :
Pourquoi : Les verbes sont ramenés à leur infinitif (ex. : "j’ai été", "suis" → "être"), ce qui simplifie l’analyse et regroupe les actions similaires sous une même forme.
Montrer les données nettoyées :
Pourquoi : Une étape cruciale où vous devez vérifier manuellement si le nettoyage a bien été effectué. ChatGPT ou tout autre outil peut faire des erreurs ou des approximations. N’hésitez pas à insister pour corriger et affiner le traitement jusqu’à ce que le résultat soit conforme à vos attentes.
Les étapes d'analyse et de regroupement thématique décrites ci-dessous permettent de structurer et synthétiser efficacement des données qualitatives issues de variables ouvertes. Elles allient techniques statistiques et interprétation humaine pour produire une analyse approfondie et visuellement claire.
Voici une explication des différentes étapes et de leur utilité :
3. Analyse et regroupement thématique
Application de la méthode TF-IDF (Term Frequency-Inverse Document Frequency) :
Pourquoi : Cette méthode identifie les mots significatifs dans le corpus en excluant ceux qui apparaissent trop fréquemment ou trop rarement.
Paramètres :
max_df = 0.75 : Exclut les mots apparaissant dans plus de 75 % des réponses (peu discriminants).
min_df = 3 : Ignore les mots apparaissant dans moins de trois réponses (non représentatifs).
Utilisation du modèle NMF (Non-Negative Matrix Factorization) :
Pourquoi : Identifie des thèmes latents dans le corpus en extrayant des groupes cohérents de mots-clés associés.
Paramètres :
Nombre de thèmes optimal : Entre 3 et 10.
Augmentation des itérations (max_iter=500) : Garantit la convergence et la stabilité des thèmes identifiés.
4. Extraction et synthèse des résultats
Association des verbatims aux thèmes dominants :
Chaque verbatim est attribué à son thème principal en fonction du score maximal dans le modèle NMF.
Identification des mots-clés représentatifs :
Extraction des 10-15 mots-clés par thème, suivie d’un contrôle manuel pour affiner leur pertinence.
Évaluation de l'équilibre des thèmes :
Comptabiliser le nombre de verbatims associés à chaque thème pour analyser leur répartition.
Paramètres spécifiques :
Seuils TF-IDF : Ajuster max_df et min_df selon les caractéristiques des données pour optimiser la pertinence des termes.
Stop-words dynamiques : Compléter ou ajuster la liste des mots vides en fonction des résultats obtenus.
5. Approfondissement thématique
Pour chaque thème identifié, fournir une analyse détaillée :
Mots fréquents associés au thème.
Sous-thèmes ou tendances dominantes.
Observations clés et enseignements extraits des verbatims.
Pour aller plus loin