Informations

Quelle est la meilleure option statistique pour comparer les différences entre les groupes ?

Quelle est la meilleure option statistique pour comparer les différences entre les groupes ?

J'ai deux groupes (13 participants expérimentaux et 13 participants témoins) effectuant deux tâches cognitives. J'ai la précision (omissions, commissions) et la mesure du temps de réaction de chaque test pour chaque personne. Pour éviter l'erreur de type I, on m'a suggéré de diminuer mon nombre de DV, j'ai maintenant d-prime (d') et le temps de réaction (RT) comme DV (tous deux continus). Je voudrais comparer les performances sur les deux tâches, à travers les deux groupes. Mes questions concernant cette conception sont:

  1. Est-ce que d-prime est une bonne mesure pour remplacer les scores de précision ? ou pourriez-vous s'il vous plaît suggérer un indice unitaire qui refléterait les performances comportementales (à partir des omissions, des commissions, des données RT)

  2. Dois-je faire une MANOVA à sens unique ? (IV- groupes ; DV- test1 d', test2 d', test1 RT, test2 RT) ?

  3. ou dois-je faire un modèle mixte MANOVA ? (si oui, comment faire, quels sont mes DV) ?


Si vous avez des données d'essai unique, les modèle de dérive-diffusion/DDM et les modèles connexes, créés par Roger Ratcliff (1976/1978), peuvent s'adapter simultanément à l'ensemble de la distribution des réponses, à la fois les RT et les précisions. Il capture des phénomènes tels que dans certaines expériences, les erreurs sont systématiquement plus rapides ou plus lentes que les réponses correctes.

L'ajustement et l'interprétation du DDM peut être non trivial, mais il présente de nombreux avantages, tels que

  • comptabilisation précise de la distribution des données RT
  • directement liés aux processus cognitifs (par exemple, vitesse d'accumulation des preuves, vitesse d'encodage sensoriel)

Le DDM fonctionne en modélisant le processus de décision comme une marche aléatoire à côté de (généralement deux) seuils de décision (par exemple correspondant au bouton correct et au bouton incorrect dans une tâche de faux choix 2-alternative), qui après une période initiale d'encodage commence à dériver vers la bonne limite à une vitesse correspondant à l'effectivité de la prise de preuves. Parfois, le processus de dérive atteint la mauvaise limite. Lorsqu'une frontière est franchie, l'exécution de la réponse correspondante est lancée.

Le DDM est adapté à l'ensemble de la distribution RT et les paramètres résultants peuvent être soumis à des tests statistiques entre les conditions. Pour un exemple d'estimation bayésienne hiérarchique du modèle, considérons HDDM.

Les références

Ratcliff, R. & Murdock, B.B., Jr. (1976). Processus de récupération dans la mémoire de reconnaissance. Revue psychologique, 83, 190-214.
Ratcliff, R. (1978). Une théorie de la récupération de la mémoire. Revue psychologique, 85, 59-108.
Forstmann, B. U., Ratcliff, R., & Wagenmakers, E.-J. (2016). Modèles d'échantillonnage séquentiel en neurosciences cognitives : avantages, applications et extensions. Revue annuelle de psychologie, 67, 641-666.
Ratcliff, R., Smith, P.L., Brown, S.D. et McKoon, G. (2016). Modèle décisionnel de diffusion : enjeux actuels et historique. Tendances des sciences cognitives, 20, 260-281.
Wiecki TV, Sofer I et Frank MJ (2013). HDDM : Estimation bayésienne hiérarchique du modèle de dérive-diffusion en Python. Devant. Neuro-informer. 7h14. doi: 10.3389/fninf.2013.00014


ANOVA (Analyse de Variance)

L'ANOVA est une technique statistique qui évalue les différences potentielles dans une variable dépendante au niveau de l'échelle par une variable de niveau nominal ayant 2 catégories ou plus. Par exemple, une ANOVA peut examiner les différences potentielles dans les scores de QI par pays (États-Unis contre Canada contre Italie contre Espagne). Développé par Ronald Fisher en 1918, ce test étend la t et le z test qui ont le problème de ne permettre que la variable de niveau nominal d'avoir deux catégories. Ce test est également appelé analyse de variance de Fisher.

L'utilisation de l'ANOVA dépend de la conception de la recherche. Généralement, les ANOVA sont utilisées de trois manières : ANOVA à une voie, ANOVA à deux voies et ANOVA à N.

Faites approuver votre thèse
Nous travaillons chaque jour avec des étudiants diplômés et savons ce qu'il faut pour faire approuver votre recherche.

  • Répondre aux commentaires du comité
  • Feuille de route jusqu'à l'achèvement
  • Comprendre vos besoins et vos délais

ANOVA à un facteur

Une ANOVA à sens unique n'a qu'une variable indépendante. Par exemple, la différence de QI peut être évaluée par pays, et le comté peut avoir 2, 20 ou plusieurs catégories différentes à comparer.

ANOVA à deux facteurs

Une ANOVA à deux facteurs (également appelée ANOVA factorielle) fait référence à une ANOVA utilisant deux variables indépendantes. En développant l'exemple ci-dessus, une ANOVA à 2 facteurs peut examiner les différences de scores de QI (la variable dépendante) par pays (variable indépendante 1) et par sexe (variable indépendante 2). L'ANOVA à deux facteurs peut être utilisée pour examiner l'interaction entre les deux variables indépendantes. Les interactions indiquent que les différences ne sont pas uniformes dans toutes les catégories de variables indépendantes. Par exemple, les femmes peuvent avoir des scores de QI globalement plus élevés que les hommes, mais cette différence pourrait être plus grande (ou moins) dans les pays européens par rapport aux pays d'Amérique du Nord.

ANOVA N-Way

Un chercheur peut également utiliser plus de deux variables indépendantes, et il s'agit d'une ANOVA à n voies (n étant le nombre de variables indépendantes dont vous disposez). Par exemple, les différences potentielles dans les scores de QI peuvent être examinées simultanément par pays, sexe, groupe d'âge, ethnie, etc.

Objectif général et procédure

L'hypothèse nulle pour une ANOVA est qu'il n'y a pas de différence significative entre les groupes. L'hypothèse alternative suppose qu'il existe au moins une différence significative entre les groupes. Après avoir nettoyé les données, le chercheur doit tester les hypothèses de l'ANOVA. Ils doivent ensuite calculer le F-ratio et la valeur de probabilité associée (p-valeur). En général, si le p-valeur associée à la F est inférieur à 0,05, alors l'hypothèse nulle est rejetée et l'hypothèse alternative est confirmée. Si l'hypothèse nulle est rejetée, on conclut que les moyennes de tous les groupes ne sont pas égales. Les tests post-hoc indiquent au chercheur quels groupes sont différents les uns des autres.

Et si vous trouviez une signification statistique ? Tests de comparaison multiples

Lorsque vous effectuez une ANOVA, vous essayez de déterminer s'il existe une différence statistiquement significative entre les groupes. Si vous trouvez qu'il y a une différence, vous devrez alors examiner où se situent les différences de groupe.

À ce stade, vous pouvez exécuter des tests post-hoc qui sont t tests examinant les différences moyennes entre les groupes. Plusieurs tests de comparaison multiples peuvent être effectués pour contrôler le taux d'erreur de type I, notamment les tests de Bonferroni, Scheffe, Dunnet et Tukey.

Questions de recherche examinées par l'ANOVA

ANOVA à sens unique : y a-t-il des différences de moyenne cumulative selon le niveau scolaire (étudiants de première année contre étudiants de deuxième année contre juniors) ?

ANOVA à deux facteurs : y a-t-il des différences dans la moyenne cumulative par niveau scolaire (étudiants de première année contre étudiants de deuxième année contre juniors) et par sexe (hommes contre femmes) ?

Niveau de données et hypothèses

Le niveau de mesure des variables et les hypothèses du test jouent un rôle important dans l'ANOVA. Dans l'ANOVA, la variable dépendante doit être un niveau de mesure continu (intervalle ou rapport). Les variables indépendantes dans l'ANOVA doivent être des variables catégorielles (nominales ou ordinales). Comme le t-test, l'ANOVA est également un test paramétrique et comporte certaines hypothèses. L'ANOVA suppose que les données sont distribuées normalement. L'ANOVA suppose également l'homogénéité de la variance, ce qui signifie que la variance entre les groupes doit être approximativement égale. L'ANOVA suppose également que les observations sont indépendantes les unes des autres. Lors de la planification d'une étude, les chercheurs doivent garder à l'esprit la recherche de variables étrangères ou de confusion. L'ANOVA a des méthodes (c'est-à-dire ANCOVA) pour contrôler les variables confusionnelles.

Test des hypothèses

  1. La population à partir de laquelle les échantillons sont tirés doit être normalement distribuée.
    2. Indépendance des cas : les exemples de cas doivent être indépendants les uns des autres.
    3. Homogénéité de la variance : L'homogénéité signifie que la variance entre les groupes doit être approximativement égale.

Ces hypothèses peuvent être testées à l'aide d'un logiciel statistique (comme Intellectus Statistics !). L'hypothèse d'homogénéité de la variance peut être testée à l'aide de tests tels que le test de Levene ou le test de Brown-Forsythe. La normalité de la distribution des scores peut être testée à l'aide d'histogrammes, des valeurs d'asymétrie et d'aplatissement, ou à l'aide de tests tels que Shapiro-Wilk ou Kolmogorov-Smirnov. L'hypothèse d'indépendance peut être déterminée à partir de la conception de l'étude.

Il est important de noter que l'ANOVA n'est pas robuste aux violations de l'hypothèse d'indépendance. C'est-à-dire que même si vous violez les hypothèses d'homogénéité ou de normalité, vous pouvez effectuer le test et faire confiance aux résultats. Cependant, les résultats de l'ANOVA sont invalides si l'hypothèse d'indépendance est violée. En général, avec des violations d'homogénéité, l'analyse est considérée comme robuste si vous avez des groupes de taille égale. Avec les violations de la normalité, continuer avec l'ANOVA est généralement acceptable si vous avez un grand échantillon.

Analyses associées : MANOVA et ANCOVA

Les chercheurs ont étendu l'ANOVA à MANOVA et ANCOVA. MANOVA signifie l'analyse multivariée de la variance. MANOVA est utilisé lorsqu'il y a deux variables dépendantes ou plus. ANCOVA est le terme utilisé pour l'analyse de la covariance. L'ANCOVA est utilisé lorsque le chercheur inclut une ou plusieurs variables covariables dans l'analyse.

Algina, J., & Olejnik, S. (2003). Réalisation d'analyses de puissance pour ANOVA et ANCOVA dans des conceptions inter-sujets. Evaluation & les Professions de Santé, 26(3), 288-314.

Cardinal, R.N., & Aitken, M.R.F. (2006). ANOVA pour le chercheur en sciences du comportement. Mahwah, NJ : Lawrence Erlbaum Associates.

Cortina, J.M., & Nouri, H. (2000). Taille de l'effet pour les conceptions ANOVA. Mille Chênes, Californie : Publications Sage. Taille de l'effet pour les conceptions ANOVA (Applications quantitatives en sciences sociales)

Davison, M.L., & Sharma, A.R. (1994). ANOVA et ANCOVA de pré- et post-test, données ordinales. Psychométrie, 59 ans(4), 593-600.

Girden, E.R. (1992). ANOVA mesures répétées. Newbury Park, Californie : Publications Sage. Vue

Iverson, G.R., & Norpoth, H. (1987). Analyse de variance. Mille Chênes, Californie : Publications Sage. Vue

Jackson, S., & Brashers, D.E. (1994). Facteurs aléatoires dans l'ANOVA. Mille Chênes, Californie : Publications Sage. Vue

Klockars, A.J., & Sax, G. (1986). Comparaisons multiples. Newbury Park, Californie : Publications Sage. Vue

Levy, M.S., & Neill, J.W. (1990). Tester l'absence d'ajustement dans les modèles linéaires à réponses multiples basés sur des répliques exactes ou proches. Communications en statistique – Théorie et méthodes, 19(6), 1987-2002.

Rutherford, A. (2001). Présentation de l'ANOVA et de l'ANCOVA : une approche GLM. Mille Chênes, Californie : Publications Sage. Vue

Toothacker, L.E. (1993). Procédures de comparaisons multiples. Newbury Park, Californie : Publications Sage. Vue

Tsangari, H., & Akritas, M. G. (2004). ANCOVA non paramétrique avec deux et trois covariables. Journal d'analyse multivariée, 88(2), 298-319.

Turner, J.R., & Thayer, J.F. (2001). Introduction à l'analyse de la variance : conception, analyse et interprétation. Mille Chênes, Californie : Publications Sage.

Wilcox, R. R. (2005). Une approche de l'ANCOVA qui permet plusieurs covariables, la non-linéarité et l'hétéroscédasticité. Mesure éducative et psychologique, 65(3), 442-450.

Wildt, A.R., & Ahtola, O.T. (1978). Analyse de covariance. Newbury Park, Californie : Publications Sage. Vue

Wright, D.B. (2006). Comparaison de groupes dans une conception avant-après : quand t test et ANCOVA produisent des résultats différents. Journal britannique de psychologie de l'éducation, 76, 663-675.

Pages associées :

Statistics Solutions peut vous assister dans votre analyse quantitative en vous aidant à développer votre méthodologie et vos chapitres de résultats. Les services que nous offrons comprennent :

Modifiez vos questions de recherche et hypothèses nulles/alternatives

Rédigez votre plan d'analyse de données, spécifiez des statistiques spécifiques pour répondre aux questions de recherche, les hypothèses des statistiques, et justifiez pourquoi elles sont les statistiques appropriées, fournissez des références.

Justifiez la taille de votre échantillon/analyse de puissance, fournissez des références

Expliquez-vous votre plan d'analyse de données afin que vous soyez à l'aise et confiant

Deux heures d'accompagnement supplémentaire avec votre statisticien

Section des résultats quantitatifs (Statistiques descriptives, analyses bivariées et multivariées, modélisation par équation structurelle, analyse de chemin, HLM, analyse de cluster)

Effectuer des statistiques descriptives (c.-à-d. moyenne, écart-type, fréquence et pourcentage, le cas échéant)

Mener des analyses pour examiner chacune de vos questions de recherche

Fournir les tableaux et figures de l'APA 6 e édition

Expliquer les conclusions du chapitre 4

Support continu pour l'ensemble des statistiques du chapitre des résultats

Veuillez appeler le 727-442-4290 pour demander un devis basé sur les spécificités de votre recherche, planifier en utilisant le calendrier sur cette page, ou envoyer un courriel [e-mail protégé]


Foire aux questions sur les tests t

Un test t est un test statistique qui compare les moyennes de deux échantillons. Il est utilisé dans les tests d'hypothèse, avec une hypothèse nulle selon laquelle la différence des moyennes de groupe est nulle et une hypothèse alternative selon laquelle la différence des moyennes de groupe est différente de zéro.

Un test t mesure la différence entre les moyennes des groupes divisée par l'erreur standard regroupée des deux moyennes des groupes.

De cette façon, il calcule un nombre (la valeur t) illustrant l'ampleur de la différence entre les deux moyennes de groupe comparées, et estime la probabilité que cette différence existe purement par hasard (valeur p).

Votre choix de test t dépend si vous étudiez un groupe ou deux groupes, et si vous vous souciez de la direction de la différence dans les moyennes des groupes.

Si vous étudiez un groupe, utilisez un test t apparié comparer la moyenne du groupe dans le temps ou après une intervention, ou utiliser un test t à un échantillon comparer la moyenne du groupe à une valeur standard. Si vous étudiez deux groupes, utilisez un test t à deux échantillons.

Si vous voulez seulement savoir s'il existe une différence, utilisez un test bilatéral. Si vous voulez savoir si la moyenne d'un groupe est supérieure ou inférieure à l'autre, utilisez une queue à gauche ou à droite test unilatéral.

UNE test t à un échantillon est utilisé pour comparer une seule population à une valeur standard (par exemple, pour déterminer si la durée de vie moyenne d'une ville spécifique est différente de la moyenne du pays).

UNE test t apparié est utilisé pour comparer une seule population avant et après une intervention expérimentale ou à deux moments différents (par exemple, mesurer les performances des élèves à un test avant et après avoir appris la matière).

Un test t ne doit pas être utilisé pour mesurer les différences entre plus de deux groupes, car la structure d'erreur d'un test t sous-estimera l'erreur réelle lorsque de nombreux groupes sont comparés.

Si vous souhaitez comparer les moyennes de plusieurs groupes à la fois, il est préférable d'utiliser un autre test statistique tel que l'ANOVA ou un test post-hoc.


Article de recherche original

Huamao Peng * , Shiyong Xia, Fanglin Ruan et Bingyan Pu

L'effet de cadrage d'options est le phénomène selon lequel les participants acceptent souvent plus d'options lorsqu'on leur demande de supprimer des options indésirables d'un modèle complet (cadrage soustractif) que lorsqu'on leur demande d'ajouter des options souhaitées à un modèle de base (cadrage additif). On sait moins si le même effet existe dans différents groupes d'âge. Pour explorer les rôles de l'âge et des motivations d'achat sur l'effet de cadrage d'options pour l'achat d'automobiles, cette étude a adopté un 3 (groupe d'âge : plus jeune, d'âge moyen vs plus âgé) × 2 (cadrage d'option : additif vs soustractif) × 2 (condition de mise au point : information contre émotion) conception mixte. Pour manipuler les motivations d'achat, les participants des trois groupes d'âge ont été invités à se concentrer sur le rapport d'utilité et de prix des options (accent sur l'information) ou sur l'étendue du plaisir induit par les options (accent sur les émotions) lorsqu'ils prenaient des décisions d'achat dans deux conditions d'encadrement. Les résultats ont révélé un effet de cadrage des options similaire dans tous les groupes d'âge dans la condition axée sur l'information concernant le prix total payé pour les options acceptées. En revanche, l'effet de cadrage n'a pas été trouvé dans la condition de focalisation sur l'émotion. De plus, les adultes plus âgés ont accepté plus d'options et un prix global plus élevé que les adultes plus jeunes et d'âge moyen dans les deux conditions de concentration. Cette différence était plus évidente dans la condition axée sur l'émotion que dans la condition axée sur l'information. De plus, le nombre d'options acceptées et le prix total accepté du groupe plus jeune dans la condition axée sur l'information étaient plus élevés que ceux dans la condition axée sur l'émotion, tandis que les groupes plus âgés et d'âge moyen acceptaient le même nombre d'options et le même prix entre deux conditions de mise au point. Ces résultats impliquent que la motivation d'achat est un modérateur de l'effet d'encadrement des options et que les caractéristiques d'âge liées aux motivations doivent être prises en compte dans les ventes.


Comment choisir le bon test statistique ?

Aujourd'hui, les statistiques fournissent la base de l'inférence dans la plupart des recherches médicales. Pourtant, faute d'exposition à la théorie et à la pratique statistiques, il continue d'être considéré comme le talon d'Achille par tous ceux qui sont concernés dans la boucle de la recherche et de la publication par les chercheurs (auteurs), les réviseurs, les éditeurs et les lecteurs.

La plupart d'entre nous connaissent dans une certaine mesure les mesures statistiques descriptives telles que celles de tendance centrale et celles de dispersion. Cependant, nous hésitons sur les statistiques inférentielles. Cela n'est pas nécessairement le cas, en particulier avec la disponibilité généralisée de logiciels statistiques puissants et conviviaux. Comme nous l'avons souligné ci-dessous, quelques considérations fondamentales conduiront à sélectionner le test statistique approprié pour le test d'hypothèse. Cependant, il est important que l'analyse statistique appropriée soit décidée avant de commencer l'étude, au stade de la planification elle-même, et que la taille de l'échantillon choisi soit optimale. Ceux-ci ne peuvent pas être décidés arbitrairement une fois l'étude terminée et les données ont déjà été collectées.

La grande majorité des études peut être abordée à travers un panier d'une trentaine de tests parmi plus d'une centaine en cours d'utilisation. Le test à utiliser dépend du type de question de recherche posée. Les autres facteurs déterminants sont le type de données analysées et le nombre de groupes ou d'ensembles de données impliqués dans l'étude. Les schémas suivants, basés sur cinq questions de recherche génériques, devraient aider.[1]

Question 1: Y a-t-il une différence entre les groupes qui ne sont pas appariés ? Les groupes ou les ensembles de données sont considérés comme non appariés s'il n'y a aucune possibilité que les valeurs d'un ensemble de données soient liées ou influencées par les valeurs des autres ensembles de données. Différents tests sont nécessaires pour les données quantitatives ou numériques et les données qualitatives ou catégorielles comme le montre la figure 1 . Pour les données numériques, il est important de décider si elles suivent les paramètres de la courbe de distribution normale (courbe de Gauss), auquel cas des tests paramétriques sont appliqués. Si la distribution des données n'est pas normale ou si l'on n'est pas sûr de la distribution, il est plus sûr d'utiliser des tests non paramétriques. Lors de la comparaison de plus de deux ensembles de données numériques, un test de comparaison de groupes multiples tel que l'analyse de variance à un facteur (ANOVA) ou le test de Kruskal-Wallis doit être utilisé en premier. S'ils renvoient une valeur statistiquement significative p valeur (ce qui signifie généralement p < 0,05) alors seulement ils doivent être suivis d'un test post hoc pour déterminer exactement entre quels ensembles de données se situe la différence. L'application répétée du test t ou de son homologue non paramétrique, le test U de Mann-Whitney, à une situation de groupes multiples augmente la possibilité de rejeter à tort l'hypothèse nulle.

Tests pour répondre à la question : y a-t-il une différence entre les groupes et la situation non apparié (groupes parallèles et indépendants) ?

Question 2: Y a-t-il une différence entre les groupes qui sont appariés? L'appariement signifie que les ensembles de données sont dérivés de mesures répétées (par exemple, des mesures avant-après ou plusieurs mesures dans le temps) sur le même ensemble de sujets. L'appariement se produira également si les groupes de sujets sont différents mais que les valeurs d'un groupe sont d'une manière ou d'une autre liées ou liées aux valeurs de l'autre groupe (par exemple, études de jumeaux, études de frères et sœurs, études parents-enfants). Une conception d'étude croisée demande également l'application de tests de groupes appariés pour comparer les effets de différentes interventions sur les mêmes sujets. Parfois, les sujets sont délibérément appariés pour correspondre à des caractéristiques de base telles que l'âge, le sexe, la gravité ou la durée de la maladie. Un schéma similaire à celui de la figure 1 est suivi dans le test d'ensembles de données appariés, comme indiqué sur la figure 2 . Encore une fois, la comparaison de plusieurs ensembles de données doit être effectuée par le biais de tests de groupes multiples appropriés, suivis de tests post hoc.

Tests pour répondre à la question : Y a-t-il une différence entre les groupes – situation apparié ?

Question 3: Existe-t-il une association entre les variables ? Les différents tests applicables sont décrits dans la Fig. 3 . Il est à noter que les tests destinés aux données numériques sont destinés à tester l'association entre deux variables. Ce sont des tests de corrélation et ils expriment la force de l'association sous la forme d'un coefficient de corrélation. Une corrélation inverse entre deux variables est représentée par un signe moins. Tous les coefficients de corrélation varient en amplitude de 0 (aucune corrélation) à 1 (corrélation parfaite). Une corrélation parfaite peut indiquer mais ne signifie pas nécessairement une causalité. Lorsque deux variables numériques sont liées linéairement l'une à l'autre, une analyse de régression linéaire peut générer une équation mathématique, qui peut prédire la variable dépendante en fonction d'une valeur donnée de la variable indépendante.[2] Les rapports de cotes et les risques relatifs sont la base des études épidémiologiques et expriment l'association entre les données catégorielles qui peuvent être résumées sous la forme d'un tableau de contingence 2 × 2. La régression logistique est en fait une méthode d'analyse multivariée qui exprime la force de l'association entre une variable dépendante binaire et deux ou plusieurs variables indépendantes sous forme de rapports de cotes ajustés.

Des tests pour répondre à la question : Y a-t-il une association entre les variables ?

Question 4: Y a-t-il un accord entre les ensembles de données ? Cela peut être une comparaison entre une nouvelle technique de dépistage par rapport au test standard, un nouveau test de diagnostic par rapport à l'étalon-or disponible ou un accord entre les notes ou les scores donnés par différents observateurs. Comme le montre la figure 4, l'accord entre les variables numériques peut être exprimé quantitativement par le coefficient de corrélation intraclasse ou graphiquement en construisant un graphique de Bland-Altman dans lequel la différence entre deux variables X et oui est tracé en fonction de la moyenne de X et oui. Dans le cas de données catégorielles, la statistique Kappa de Cohen est fréquemment utilisée, le kappa (qui varie de 0 pour aucun accord à 1 pour un accord parfait) indiquant un accord fort lorsqu'il est de 0,7. Il est inapproprié d'inférer un accord en montrant qu'il n'y a pas de différence statistiquement significative entre les moyennes ou en calculant un coefficient de corrélation.

Des tests pour répondre à la question : Y a-t-il un accord entre les techniques d'évaluation (dépistage / cotation / diagnostic) ?

Question 5 : Y a-t-il une différence entre les tendances temporelles et les graphiques de survie ? Cette question est spécifique à l'analyse de survie[3](le critère d'évaluation d'une telle analyse pourrait être le décès ou tout événement pouvant survenir après un certain temps) qui se caractérise par la censure des données, ce qui signifie qu'une proportion importante des sujets de l'étude d'origine peut n'atteignent pas le critère d'évaluation en question à la fin de l'étude. Les ensembles de données pour les tendances de survie sont toujours considérés comme non paramétriques. S'il y a deux groupes, les tests applicables sont le test de Cox-Mantel, le test de Gehan (Wilcoxon généralisé) ou le test du log-rank. Dans le cas de plus de deux groupes, le test Peto et Peto ou le test du log-rank peuvent être appliqués pour rechercher une différence significative entre les tendances du temps jusqu'à l'événement.

Il peut être apprécié à partir de l'aperçu ci-dessus que la distinction entre les données paramétriques et non paramétriques est importante. Des tests de normalité (par exemple, le test de Kolmogorov-Smirnov ou le test d'adéquation de Shapiro-Wilk) peuvent être appliqués plutôt que de faire des hypothèses. Certaines des autres conditions préalables des tests paramétriques sont que les échantillons aient la même variance, c'est-à-dire qu'ils soient tirés de la même population, que les observations au sein d'un groupe soient indépendantes et que les échantillons aient été tirés au hasard dans la population.

Un test unilatéral calcule la possibilité d'écart par rapport à l'hypothèse nulle dans une direction spécifique, tandis qu'un test bilatéral calcule la possibilité d'écart par rapport à l'hypothèse nulle dans les deux sens. Lorsque l'intervention A est comparée à l'intervention B dans un essai clinique, l'hypothèse nulle suppose qu'il n'y a pas de différence entre les deux interventions. Un écart par rapport à cette hypothèse peut se produire en faveur de l'une ou l'autre intervention dans un test bilatéral, mais dans un test unilatéral, il est présumé qu'une seule intervention peut montrer la supériorité sur l'autre. Bien que pour un ensemble de données donné, un test unilatéral renverra un plus petit p valeur qu'un test bilatéral, ce dernier est généralement préféré à moins qu'il n'y ait un cas étanche pour un test unilatéral.

Il est évident que nous ne pouvons pas faire référence à tous les tests statistiques dans un seul éditorial. Cependant, les schémas décrits couvriront les exigences de test d'hypothèse de la majorité des études observationnelles et interventionnelles. Enfin, il ne faut pas oublier que rien ne remplace le fait de travailler sur le terrain avec des ensembles de données factices ou réelles, et de demander l'avis d'un statisticien, afin d'apprendre les nuances des tests d'hypothèses statistiques.


Diplômes de psychologie

Longtemps considérée comme l'une des sciences sociales les plus fascinantes, la psychologie se classe parmi les meilleures majors universitaires du pays. Les étudiants peuvent poursuivre des études en psychologie aux niveaux associé, baccalauréat, maîtrise et doctorat.

Alors que chaque type de diplôme met l'accent sur des compétences qui se traduisent par différents cheminements de carrière, les opportunités d'emploi dans le domaine varient considérablement selon la spécialité et les qualifications minimales. Les postes les mieux rémunérés et les plus spécialisés nécessitent une formation clinique et en recherche, ce qui augmente la demande de masters, de doctorats et de Psy.D. titulaires de diplômes.

Diplôme d'associé en psychologie

Un diplôme d'associé en psychologie, qui prend généralement deux ans d'études à temps plein, offre une entrée rapide sur le marché du travail par rapport aux autres filières d'études. Les diplômés trouvent un emploi dans un éventail de rôles de début ou de soutien dans les domaines des services sociaux et humains et de la santé mentale. Pour de nombreux étudiants, le diplôme d'associé de 60 crédits sert de tremplin vers les diplômes de licence et de maîtrise, ainsi que des opportunités de carrière plus avancées.

Alors que la plupart des diplômes associés consistent principalement en des exigences de formation générale qui mettent l'accent sur la communication verbale et écrite, les mathématiques et les compétences analytiques, les offres de psychologie présentent aux étudiants la discipline, couvrant les principales théories et sujets tels que la cognition, la personnalité et les approches développementales.

Baccalauréat en psychologie

Un baccalauréat offre la meilleure voie vers une variété de carrières en psychologie. Les diplômés peuvent occuper des postes dans les services sociaux et communautaires, les ressources humaines et les services de réadaptation ou poursuivre un emploi dans des domaines non psychologiques tels que les affaires, la justice pénale et l'éducation. Un baccalauréat fournit également la base académique d'un diplôme d'études supérieures requis pour accéder à des postes plus avancés dans le domaine.

La plupart des programmes de licence consistent en 160 crédits complétés sur quatre ans. Bien que les cours varient selon le programme, la plupart des majors en psychologie suivent des cours de théorie et de méthodes de recherche, de toxicomanie et de psychologie du développement. Les expériences cliniques constituent une partie essentielle du programme de psychologie, offrant aux étudiants une formation pratique axée sur la carrière.

Master & rsquos en psychologie

Bien qu'une maîtrise en psychologie nécessite généralement deux années d'études au-delà du baccalauréat, les avantages l'emportent sur l'engagement en temps et les coûts financiers. Ce diplôme fournit la qualification éducative minimale pour les postes de conseil, d'administration et de recherche dans divers contextes, y compris les services sociaux et communautaires, l'éducation et les soins de santé mentale. Les titulaires d'une maîtrise poursuivent souvent leurs études dans des programmes de doctorat, généralement pour se préparer à des postes de psychologues cliniciens ou de chercheurs agréés.

Le programme typique propose des cours de psychologie de base et des expériences cliniques. Selon le programme, les étudiants peuvent choisir parmi plusieurs spécialisations qui reflètent leurs intérêts personnels et professionnels, dans des domaines tels que la psychologie de l'enfant, la psychologie médico-légale et la psychologie du sport.

Doctorat Licence en psychologie

Tous les États exigent que les psychologues professionnels détiennent un doctorat, soit un doctorat. ou un Psy.D. Alors que les psychologues cliniciens qui ont obtenu l'un ou l'autre diplôme peuvent obtenir des licences d'État pour pratiquer, un doctorat. offre le type de formation approprié aux étudiants intéressés à enseigner au niveau postsecondaire et à mener des recherches scientifiques.

Un doctorat Le programme, qui peut prendre 5 à 8 ans, met davantage l'accent sur les statistiques et la méthodologie de recherche que sur les applications cliniques. Comme le Psy.D. diplôme, le programme comprend généralement un stage d'un an, approuvé par l'American Psychological Association (APA). L'exigence de la thèse peut prolonger la durée nécessaire pour terminer un doctorat. degré.

Psy.D. Licence en psychologie

Contrairement au doctorat axé sur la recherche. diplôme, Psy.D. les programmes se concentrent sur les applications cliniques, les stratégies d'évaluation et les techniques d'intervention avec moins d'accent sur les méthodes qualitatives et quantitatives. Le Psy.D. Le programme d'études propose généralement des spécialisations dans des domaines de pratique clinique tels que la thérapie familiale et de couple, la psychologie scolaire, le conseil et la gérontologie, nécessitant un stage approuvé par l'APA dans le domaine de la pratique.

Idéal pour les étudiants cherchant à entrer dans la pratique clinique et dans des rôles administratifs plutôt que dans l'enseignement ou la recherche, un Psy.D. propose une approche plus pragmatique de la psychologie. Bien que certains programmes puissent nécessiter une thèse ou un projet de recherche de synthèse, le diplôme prend généralement moins de temps à terminer qu'un doctorat, la plupart des étudiants terminant toutes les exigences en 4 à 6 ans.


Mots clés

L'inférence statistique a joué un rôle crucial dans la recherche scientifique depuis la seconde moitié du 20e siècle en reliant les données et les tests d'hypothèses (Gigerenzer, Swijtink, Porter, & Daston, Reference Gigerenzer, Swijtink, Porter et Daston 1990). Actuellement, l'indice statistique le plus courant dans la littérature scientifique est le p valeur, malgré les critiques répétées de son utilisation irréfléchie (Benjamin et al., Reference Benjamin, Berger, Johannesson, Nosek, Wagenmakers, Berk et Johnson 2018 Cumming, Reference Cumming 2013 Cumming et al., Reference Cumming, Fidler, Leonard, Kalinowski, Christiansen , Kleinig et Wilson 2007 McCloskey & Ziliak, Référence McCloskey et Ziliak 2008). Au cours des 20 dernières années, les éléments (par exemple, les figures et les tableaux) affichés dans les trois principales revues multidisciplinaires (La nature, Science, et PNAS) s'est progressivement appuyé sur p valeurs (Cristea & Ioannidis, Référence Cristea et Ioannidis 2018).

Cependant, le très utilisé p la valeur est également généralement mal comprise. Plusieurs enquêtes en psychologie montrent que la plupart des chercheurs et des étudiants interprètent mal p valeurs (Badenes-Ribera, Frias-Navarro, Iotti, Bonilla-Campos, & Longobardi, Référence Badenes-Ribera, Frias-Navarro, Iotti, Bonilla-Campos et Longobardi 2016 Badenes-Ribera, Frías-Navarro, Monterde-i-Bort, & Pascual-Soler, Référence Badenes-Ribera, Frías-Navarro, Monterde-i-Bort et Pascual-Soler 2015 Haller & Krauss, Référence Haller et Krauss 2002 Lyu, Peng, & Hu, Référence Lyu, Peng et Hu 2018 Oakes, Référence Oakes 1986). Cette mauvaise interprétation peut entraîner une mauvaise utilisation et un abus de p valeurs, telles que le culte de la signification statistique (McCloskey & Ziliak, Reference McCloskey et Ziliak 2008) et p-hacking (Head, Holman, Lanfear, Kahn, & Jennions, Reference Head, Holman, Lanfear, Kahn et Jennions 2015 Nuijten, Hartgerink, van Assen, Epskamp, ​​& Wicherts, Reference Nuijten, Hartgerink, van Assen, Epskamp et Wicherts 2016) , ce qui pourrait être la principale raison de la crise de réplication en psychologie (Hu et al., Reference Hu, Wang, Guo, Song, Sui and Peng 2016 John, Loewenstein, & Prelec, Reference John, Loewenstein and Prelec 2012 Simmons, Nelson, & Simonsohn, Référence Simmons, Nelson et Simonsohn 2011).

Une alternative à p valeurs est la taille des effets et leurs intervalles de confiance (IC). En particulier, les IC représentent les variations de la taille de l'effet et aident les chercheurs à produire une inférence statistique améliorée (Coulson, Healey, Fidler, & Cumming, Reference Coulson, Healey, Fidler et Cumming 2010). Cependant, les IC sont également difficiles à comprendre. Par exemple, Hoekstra, Morey, Rouder et Wagenmakers (Référence Hoekstra, Morey, Rouder et Wagenmakers 2014) ont interrogé les chercheurs sur la compréhension des IC dans une approche similaire aux enquêtes sur le p valeur et a constaté que la plupart des chercheurs ont mal compris les IC. This phenomenon is confirmed by surveys from multiple countries (Greenland et al., Reference Greenland, Senn, Rothman, Carlin, Poole, Goodman and Altman 2016 Lyu et al., Reference Lyu, Peng and Hu 2018 Morey, Hoekstra, Rouder, & Wagenmakers, Reference Morey, Hoekstra, Rouder and Wagenmakers 2016).

Even with the availability of multiple surveys, several questions remain unanswered. First, all available data are from psychological researchers or researchers in biomedical science. Only a few studies surveyed researchers in other disciplines. Étant donné que p values and CIs are frequently used in other fields as much as in psychology (Colquhoun, Reference Colquhoun 2014 Vidgen & Yasseri, Reference Vidgen and Yasseri 2016), the extent of the understanding of researchers’ and students’ in other fields of these statistical indices is an open question. Second, the majority of previous surveys failed to identify how confident the respondents were of their own judgment. Third, most previous surveys only focused on the statistically significant statement, though non-significant results are equally important and often miscomprehended (Aczel et al., Reference Aczel, Palfi, Szollosi, Kovacs, Szaszi, Szecsi and Wagenmakers 2018). To address these issues, a survey is conducted to investigate the following aspects related to the misinterpretation of p values and CIs: (1) whether the misinterpretation prevails across different fields of science (2) whether researchers interpret significant and nonsignificant results differently and (3) whether researchers are aware of their own misinterpretations, such as how confident they are when they endorse a statement toward p values or CIs.

In this survey, we adopt four questions from previous studies (Gigerenzer, Reference Gigerenzer 2004 Haller & Krauss, Reference Haller and Krauss 2002 Hoekstra et al., Reference Hoekstra, Morey, Rouder and Wagenmakers 2014) for p values and CIs. These questions were used in Germany (Haller & Krauss, Reference Haller and Krauss 2002), UK (Oakes, Reference Oakes 1986), Spain (Badenes-Ribera et al., Reference Badenes-Ribera, Frías-Navarro, Monterde-i-Bort and Pascual-Soler 2015), Italy (Badenes-Ribera et al., Reference Badenes-Ribera, Frías-Navarro, Monterde-i-Bort and Pascual-Soler 2015), Chile (Badenes-Ribera et al., Reference Badenes-Ribera, Frías-Navarro, Monterde-i-Bort and Pascual-Soler 2015) and China (Hu et al., Reference Hu, Wang, Guo, Song, Sui and Peng 2016 Lyu et al., Reference Lyu, Peng and Hu 2018). We selected four items to minimize the length of the questionnaire. We opted for these particular items because they are widely used and they enable a comparison between the results of the present and previous surveys. These items have several limitations. For example, certain items (e.g., “The probability that the true mean is greater than 0 is at least 95%” “The probability that the true mean equals 0 is smaller than 5%.”) in the study of Hoekstra et al. ( Reference Hoekstra, Morey, Rouder and Wagenmakers 2014) could not be considered “incorrect” due to varied understanding of the conception “probability” (Miller & Ulrich, Reference Miller and Ulrich 2015).


14.5 Multiple comparisons and post hoc tests

Any time you run an ANOVA with more than two groups, and you end up with a significant effect, the first thing you’ll probably want to ask is which groups are actually different from one another. In our drugs example, our null hypothesis was that all three drugs (placebo, Anxifree and Joyzepam) have the exact same effect on mood. But if you think about it, the null hypothesis is actually claiming Trois different things all at once here. Specifically, it claims that:

  • Your competitor’s drug (Anxifree) is no better than a placebo (i.e., (mu_A = mu_P) )
  • Your drug (Joyzepam) is no better than a placebo (i.e., (mu_J = mu_P) )
  • Anxifree and Joyzepam are equally effective (i.e., (mu_J = mu_A) )

If any one of those three claims is false, then the null hypothesis is also false. So, now that we’ve rejected our null hypothesis, we’re thinking that at least one of those things isn’t true. But which ones? All three of these propositions are of interest: you certainly want to know if your new drug Joyzepam is better than a placebo, and it would be nice to know how well it stacks up against an existing commercial alternative (i.e., Anxifree). It would even be useful to check the performance of Anxifree against the placebo: even if Anxifree has already been extensively tested against placebos by other researchers, it can still be very useful to check that your study is producing similar results to earlier work.

When we characterise the null hypothesis in terms of these three distinct propositions, it becomes clear that there are eight possible “states of the world” that we need to distinguish between:

possibility: is (mu_P = mu_A) ? is (mu_P = mu_J) ? is (mu_A = mu_J) ? which hypothesis?
1 (checkmark) (checkmark) (checkmark) nul
2 (checkmark) (checkmark) alternative
3 (checkmark) (checkmark) alternative
4 (checkmark) alternative
5 (checkmark) (checkmark) alternative
6 (checkmark) alternative
7 (checkmark) alternative
8 alternative

By rejecting the null hypothesis, we’ve decided that we ne pas believe that #1 is the true state of the world. The next question to ask is, which of the other seven possibilities faire we think is right? When faced with this situation, its usually helps to look at the data. For instance, if we look at the plots in Figure 14.1, it’s tempting to conclude that Joyzepam is better than the placebo and better than Anxifree, but there’s no real difference between Anxifree and the placebo. However, if we want to get a clearer answer about this, it might help to run some tests.

14.5.1 Running “pairwise” (t) -tests

How might we go about solving our problem? Given that we’ve got three separate pairs of means (placebo versus Anxifree, placebo versus Joyzepam, and Anxifree versus Joyzepam) to compare, what we could do is run three separate (t) -tests and see what happens. There’s a couple of ways that we could do this. One method would be to construct new variables corresponding the groups you want to compare (e.g., anxifree , placebo and joyzepam ), and then run a (t) -test on these new variables:

or, you could use the subset argument in the t.test() function to select only those observations corresponding to one of the two groups we’re interested in:

See Chapter 7 if you’ve forgotten how the %in% operator works. Regardless of which version we do, R will print out the results of the (t) -test, though I haven’t included that output here. If we go on to do this for all possible pairs of variables, we can look to see which (if any) pairs of groups are significantly different to each other. This “lots of (t) -tests idea” isn’t a bad strategy, though as we’ll see later on there are some problems with it. However, for the moment our bigger problem is that it’s a la douleur to have to type in such a long command over and over again: for instance, if your experiment has 10 groups, then you have to run 45 (t) -tests. That’s way too much typing.

To help keep the typing to a minimum, R provides a function called pairwise.t.test() that automatically runs all of the (t) -tests for you. There are three arguments that you need to specify, the outcome variable x , the group variable g , and the p.adjust.method argument, which “adjusts” the (p) -value in one way or another. I’ll explain (p) -value adjustment in a moment, but for now we can just set p.adjust.method = "none" since we’re not doing any adjustments. For our example, here’s what we do:

One thing that bugs me slightly about the pairwise.t.test() function is that you can’t just give it an aov object, and have it produce this output. After all, I went to all that trouble earlier of getting R to create the my.anova variable and – as we saw in Section 14.3.2 – R has actually stored enough information inside it that I should just be able to get it to run all the pairwise tests using my.anova as an input. To that end, I’ve included a posthocPairwiseT() function in the lsr package that lets you do this. The idea behind this function is that you can just input the aov object itself, 209 and then get the pairwise tests as an output. As of the current writing, posthocPairwiseT() is actually just a simple way of calling pairwise.t.test() function, but you should be aware that I intend to make some changes to it later on. Here’s an example:

In later versions, I plan to add more functionality (e.g., adjusted confidence intervals), but for now I think it’s at least kind of useful. To see why, let’s suppose you’ve run your ANOVA and stored the results in my.anova , and you’re happy using the Holm correction (the default method in pairwise.t.test() , which I’ll explain this in a moment). In that case, all you have to do is type this:

and R will output the test results. Much more convenient, I think.

14.5.2 Corrections for multiple testing

In the previous section I hinted that there’s a problem with just running lots and lots of (t) -tests. The concern is that when running these analyses, what we’re doing is going on a “fishing expedition”: we’re running lots and lots of tests without much theoretical guidance, in the hope that some of them come up significant. This kind of theory-free search for group differences is referred to as post hoc analysis (“post hoc” being Latin for “after this”). 210

It’s okay to run post hoc analyses, but a lot of care is required. For instance, the analysis that I ran in the previous section is actually pretty dangerous: each individuel (t) -test is designed to have a 5% Type I error rate (i.e., (alpha = .05) ), and I ran three of these tests. Imagine what would have happened if my ANOVA involved 10 different groups, and I had decided to run 45 “post hoc” (t) -tests to try to find out which ones were significantly different from each other, you’d expect 2 or 3 of them to come up significant by chance alone. As we saw in Chapter 11, the central organising principle behind null hypothesis testing is that we seek to control our Type I error rate, but now that I’m running lots of (t) -tests at once, in order to determine the source of my ANOVA results, my actual Type I error rate across this whole famille of tests has gotten completely out of control.

The usual solution to this problem is to introduce an adjustment to the (p) -value, which aims to control the total error rate across the family of tests (see Shaffer 1995) . An adjustment of this form, which is usually (but not always) applied because one is doing post hoc analysis, is often referred to as a correction for multiple comparisons, though it is sometimes referred to as “simultaneous inference”. In any case, there are quite a few different ways of doing this adjustment. I’ll discuss a few of them in this section and in Section 16.8, but you should be aware that there are many other methods out there (see, e.g., Hsu 1996) .

14.5.3 Bonferroni corrections

The simplest of these adjustments is called the Bonferroni correction (Dunn 1961) , and it’s very very simple indeed. Suppose that my post hoc analysis consists of (m) separate tests, and I want to ensure that the total probability of making tout Type I errors at all is at most (alpha) . 211 If so, then the Bonferroni correction just says “multiply all your raw (p) -values by (m) ”. If we let (p) denote the original (p) -value, and let (p^prime_j) be the corrected value, then the Bonferroni correction tells that: [ p^prime = m imes p ] And therefore, if you’re using the Bonferroni correction, you would reject the null hypothesis if (p^prime < alpha) . The logic behind this correction is very straightforward. We’re doing (m) different tests so if we arrange it so that each test has a Type I error rate of at most (alpha / m) , then the total Type I error rate across these tests cannot be larger than (alpha) . That’s pretty simple, so much so that in the original paper, the author writes:

The method given here is so simple and so general that I am sure it must have been used before this. I do not find it, however, so can only conclude that perhaps its very simplicity has kept statisticians from realizing that it is a very good method in some situations (pp 52-53 Dunn 1961)

To use the Bonferroni correction in R, you can use the pairwise.t.test() function, 212 making sure that you set p.adjust.method = "bonferroni" . Alternatively, since the whole reason why we’re doing these pairwise tests in the first place is because we have an ANOVA that we’re trying to understand, it’s probably more convenient to use the posthocPairwiseT() function in the lsr package, since we can use my.anova as the input:

If we compare these three (p) -values to those that we saw in the previous section when we made no adjustment at all, it is clear that the only thing that R has done is multiply them by 3.

14.5.4 Holm corrections

Although the Bonferroni correction is the simplest adjustment out there, it’s not usually the best one to use. One method that is often used instead is the Holm correction (Holm 1979) . The idea behind the Holm correction is to pretend that you’re doing the tests sequentially starting with the smallest (raw) (p) -value and moving onto the largest one. For the (j) -th largest of the (p) -values, the adjustment is Soit [ p^prime_j = j imes p_j ] (i.e., the biggest (p) -value remains unchanged, the second biggest (p) -value is doubled, the third biggest (p) -value is tripled, and so on), ou [ p^prime_j = p^prime_ ] whichever one is larger. This might sound a little confusing, so let’s go through it a little more slowly. Here’s what the Holm correction does. First, you sort all of your (p) -values in order, from smallest to largest. For the smallest (p) -value all you do is multiply it by (m) , and you’re done. However, for all the other ones it’s a two-stage process. For instance, when you move to the second smallest (p) value, you first multiply it by (m-1) . If this produces a number that is bigger than the adjusted (p) -value that you got last time, then you keep it. But if it’s smaller than the last one, then you copy the last (p) -value. To illustrate how this works, consider the table below, which shows the calculations of a Holm correction for a collection of five (p) -values:

raw (p) rank (j) (p imes j) Holm (p)
.001 5 .005 .005
.005 4 .020 .020
.019 3 .057 .057
.022 2 .044 .057
.103 1 .103 .103

Hopefully that makes things clear.

Although it’s a little harder to calculate, the Holm correction has some very nice properties: it’s more powerful than Bonferroni (i.e., it has a lower Type II error rate), but – counterintuitive as it might seem – it has the même Type I error rate. As a consequence, in practice there’s never any reason to use the simpler Bonferroni correction, since it is always outperformed by the slightly more elaborate Holm correction. Because of this, the Holm correction is the default one used by pairwise.t.test() and posthocPairwiseT() . To run the Holm correction in R, you could specify p.adjust.method = "Holm" if you wanted to, but since it’s the default you can just to do this:

As you can see, the biggest (p) -value (corresponding to the comparison between Anxifree and the placebo) is unaltered: at a value of (.15) , it is exactly the same as the value we got originally when we applied no correction at all. In contrast, the smallest (p) -value (Joyzepam versus placebo) has been multiplied by three.

14.5.5 Writing up the post hoc test

Finally, having run the post hoc analysis to determine which groups are significantly different to one another, you might write up the result like this:

Post hoc tests (using the Holm correction to adjust (p) ) indicated that Joyzepam produced a significantly larger mood change than both Anxifree ( (p = .001) ) and the placebo ( (p = 9.1 imes 10^<-5>) ). We found no evidence that Anxifree performed better than the placebo ( (p = .15) ).

Or, if you don’t like the idea of reporting exact (p) -values, then you’d change those numbers to (p<.01) , (p<.001) and (p > .05) respectively. Either way, the key thing is that you indicate that you used Holm’s correction to adjust the (p) -values. And of course, I’m assuming that elsewhere in the write up you’ve included the relevant descriptive statistics (i.e., the group means and standard deviations), since these (p) -values on their own aren’t terribly informative.


Which is a better statistical option to compare differences across groups? - Psychologie

Q&A: Choosing a test to compare two groups

If I have data from three or more groups, is it OK to compare two groups at a time with a t test?

No. You should analyze all the groups at once with one-way ANOVA, and then follow up with multiple comparison tests. The only exception is when some of the 'groups' are really controls to prove the assay worked, and are not really part of the experimental question you are asking.

I know the mean, SD (or SEM) and sample size for each group. Which tests can I run?

You can enter data as mean, SD (or SEM) and N, and Prism can compute an unpaired t test or the Welch t test. Prism cannot perform an paired test, as that requires analyzing each pair. It also cannot do any nonparametric tests, as these require ranking the data.

I only know the two group means, and don't have the raw data and don't know their SD or SEM. Can I run a t test?

No. The t test compares the difference between two means and compares that difference to the standard error of the difference, computed from the standard deviations and sample size. If you only know the two means, there is no possible way to do any statistical comparison.

Can I use a normality test to make the choice of when to use a nonparametric test?

It is not a good idea to base your decision solely on the normality test. Choosing when to use a nonparametric test is not a straightforward decision, and you can't really automate the process.

I want to compare two groups. The outcome has two possibilities, and I know the fraction of each possible outcome in each group. How can I compare the groups?

Not with a t test. Enter your data into a contingency table and analyze with Fisher's exact test.

I want to compare the mean survival time in two groups. But some subjects are still alive so I don't know how long they will live. How can I do a t test on survival times?

You should use special methods designed to compare survival curves. Don't run a t test on survival times.

I don't know whether it is ok to assume equal variances. Can't a statistical test tell me whether or not to use the Welch t test?

While that sounds like a good idea, in fact it is not. The decision really should be made as part of the experimental design and not based on inspecting the data.

I don't know whether it is better to use the regular paired t test or the ratio test. Is it ok to run both, and report the results with the smallest P value?

No. The results of any statistical test can only be interpreted at face value when the choice of analysis method was part of the experimental design.

Should I use the Welch test routinely because it is always possible the two populations have different standard deviations.

Ruxton (1) and Delacre (2) make a strong case that this is a good idea.


What Are the Best Historically Black Colleges and Universities for Psychology Students in 2021? Here is a Snapshot of Our Top 10:

RankSchoolEmplacement
1Howard UniversityWashington, DC
2Florida Agricultural and Mechanical UniversityTallahassee, FL
3Spelman CollegeAtlanta, GA
4Bowie State UniversityBowie, MD
5Winston-Salem State UniversityWinston-Salem, NC
6Delaware State UniversityDover, DE
7Florida Memorial UniversityMiami, FL
8Southern University and A & M CollegeBaton Rouge, LA
9North Carolina A & T State UniversityGreensboro, NC
10North Carolina Central UniversityDurham, NC


Voir la vidéo: KKV-päivä:Talouden ja vallan rakenteet rutisevat - Pitääkö kilpailu- ja kuluttajapolitiikan muuttua? (Janvier 2022).