Informations

Comment interpréter les dépendances bidirectionnelles dans les plans factoriels ?

Comment interpréter les dépendances bidirectionnelles dans les plans factoriels ?

Scénario: Étant donné qu'il existe des résultats de deux expériences factorielles qui montrent une dépendance bidirectionnelle entre deux variables A et B.

Des détails: Dans la première expérience, A est la variable indépendante avec deux conditions : haute et basse A. B est induit de manière identique dans les deux conditions et mesuré en tant que variable dépendante. Dans la condition haute A, haute B est mesurée. Dans l'état bas A, bas B est mesuré. La deuxième expérience est analogue à la première, sauf que A et B sont inversés : dans la condition haute B, haute A est mesurée, et dans la condition basse B, basse A est mesurée.

Question: Que peut-on raisonner ou supposer sur la relation entre les deux variables A et B, et pourquoi ?

Des références à des exemples de documents seraient excellentes.


Dans le pays de la pleine généralité de l'arbitraire A et B, la section "détails" de la question donne le total général de toutes les conclusions qui peuvent être tirées ici. Ce que vous avez, c'est que lorsque A a été fixé comme étant élevé, B a été observé comme étant élevé, lorsque B a été fixé comme étant élevé, A a été observé comme étant élevé, etc., et c'est le total des choses que vous savez sur A et B. La terre de pleine généralité est super dure. Vous pouvez observer un nombre arbitrairement grand de points tombant sur une ligne exacte et un terrain de généralité insistera sur le fait que la vraie fonction pourrait rebondir comme des montagnes russes qui passent par les points que vous avez observés. La généralité complète n'a pas à avoir de sens. En général, fixer A à 0,1 unité de plus que ce que vous avez fait dans cette expérience pourrait faire chuter la valeur de B ou se transformer en un dîner de dinde.

La réalité a tendance à avoir beaucoup plus de sens que le terrain de la généralité complète, sauf lorsque des cerveaux ou des particules quantiques sont impliqués. Certaines choses que vous savez peut-être en réalité :

Les unités A et B sont mesurées en.

Si A et B varient progressivement ou peuvent contenir des discontinuités.

Que A ou B aient des capuchons de plafond/sol, et peut-être où ils se trouvent.

Si l'intervention de « réparation » est susceptible d'être monotone dans ses effets sur A, B ou les deux (c'est un gros problème, et il est fort probable que vous le sachiez).

La "profondeur causale" dont vous vous souciez vraisemblablement (A et B sont tous deux causés par X peut être intéressant, que A et B sont tous deux des produits du big bang probablement pas, la distance que vous voulez parcourir dans ce train est spécifique au domaine)

Qu'une théorie particulière de A et B est incompatible avec le fait que A et B soient élevés simultanément.

Toutes ces choses vous donneraient une certaine motivation pour aller au-delà de la simple déclaration des résultats exacts que vous avez observés, ce qui est tout ce que la terre de généralité vous permettra de faire. La généralité complète ne vous permettra même pas de prétendre que vous obtiendriez les mêmes résultats avec exactement la même expérience réalisée demain. La terre à pleine généralité a l'attitude normalement associée aux blaireaux à miel.

Il y a certainement une version de votre argument qui a du sens. Si vous avez cinq personnes aveugles qui se disputent pour savoir si un éléphant est un serpent, un mur ou un bout de corde, tirer avec un pistolet de démarrage pour que l'éléphant s'enfuie est une excellente expérience. Selon la théorie selon laquelle un éléphant est constitué de cinq choses différentes, il est extrêmement improbable qu'elles courent toutes exactement dans la même direction. Observer qu'ils vont tous dans la même direction à la même vitesse devrait amener les scientifiques aveugles à proposer un tas de théories sur les éléphants fortement connectées. Seul cet argument est inductif et non déductif, il vous oblige donc à fournir un espace d'hypothèse. Il est toujours possible qu'il y ait eu cinq animaux qui ont tous couru dans la même direction, pour faire valoir l'argument inductif, il est essentiel de deviner la probabilité de ce scénario. Si vous faites l'expérience dans une vallée étroite, il se peut qu'il n'y ait en fait qu'une seule direction dans laquelle il est possible de courir. Si vous faites l'expérience dans la plaine ouverte, il y a 360 degrés de liberté et les coïncidences sont beaucoup plus convaincantes d'un point de vue inductif. Dans le monde réel, vous avez presque toujours des informations sur le paysage, ce qui rend les résultats du type décrit ici forts. Mais vous avez supprimé toutes ces informations pour poser la question ! Réduire les variables à A et B vous amène dans un terrain de généralité, où rien n'est certain. Peut-être que vous vous trouvez dans une vallée étroite. Vous êtes peut-être sous l'eau. Qui sait?

Il est possible d'opérer dans un terrain de pleine généralité malgré ses tendances dadistes, parfois vous pouvez vous en tirer avec des hypothèses étonnamment faibles. Essayez ceux-ci :

Dunn, J.C. et James, R.N. (2003). Analyse des différences signées : Théorie et application. Journal de psychologie mathématique, 47(4), 389-416.

Perle, J (2014). Raisonnement probabiliste dans les systèmes intelligents : réseaux d'inférence plausible.


Contenu

Définition Modifier

Le modèle tente d'expliquer un ensemble de p observations dans chacun des m individus avec un ensemble de k facteurs communs (F) où il y a moins de facteurs par unité que d'observations par unité (k<p). Chaque individu a k de leurs propres facteurs communs, et ceux-ci sont liés aux observations via le facteur matrice de chargement ( L ∈ R p × k ^

> ), pour une seule observation, selon

Aussi nous imposerons les hypothèses suivantes à F :

  1. F et ϵ sont indépendants.
  2. E ( F ) = 0 (F)=0> où E est l'espérance
  3. C o v ( F ) = I (F)=I> où Cov est la matrice de covariance, pour s'assurer que les facteurs ne sont pas corrélés, et je est la matrice identité.

et donc, des conditions imposées à F dessus,

Exemple Modifier

Supposons qu'un psychologue fasse l'hypothèse qu'il existe deux types d'intelligence, « l'intelligence verbale » et « l'intelligence mathématique », dont aucune n'est directement observée. La preuve de l'hypothèse est recherchée dans les résultats des examens de chacun des 10 domaines académiques différents de 1000 étudiants. Si chaque élève est choisi au hasard parmi une grande population, alors les 10 scores de chaque élève sont des variables aléatoires. L'hypothèse du psychologue peut dire que pour chacun des 10 domaines académiques, le score moyenné sur le groupe de tous les étudiants qui partagent une paire commune de valeurs pour les "intelligences" verbales et mathématiques est un temps constant de leur niveau d'intelligence verbale plus un autre temps constant leur niveau d'intelligence mathématique, c'est-à-dire qu'il s'agit d'une combinaison linéaire de ces deux « facteurs ». Les nombres pour un sujet particulier, par lesquels les deux types d'intelligence sont multipliés pour obtenir le score attendu, sont posés par l'hypothèse comme étant les mêmes pour toutes les paires de niveaux d'intelligence, et sont appelés "facteur de chargement" pour ce sujet. [ éclaircissements nécessaires ] Par exemple, l'hypothèse peut tenir que l'aptitude moyenne prédite de l'étudiant dans le domaine de l'astronomie est

Les nombres 10 et 6 sont les saturations factorielles associées à l'astronomie. D'autres matières académiques peuvent avoir des saturations factorielles différentes.

Deux étudiants supposés avoir des degrés identiques d'intelligence verbale et mathématique peuvent avoir des aptitudes mesurées différentes en astronomie parce que les aptitudes individuelles diffèrent des aptitudes moyennes (prédites ci-dessus) et à cause de l'erreur de mesure elle-même. De telles différences constituent ce que l'on appelle collectivement « l'erreur » - un terme statistique qui signifie la quantité par laquelle un individu, tel que mesuré, diffère de ce qui est moyen ou prédit par ses niveaux d'intelligence (voir erreurs et résidus dans les statistiques ).

Les données observables qui entrent dans l'analyse factorielle seraient 10 scores de chacun des 1000 élèves, un total de 10 000 nombres. Les saturations factorielles et les niveaux des deux types d'intelligence de chaque élève doivent être déduits des données.

Modèle mathématique du même exemple Modifier

et la variance de l'échantillon est donnée par :

Le modèle d'analyse factorielle pour cet échantillon particulier est alors :

Notez que, puisque toute rotation d'une solution est également une solution, cela rend l'interprétation des facteurs difficile. Voir les inconvénients ci-dessous. Dans cet exemple particulier, si nous ne savons pas à l'avance que les deux types d'intelligence ne sont pas corrélés, alors nous ne pouvons pas interpréter les deux facteurs comme les deux types différents d'intelligence. Même s'ils ne sont pas corrélés, on ne peut pas dire quel facteur correspond à l'intelligence verbale et lequel correspond à l'intelligence mathématique sans un argument extérieur.

Cela équivaut à minimiser les composantes hors diagonale de la covariance d'erreur qui, dans les équations du modèle, ont des valeurs attendues de zéro. Ceci doit être mis en contraste avec l'analyse en composantes principales qui cherche à minimiser l'erreur quadratique moyenne de tous les résidus. [2] Avant l'avènement des ordinateurs à grande vitesse, des efforts considérables ont été consacrés à la recherche de solutions approximatives au problème, en particulier en estimant les communautés par d'autres moyens, ce qui simplifie considérablement le problème en produisant une matrice de corrélation réduite connue. Cela a ensuite été utilisé pour estimer les facteurs et les charges. Avec l'avènement des ordinateurs à grande vitesse, le problème de minimisation peut être résolu de manière itérative avec une vitesse adéquate, et les communautés sont calculées dans le processus, plutôt que d'être nécessaires à l'avance. L'algorithme MinRes est particulièrement adapté à ce problème, mais n'est pas le seul moyen itératif de trouver une solution.

Si les facteurs de solution peuvent être corrélés (comme dans la rotation « oblimin », par exemple), alors le modèle mathématique correspondant utilise des coordonnées asymétriques plutôt que des coordonnées orthogonales.

Interprétation géométrique Modifier

Le but de l'analyse factorielle est de choisir l'hyperplan d'ajustement de telle sorte que la matrice de corrélation réduite reproduise le plus fidèlement possible la matrice de corrélation, à l'exception des éléments diagonaux de la matrice de corrélation dont on sait qu'ils ont une valeur unitaire. En d'autres termes, le but est de reproduire le plus fidèlement possible les corrélations croisées dans les données. Plus précisément, pour l'hyperplan d'ajustement, l'erreur quadratique moyenne dans les composants hors diagonale

doit être minimisé, et ceci est accompli en le minimisant par rapport à un ensemble de vecteurs de facteurs orthonormés. On peut voir que

Le terme de droite est juste la covariance des erreurs. Dans le modèle, la covariance d'erreur est indiquée comme étant une matrice diagonale et donc le problème de minimisation ci-dessus donnera en fait un « meilleur ajustement » au modèle : il donnera un échantillon d'estimation de la covariance d'erreur qui a ses composantes hors diagonale minimisé au sens quadratique moyen. On voit que depuis le z ^ a >_> sont des projections orthogonales des vecteurs de données, leur longueur sera inférieure ou égale à la longueur du vecteur de données projeté, qui est l'unité. Le carré de ces longueurs ne sont que les éléments diagonaux de la matrice de corrélation réduite. Ces éléments diagonaux de la matrice de corrélation réduite sont appelés « communautés » :

De grandes valeurs des communités indiqueront que l'hyperplan d'ajustement reproduit assez fidèlement la matrice de corrélation. Les valeurs moyennes des facteurs doivent également être contraintes à être nulles, d'où il résulte que les valeurs moyennes des erreurs seront également nulles.

Types d'analyse factorielle Modifier

Analyse factorielle exploratoire Modifier

L'analyse factorielle exploratoire (EFA) est utilisée pour identifier les interrelations complexes entre les éléments et les éléments de groupe qui font partie de concepts unifiés. [3] Le chercheur ne fait aucune a priori hypothèses sur les relations entre les facteurs. [3]

Analyse factorielle confirmatoire Modifier

L'analyse factorielle confirmatoire (AFC) est une approche plus complexe qui teste l'hypothèse selon laquelle les éléments sont associés à des facteurs spécifiques. [3] CFA utilise la modélisation par équation structurelle pour tester un modèle de mesure dans lequel le chargement sur les facteurs permet d'évaluer les relations entre les variables observées et les variables non observées. [3] Les approches de modélisation par équation structurelle peuvent s'adapter aux erreurs de mesure et sont moins restrictives que l'estimation par les moindres carrés. [3] Les modèles hypothétiques sont testés par rapport aux données réelles, et l'analyse démontrerait les charges des variables observées sur les variables latentes (facteurs), ainsi que la corrélation entre les variables latentes. [3]

Types d'extraction de facteurs Modifier

L'analyse en composantes principales (ACP) est une méthode largement utilisée pour l'extraction de facteurs, qui est la première phase de l'EPT. [3] Les pondérations factorielles sont calculées pour extraire la variance maximale possible, la factorisation successive se poursuivant jusqu'à ce qu'il ne reste plus de variance significative. [3] Le modèle factoriel doit ensuite subir une rotation pour l'analyse. [3]

L'analyse factorielle canonique, également appelée factorisation canonique de Rao, est une méthode différente de calcul du même modèle que l'ACP, qui utilise la méthode de l'axe principal. L'analyse factorielle canonique recherche les facteurs qui ont la corrélation canonique la plus élevée avec les variables observées. L'analyse factorielle canonique n'est pas affectée par le redimensionnement arbitraire des données.

L'analyse factorielle commune, également appelée analyse factorielle principale (PFA) ou factorisation de l'axe principal (PAF), recherche le moins de facteurs pouvant expliquer la variance commune (corrélation) d'un ensemble de variables.

La factorisation d'images est basée sur la matrice de corrélation des variables prédites plutôt que sur les variables réelles, où chaque variable est prédite à partir des autres à l'aide d'une régression multiple.

La factorisation alpha est basée sur la maximisation de la fiabilité des facteurs, en supposant que les variables sont échantillonnées au hasard à partir d'un univers de variables. Toutes les autres méthodes supposent que les cas sont échantillonnés et les variables fixées.

Le modèle de régression factorielle est un modèle combinatoire de modèle factoriel et de modèle de régression ou alternativement, il peut être considéré comme le modèle factoriel hybride, [4] dont les facteurs sont partiellement connus.

Terminologie Modifier

Charges factorielles : la communauté est le carré de la charge externe normalisée d'un élément. De manière analogue au r au carré de Pearson, la charge factorielle au carré est le pourcentage de la variance de cette variable indicatrice expliquée par le facteur. Pour obtenir le pourcentage de variance dans toutes les variables prises en compte par chaque facteur, ajoutez la somme des pondérations factorielles au carré pour ce facteur (colonne) et divisez par le nombre de variables. (Notez que le nombre de variables est égal à la somme de leurs variances car la variance d'une variable standardisée est de 1.) Cela revient à diviser la valeur propre du facteur par le nombre de variables.

Interprétation des pondérations factorielles : En règle générale dans l'analyse factorielle confirmatoire, les pondérations devraient être de 0,7 ou plus pour confirmer que les variables indépendantes identifiées a priori sont représentées par un facteur particulier, au motif que le niveau 0,7 correspond à environ la moitié de la la variance de l'indicateur étant expliquée par le facteur. Cependant, la norme .7 est élevée et les données réelles peuvent très bien ne pas répondre à ce critère, c'est pourquoi certains chercheurs, notamment à des fins exploratoires, utiliseront un niveau inférieur tel que .4 pour le facteur central et .25 pour le facteur central. autres facteurs. En tout état de cause, les saturations factorielles doivent être interprétées à la lumière de la théorie, et non par des seuils arbitraires.

En rotation oblique, on peut examiner à la fois une matrice de modèle et une matrice de structure. La matrice de structure est simplement la matrice de chargement de facteur comme dans la rotation orthogonale, représentant la variance d'une variable mesurée expliquée par un facteur à la fois sur la base des contributions uniques et communes. La matrice de modèle, en revanche, contient des coefficients qui ne représentent que des contributions uniques. En règle générale, plus il y a de facteurs, plus les coefficients de modèle sont faibles, car il y aura plus de contributions communes à la variance expliquée. Pour la rotation oblique, le chercheur examine à la fois les coefficients de structure et de motif lorsqu'il attribue une étiquette à un facteur. Les principes de la rotation oblique peuvent être dérivés à la fois de l'entropie croisée et de sa double entropie. [5]

Communauté : La somme des pondérations factorielles au carré pour tous les facteurs pour une variable donnée (ligne) est la variance de cette variable représentée par tous les facteurs. La communauté mesure le pourcentage de variance dans une variable donnée expliquée par tous les facteurs conjointement et peut être interprétée comme la fiabilité de l'indicateur dans le contexte des facteurs posés.

Solutions fallacieuses : Si la communauté dépasse 1,0, il y a une fausse solution, qui peut refléter un échantillon trop petit ou le choix d'extraire trop ou trop peu de facteurs.

Unicité d'une variable : La variabilité d'une variable moins sa communauté.

Valeurs propres/racines caractéristiques : les valeurs propres mesurent la quantité de variation dans l'échantillon total représentée par chaque facteur. Le rapport des valeurs propres est le rapport d'importance explicative des facteurs par rapport aux variables. Si un facteur a une valeur propre faible, alors il contribue peu à l'explication des variances dans les variables et peut être ignoré comme moins important que les facteurs avec des valeurs propres plus élevées.

Sommes d'extraction des chargements au carré : les valeurs propres initiales et les valeurs propres après extraction (répertoriées par SPSS comme « Sommes d'extraction des chargements au carré ») sont les mêmes pour l'extraction PCA, mais pour les autres méthodes d'extraction, les valeurs propres après extraction seront inférieures à leurs homologues initiales. SPSS imprime également les "Sommes de rotation des chargements au carré" et même pour PCA, ces valeurs propres seront différentes des valeurs propres initiales et d'extraction, bien que leur total soit le même.

Scores factoriels (également appelés scores composants dans l'ACP) : sont les scores de chaque cas (ligne) sur chaque facteur (colonne). Pour calculer le score factoriel pour un cas donné pour un facteur donné, on prend le score standardisé du cas sur chaque variable, multiplie par les chargements correspondants de la variable pour le facteur donné, et additionne ces produits. Le calcul des scores factoriels permet de rechercher les valeurs aberrantes des facteurs. De plus, les scores factoriels peuvent être utilisés comme variables dans la modélisation ultérieure. (Expliqué à partir de l'ACP et non du point de vue de l'analyse factorielle).

Critères pour déterminer le nombre de facteurs Modifier

Les chercheurs souhaitent éviter les critères subjectifs ou arbitraires de rétention des facteurs tels que « cela me paraissait logique ». Un certain nombre de méthodes objectives ont été développées pour résoudre ce problème, permettant aux utilisateurs de déterminer une gamme appropriée de solutions à étudier. [6] Les méthodes peuvent ne pas convenir. Par exemple, l'analyse parallèle peut suggérer 5 facteurs tandis que le MAP de Velicer en suggère 6, de sorte que le chercheur peut demander des solutions à 5 et 6 facteurs et discuter de chacun en fonction de leur relation avec les données externes et la théorie.

Critères modernes Modifier

Analyse parallèle de Horn (AP) : [7] Une méthode de simulation basée sur Monte-Carlo qui compare les valeurs propres observées avec celles obtenues à partir de variables normales non corrélées.Un facteur ou une composante est retenu si la valeur propre associée est supérieure au 95e centile de la distribution des valeurs propres dérivées des données aléatoires. PA fait partie des règles les plus couramment recommandées pour déterminer le nombre de composants à conserver, [6] [8] mais de nombreux programmes n'incluent pas cette option (une exception notable étant R). [9] Cependant, Formann a fourni des preuves à la fois théoriques et empiriques que son application pourrait ne pas être appropriée dans de nombreux cas, car ses performances sont considérablement influencées par la taille de l'échantillon, la discrimination des éléments et le type de coefficient de corrélation. [dix]

Le test MAP de Velicer (1976) [11] tel que décrit par Courtney (2013) [12] « implique une analyse complète en composantes principales suivie de l'examen d'une série de matrices de corrélations partielles » (p. 397 (notez cependant que cette citation ne ne se produisent pas dans Velicer (1976) et le numéro de page cité est en dehors des pages de la citation. La corrélation au carré pour l'étape « 0 » (voir la figure 4) est la corrélation moyenne hors diagonale au carré pour la matrice de corrélation non partielle. 1, la première composante principale et ses éléments associés sont supprimés. Par la suite, la corrélation hors diagonale quadratique moyenne pour la matrice de corrélation suivante est ensuite calculée pour l'étape 1. À l'étape 2, les deux premières composantes principales sont supprimées et le résultat la corrélation hors diagonale moyenne quadratique est à nouveau calculée. Les calculs sont effectués pour k moins un pas (k représentant le nombre total de variables dans la matrice). Ensuite, toutes les corrélations quadratiques moyennes pour chaque s tep sont alignés et le nombre de pas dans les analyses qui ont abouti à la corrélation partielle quadratique moyenne la plus faible détermine le nombre de composants ou de facteurs à retenir. [11] Par cette méthode, les composantes sont maintenues tant que la variance dans la matrice de corrélation représente la variance systématique, par opposition à la variance résiduelle ou d'erreur. Bien que méthodologiquement similaire à l'analyse en composantes principales, la technique MAP s'est avérée assez efficace pour déterminer le nombre de facteurs à retenir dans plusieurs études de simulation. [6] [13] [14] [15] Cette procédure est disponible via l'interface utilisateur de SPSS, [12] ainsi que le psy package pour le langage de programmation R. [16] [17]

Méthodes plus anciennes Modifier

Critère de Kaiser : La règle de Kaiser consiste à supprimer tous les composants dont les valeurs propres sont inférieures à 1,0 – la valeur propre étant égale à l'information prise en compte par un élément unique moyen. [18] Le critère de Kaiser est le critère par défaut dans SPSS et la plupart des logiciels statistiques, mais n'est pas recommandé lorsqu'il est utilisé comme seul critère de coupure pour estimer le nombre de facteurs car il a tendance à sur-extraire les facteurs. [19] Une variante de cette méthode a été créée où un chercheur calcule des intervalles de confiance pour chaque valeur propre et ne retient que les facteurs dont l'intervalle de confiance entier est supérieur à 1,0. [13] [20]

Diagramme en éboulis : [21] Le test en éboulis de Cattell trace les composants sur l'axe X et les valeurs propres correspondantes sur l'axe Y. Au fur et à mesure que l'on se déplace vers la droite, vers les composants ultérieurs, les valeurs propres chutent. Lorsque la chute cesse et que la courbe forme un coude vers une baisse moins abrupte, le test d'éboulis de Cattell indique de supprimer tous les autres composants après celui commençant au coude. Cette règle est parfois critiquée pour se prêter à un "truquage" contrôlé par les chercheurs. C'est-à-dire que le choix du "coude" peut être subjectif car la courbe a plusieurs coudes ou est une courbe lisse, le chercheur peut être tenté de fixer le seuil au nombre de facteurs souhaités par son programme de recherche. [ citation requise ]

Critères expliqués par la variance : certains chercheurs utilisent simplement la règle consistant à conserver suffisamment de facteurs pour expliquer 90 % (parfois 80 %) de la variation. Lorsque l'objectif du chercheur met l'accent sur la parcimonie (expliquer la variance avec le moins de facteurs possible), le critère peut être aussi bas que 50 %.

Méthode bayésienne Modifier

Une approche bayésienne basée sur le processus de buffet indien renvoie une distribution de probabilité sur le nombre plausible de facteurs latents. [22]

Méthodes de rotation Modifier

La sortie non tournée maximise la variance représentée par le premier facteur et les facteurs suivants, et force les facteurs à être orthogonaux. Cette compression de données se fait au prix de la charge de la plupart des éléments sur les premiers facteurs, et généralement, du fait que de nombreux éléments se chargent considérablement sur plus d'un facteur. La rotation sert à rendre la sortie plus compréhensible, en recherchant ce que l'on appelle la « structure simple » : un modèle de chargements où chaque élément se charge fortement sur un seul des facteurs, et beaucoup plus faiblement sur les autres facteurs. Les rotations peuvent être orthogonales ou obliques (permettant aux facteurs de se corréler).

La rotation Varimax est une rotation orthogonale des axes factoriels pour maximiser la variance des chargements au carré d'un facteur (colonne) sur toutes les variables (lignes) d'une matrice factorielle, ce qui a pour effet de différencier les variables d'origine par facteur extrait. Chaque facteur aura tendance à avoir des poids importants ou faibles pour une variable particulière. Une solution varimax donne des résultats qui permettent d'identifier aussi facilement que possible chaque variable avec un seul facteur. C'est l'option de rotation la plus courante. Cependant, l'orthogonalité (c'est-à-dire l'indépendance) des facteurs est souvent une hypothèse irréaliste. Les rotations obliques incluent la rotation orthogonale, et pour cette raison, les rotations obliques sont une méthode préférée. Tenir compte de facteurs corrélés les uns aux autres est particulièrement applicable dans la recherche psychométrique, car les attitudes, les opinions et les capacités intellectuelles ont tendance à être corrélées, et puisqu'il serait irréaliste dans de nombreuses situations de supposer le contraire. [23]

La rotation quartimax est une alternative orthogonale qui minimise le nombre de facteurs nécessaires pour expliquer chaque variable. Ce type de rotation génère souvent un facteur général sur lequel la plupart des variables sont chargées à un degré élevé ou moyen. Une telle structure factorielle n'est généralement pas utile à l'objectif de la recherche.

La rotation Equimax est un compromis entre les critères varimax et quartimax.

La rotation oblimin directe est la méthode standard lorsque l'on souhaite une solution non orthogonale (oblique), c'est-à-dire une solution dans laquelle les facteurs peuvent être corrélés. Cela se traduira par des valeurs propres plus élevées mais une interprétabilité réduite des facteurs. Voir ci-dessous. [ éclaircissements nécessaires ]

La rotation Promax est une méthode alternative de rotation non orthogonale (oblique) qui est plus rapide en termes de calcul que la méthode directe oblimin et est donc parfois utilisée pour de très grands ensembles de données.

Analyse factorielle d'ordre supérieur Modifier

Analyse factorielle d'ordre supérieur est une méthode statistique consistant à répéter les étapes de l'analyse factorielle – rotation oblique – analyse factorielle des facteurs pivotés. Son mérite est de permettre au chercheur de voir la structure hiérarchique des phénomènes étudiés. Pour interpréter les résultats, on procède soit en post-multipliant la matrice de modèles de facteurs primaires par les matrices de modèles de facteurs d'ordre supérieur (Gorsuch, 1983) et peut-être en appliquant une rotation Varimax au résultat (Thompson, 1990) ou en utilisant une méthode de Schmid- Solution de Leiman (SLS, Schmid & Leiman, 1957, également connue sous le nom de transformation de Schmid-Leiman) qui attribue la variation des facteurs primaires aux facteurs de second ordre.

Historique Modifier

Charles Spearman a été le premier psychologue à discuter de l'analyse factorielle commune [24] et l'a fait dans son article de 1904. [25] Il a fourni peu de détails sur ses méthodes et s'est intéressé aux modèles à un seul facteur. [26] Il a découvert que les scores des écoliers sur une grande variété de sujets apparemment sans rapport étaient positivement corrélés, ce qui l'a amené à postuler qu'une seule capacité mentale générale, ou g, sous-tend et façonne les performances cognitives humaines.

Le développement initial de l'analyse factorielle commune avec des facteurs multiples a été donné par Louis Thurstone dans deux articles au début des années 1930, [27] [28] résumé dans son livre de 1935, Le vecteur de l'esprit. [29] Thurstone a introduit plusieurs concepts d'analyse factorielle importants, y compris la communauté, l'unicité et la rotation. [30] Il a plaidé pour une "structure simple" et a développé des méthodes de rotation qui pourraient être utilisées comme un moyen d'atteindre une telle structure. [24]

Dans la méthodologie Q, Stephenson, un étudiant de Spearman, distingue entre R l'analyse factorielle, orientée vers l'étude des différences interindividuelles, et Q analyse factorielle orientée vers les différences intra-individuelles subjectives. [31] [32]

Raymond Cattell était un ardent défenseur de l'analyse factorielle et de la psychométrie et a utilisé la théorie multifactorielle de Thurstone pour expliquer l'intelligence. Cattell a également développé le test de "scree" et les coefficients de similarité.

Applications en psychologie Modifier

L'analyse factorielle est utilisée pour identifier les « facteurs » qui expliquent une variété de résultats sur différents tests. Par exemple, des recherches sur le renseignement ont révélé que les personnes qui obtiennent un score élevé à un test d'aptitude verbale sont également bonnes à d'autres tests nécessitant des aptitudes verbales. Les chercheurs ont expliqué cela en utilisant l'analyse factorielle pour isoler un facteur, souvent appelé intelligence verbale, qui représente le degré auquel une personne est capable de résoudre des problèmes impliquant des compétences verbales.

L'analyse factorielle en psychologie est le plus souvent associée à la recherche sur le renseignement. Cependant, il a également été utilisé pour trouver des facteurs dans un large éventail de domaines tels que la personnalité, les attitudes, les croyances, etc. Il est lié à la psychométrie, car il peut évaluer la validité d'un instrument en déterminant si l'instrument mesure effectivement le postulat les facteurs.

L'analyse factorielle est une technique fréquemment utilisée dans la recherche interculturelle. Il sert à extraire les dimensions culturelles. Les modèles de dimensions culturelles les plus connus sont ceux élaborés par Geert Hofstede, Ronald Inglehart, Christian Welzel, Shalom Schwartz et Michael Minkov.

Avantages Modifier

  • Réduction du nombre de variables, en combinant deux ou plusieurs variables en un seul facteur. Par exemple, les performances à la course, au lancer de balle, au bâton, au saut et à l'haltérophilie pourraient être combinées en un seul facteur tel que la capacité athlétique générale. Habituellement, dans une matrice élément par personne, les facteurs sont sélectionnés en regroupant les éléments liés. Dans la technique d'analyse factorielle Q, la matrice est transposée et les facteurs sont créés en regroupant des personnes apparentées. Par exemple, les libéraux, les libertaires, les conservateurs et les socialistes pourraient former des groupes séparés.
  • Identification de groupes de variables interdépendantes, pour voir comment elles sont liées les unes aux autres. Par exemple, Carroll a utilisé l'analyse factorielle pour construire sa théorie des trois strates. Il a découvert qu'un facteur appelé "perception visuelle large" se rapporte à la qualité d'un individu dans les tâches visuelles. Il a également trouvé un facteur de « perception auditive large », lié à la capacité de tâche auditive. De plus, il a trouvé un facteur global, appelé "g" ou intelligence générale, qui se rapporte à la fois à la "perception visuelle large" et à la "perception auditive large". Cela signifie qu'une personne avec un « g » élevé est susceptible d'avoir à la fois une capacité de « perception visuelle » élevée et une capacité de « perception auditive » élevée, et que « g » explique donc en grande partie pourquoi quelqu'un est bon ou mauvais dans les deux cas. ces domaines.

Inconvénients Modifier

  • ". chaque orientation est également acceptable mathématiquement. Mais différentes théories factorielles se sont avérées différer autant en termes d'orientations d'axes factoriels pour une solution donnée qu'en termes d'autre chose, de sorte que l'ajustement du modèle ne s'est pas avéré utile pour distinguer entre théories." (Sternberg, 1977 [33] ). Cela signifie que toutes les rotations représentent des processus sous-jacents différents, mais toutes les rotations sont des résultats également valables de l'optimisation de l'analyse factorielle standard. Par conséquent, il est impossible de choisir la bonne rotation en utilisant uniquement l'analyse factorielle.
  • L'analyse factorielle ne peut être aussi bonne que les données le permettent. En psychologie, où les chercheurs doivent souvent s'appuyer sur des mesures moins valides et fiables telles que les auto-évaluations, cela peut être problématique.
  • L'interprétation de l'analyse factorielle repose sur l'utilisation d'une « heuristique », qui est une solution « pratique même si elle n'est pas absolument vraie ». [34] Plus d'une interprétation peut être faite des mêmes données factorisées de la même manière, et l'analyse factorielle ne peut pas identifier la causalité.

L'analyse factorielle est liée à l'analyse en composantes principales (ACP), mais les deux ne sont pas identiques. [35] Il y a eu une controverse importante dans le domaine sur les différences entre les deux techniques. L'ACP peut être considérée comme une version plus basique de l'analyse factorielle exploratoire (EFA) qui a été développée dans les premiers jours avant l'avènement des ordinateurs à grande vitesse. L'ACP et l'analyse factorielle visent toutes deux à réduire la dimensionnalité d'un ensemble de données, mais les approches adoptées pour ce faire sont différentes pour les deux techniques. L'analyse factorielle est clairement conçue avec l'objectif d'identifier certains facteurs non observables à partir des variables observées, alors que l'ACP ne répond pas directement à cet objectif au mieux, l'ACP fournit une approximation des facteurs requis. [36] Du point de vue de l'analyse exploratoire, les valeurs propres de l'ACP sont des chargements de composants gonflés, c'est-à-dire contaminés par la variance d'erreur. [37] [38] [39] [40] [41] [42]

Alors que l'EFA et l'ACP sont traités comme des techniques synonymes dans certains domaines de la statistique, cela a été critiqué. [43] [44] L'analyse factorielle « traite l'hypothèse d'une structure causale sous-jacente: [elle] suppose que la covariation des variables observées est due à la présence d'une ou plusieurs variables latentes (facteurs) qui exercent une influence causale sur ces variables observées". [45] En revanche, l'ACP ne suppose ni ne dépend d'une telle relation causale sous-jacente. Les chercheurs ont fait valoir que les distinctions entre les deux techniques peuvent signifier qu'il y a des avantages objectifs à préférer l'une à l'autre en fonction de l'objectif analytique. Si le modèle factoriel est mal formulé ou si les hypothèses ne sont pas remplies, alors l'analyse factorielle donnera des résultats erronés. L'analyse factorielle a été utilisée avec succès lorsqu'une compréhension adéquate du système permet de bonnes formulations initiales du modèle. L'ACP utilise une transformation mathématique des données d'origine sans hypothèse sur la forme de la matrice de covariance. L'objectif de l'ACP est de déterminer combinaisons linéaires des variables d'origine et en sélectionner quelques-unes qui peuvent être utilisées pour résumer l'ensemble de données sans perdre beaucoup en formation. [46]

Arguments opposant l'APC et l'EFA Modifier

Fabrice et al. (1999) [43] abordent un certain nombre de raisons invoquées pour suggérer que l'ACP n'est pas équivalente à l'analyse factorielle :

  1. Il est parfois suggéré que l'ACP est plus rapide en termes de calcul et nécessite moins de ressources que l'analyse factorielle. Fabrice et al. suggèrent que les ressources informatiques facilement disponibles ont rendu cette préoccupation pratique non pertinente.
  2. L'ACP et l'analyse factorielle peuvent produire des résultats similaires. Ce point est également abordé par Fabrigar et al. dans certains cas, où les communalités sont faibles (par exemple 0,4), les deux techniques produisent des résultats divergents. En effet, Fabrice et al. soutiennent que dans les cas où les données correspondent aux hypothèses du modèle à facteurs communs, les résultats de l'ACP sont des résultats inexacts.
  3. Dans certains cas, l'analyse factorielle conduit à des « cas Heywood ». Celles-ci englobent des situations dans lesquelles 100 % ou plus de la variance d'une variable mesurée est estimée être prise en compte par le modèle. Fabrice et al. suggèrent que ces cas sont en fait informatifs pour le chercheur, indiquant un modèle incorrectement spécifié ou une violation du modèle à facteurs communs. L'absence de cas Heywood dans l'approche PCA peut signifier que de tels problèmes passent inaperçus.
  4. Les chercheurs obtiennent des informations supplémentaires à partir d'une approche ACP, comme le score d'un individu sur un certain composant, ces informations ne sont pas fournies par l'analyse factorielle. Cependant, comme Fabrigar et al. soutiennent, l'objectif typique de l'analyse factorielle - c'est-à-dire déterminer les facteurs expliquant la structure des corrélations entre les variables mesurées - ne nécessite pas la connaissance des scores factoriels et donc cet avantage est annulé. Il est également possible de calculer des scores factoriels à partir d'une analyse factorielle.

Variance contre covariance Modifier

L'analyse factorielle prend en compte l'erreur aléatoire inhérente à la mesure, alors que l'ACP ne le fait pas. Ce point est illustré par Brown (2009), [47] qui a indiqué que, en ce qui concerne les matrices de corrélation impliquées dans les calculs :

"Dans l'ACP, les 1,00 sont mis en diagonale, ce qui signifie que toute la variance de la matrice doit être prise en compte (y compris la variance unique à chaque variable, la variance commune aux variables et la variance d'erreur). Ce serait donc, par définition , incluent toute la variance dans les variables. En revanche, dans EFA, les communalités sont mises en diagonale ce qui signifie que seule la variance partagée avec d'autres variables doit être prise en compte (hors variance propre à chaque variable et variance d'erreur). inclurait donc, par définition, uniquement la variance qui est commune entre les variables. »

Pour cette raison, Brown (2009) recommande d'utiliser l'analyse factorielle lorsque des idées théoriques sur les relations entre les variables existent, alors que l'ACP devrait être utilisée si l'objectif du chercheur est d'explorer des modèles dans leurs données.

Différences de procédure et de résultats Modifier

Les différences entre l'ACP et l'analyse factorielle (AF) sont illustrées plus en détail par Suhr (2009) : [44]

  • L'ACP donne des composantes principales qui représentent une quantité maximale de variance pour les variables observées FA représente commun variance dans les données.
  • L'ACP insère des uns sur les diagonales de la matrice de corrélation FA ajuste les diagonales de la matrice de corrélation avec les facteurs uniques.
  • L'ACP minimise la somme des carrés de la distance perpendiculaire à l'axe des composantes FA estime les facteurs qui influencent les réponses sur les variables observées.
  • Les scores des composants dans l'ACP représentent une combinaison linéaire des variables observées pondérées par des vecteurs propres, les variables observées dans FA sont des combinaisons linéaires des facteurs sous-jacents et uniques.
  • Dans l'ACP, les composants produits sont ininterprétables, c'est-à-dire qu'ils ne représentent pas les « constructions » sous-jacentes dans FA, les constructions sous-jacentes peuvent être étiquetées et facilement interprétées, étant donné une spécification de modèle précise.
  • Identifiez les attributs saillants que les consommateurs utilisent pour évaluer les produits de cette catégorie.
  • Utilisez des techniques de recherche marketing quantitatives (telles que des enquêtes) pour collecter des données auprès d'un échantillon de clients potentiels concernant leurs évaluations de tous les attributs du produit.
  • Saisissez les données dans un programme statistique et exécutez la procédure d'analyse factorielle. L'ordinateur produira un ensemble d'attributs (ou facteurs) sous-jacents.
  • Utilisez ces facteurs pour construire des cartes perceptives et d'autres dispositifs de positionnement de produits.

Collecte d'informations Modifier

L'étape de collecte des données est généralement effectuée par des professionnels de la recherche marketing.Les questions de l'enquête demandent au répondant d'évaluer un échantillon de produit ou des descriptions de concepts de produit sur une gamme d'attributs. De cinq à vingt attributs sont choisis. Ils peuvent inclure des éléments tels que la facilité d'utilisation, le poids, la précision, la durabilité, la couleur, le prix ou la taille. Les attributs choisis varieront en fonction du produit étudié. La même question est posée pour tous les produits de l'étude. Les données de plusieurs produits sont codées et saisies dans un programme statistique tel que R, SPSS, SAS, Stata, STATISTICA, JMP et SYSTAT.

Analyse Modifier

L'analyse isolera les facteurs sous-jacents qui expliquent les données à l'aide d'une matrice d'associations. [48] ​​L'analyse factorielle est une technique d'interdépendance. L'ensemble complet des relations interdépendantes est examiné. Il n'y a pas de spécification de variables dépendantes, de variables indépendantes ou de causalité. L'analyse factorielle suppose que toutes les données d'évaluation sur différents attributs peuvent être réduites à quelques dimensions importantes. Cette réduction est possible car certains attributs peuvent être liés les uns aux autres. La note attribuée à un attribut est en partie le résultat de l'influence d'autres attributs. L'algorithme statistique déconstruit la notation (appelée score brut) en ses différentes composantes et reconstruit les scores partiels en scores factoriels sous-jacents. Le degré de corrélation entre le score brut initial et le score factoriel final est appelé un facteur de chargement.

Avantages Modifier

  • Les attributs objectifs et subjectifs peuvent être utilisés à condition que les attributs subjectifs puissent être convertis en scores.
  • L'analyse factorielle peut identifier des dimensions ou des constructions latentes que l'analyse directe ne peut pas.
  • C'est facile et pas cher.

Inconvénients Modifier

  • L'utilité dépend de la capacité des chercheurs à collecter un ensemble suffisant d'attributs de produits. Si des attributs importants sont exclus ou négligés, la valeur de la procédure est réduite.
  • Si les ensembles de variables observées sont très similaires les uns aux autres et distincts des autres éléments, l'analyse factorielle leur attribuera un seul facteur. Cela peut masquer des facteurs qui représentent des relations plus intéressantes. [éclaircissements nécessaires]
  • Les facteurs de nommage peuvent nécessiter des connaissances théoriques, car des attributs apparemment dissemblables peuvent être fortement corrélés pour des raisons inconnues.

L'analyse factorielle a également été largement utilisée dans les sciences physiques telles que la géochimie, l'hydrochimie, [49] l'astrophysique et la cosmologie, ainsi que dans les sciences biologiques, telles que l'écologie, la biologie moléculaire, les neurosciences et la biochimie.

Dans la gestion de la qualité des eaux souterraines, il est important de relier la distribution spatiale de différents paramètres chimiques à différentes sources possibles, qui ont des signatures chimiques différentes. Par exemple, une mine de sulfures est susceptible d'être associée à des niveaux élevés d'acidité, de sulfates dissous et de métaux de transition. Ces signatures peuvent être identifiées comme des facteurs grâce à l'analyse factorielle en mode R, et l'emplacement des sources possibles peut être suggéré en définissant les scores des facteurs. [50]

En géochimie, différents facteurs peuvent correspondre à différentes associations minérales, et donc à une minéralisation. [51]

L'analyse factorielle peut être utilisée pour résumer les données des puces à ADN d'oligonucléotides haute densité au niveau de la sonde pour Affymetrix GeneChips. Dans ce cas, la variable latente correspond à la concentration d'ARN dans un échantillon. [52]

L'analyse factorielle a été mise en œuvre dans plusieurs programmes d'analyse statistique depuis les années 1980 :


Modèles à effets mixtes

Les modèles (à effets) mixtes sont un cadre statistique qui présente des facteurs fixes et aléatoires. Les modèles mixtes modélisent explicitement les structures de données hiérarchiques en regroupant les observations en groupes (Gelman & Hill 2007 Bolker et al. 2009). Le regroupement peut être considéré comme un cas d'imbrication, car les observations appartiennent uniquement à des groupes particuliers (Zuur et al. 2009 ), mais nous préférons les termes « données structurées », « données groupées » ou « données groupées » plutôt que « données emboîtées » dans ce cas, car cette terminologie évite la confusion avec les facteurs emboîtés, et elle permet surtout des effets aléatoires croisés ( Gelman & Hill 2007). Les structures de regroupement peuvent résulter de mesures répétées sur les mêmes individus, mais aussi de structures spatiales ou temporelles, de structures familiales, de groupes sociaux d'organismes, etc. Au niveau hiérarchique le plus bas, il y a des observations individuelles. Nous appelons ce niveau le niveau de données ou d'unité (Gelman & Hill 2007 Tableau 2). Les observations individuelles sont regroupées par facteurs aléatoires. Les facteurs aléatoires constituent donc le niveau de regroupement. Du fait de la modélisation de différents niveaux de regroupement, les modèles mixtes sont souvent appelés modèles hiérarchiques ou multiniveaux, notamment dans les sciences sociales (Goldstein 2011 Snijders & Bosker 2011 ).

Les facteurs aléatoires sont des prédicteurs où la distribution des coefficients individuels est explicitement modélisée par des hyperparamètres (voir tableau 2), dans le cas typique en estimant la variance entre les groupes (Gelman & Hill 2007 ). Contrairement aux facteurs fixes qui sont estimés uniquement sur la base d'observations faites pour un niveau de facteur particulier, les estimations de facteurs aléatoires sont influencées par la moyenne de la population en fait, leurs estimations sont tirées vers la moyenne de la population ('rétrécissement', voir le tableau 2 McCulloch & Neuhaus 2005 Snijders & Bosker 2011). Il existe une discussion approfondie sur les effets fixes et aléatoires (voir ci-dessous). Dans les applications pratiques, les variables sont modélisées comme des effets aléatoires si l'intérêt principal réside dans l'estimation des variances, tandis que des facteurs fixes sont utilisés pour estimer l'effet moyen d'un traitement (Merlo et al. 2005c). Les effets aléatoires sont souvent utilisés pour contrôler la structure corrélée dans les données, c'est-à-dire les dépendances entre les données ("pseudoréplication"). Les facteurs imbriqués sont généralement mieux traités comme des effets aléatoires, comme nous le décrivons ci-dessous.

Dans un modèle avec des facteurs fixes et aléatoires, il est important de considérer comment les niveaux du facteur fixe sont liés aux niveaux du facteur aléatoire. Leur relation peut être emboîtée ou croisée (Fig. 3). Nous appellerons un facteur fixe dont les niveaux varient entre les groupes (d'un effet aléatoire) un prédicteur au niveau du groupe (Gelman & Hill 2007 Kirk 2009 parfois appelé « facteur externe » voir Pinheiro & Bates 2000 ). Par exemple, un traitement peut avoir été appliqué à des individus sélectionnés au hasard, et plusieurs observations ont été effectuées par individu. Les individus (un effet aléatoire) sont imbriqués dans les traitements, et les observations sont imbriquées dans les individus (et les traitements). Dans cet exemple, le « traitement » est un prédicteur au niveau du groupe (facteur externe à l'individu). Un facteur fixe dont les niveaux varient au sein des groupes est appelé un prédicteur au niveau des données ou des unités (Gelman & Hill 2007 parfois appelé « facteur interne » Pinheiro & Bates 2000 ). Par exemple, plusieurs fratries (les familles sont traitées comme un effet aléatoire) peuvent avoir été divisées en deux groupes de traitement avec une observation par individu. Les individus sont regroupés au sein des familles, mais le traitement est croisé à l'effet aléatoire familial. Dans ce cas, le « traitement » est un prédicteur au niveau des données (facteur interne à l'individu).

En cas de niveaux multiples (« modèles hiérarchiques d'ordre supérieur »), il peut être nécessaire d'être plus précis sur les différents niveaux de regroupement. Par exemple, s'il existe des observations regroupées dans des sujets imbriqués dans des familles, il existe deux niveaux de regroupement et une déclaration sur un prédicteur au niveau du groupe sera ambiguë. Dans cet exemple, il serait plus précis de parler de prédicteurs au niveau des données (le niveau des observations), des prédicteurs au niveau du sujet et des prédicteurs au niveau de la famille. Si le traitement est appliqué à des familles entières, le « traitement » sera un prédicteur au niveau du groupe (un facteur externe à la famille). Si le traitement est appliqué à des sujets individuels, le « traitement » sera un prédicteur au niveau des données (un facteur interne à la famille, mais un facteur externe au sujet).


Examen 3 .

- dans quelle mesure avez-vous mesuré la variable en question ?

- dans quelle mesure avez-vous mesuré chacune des 2 variables en association ?

- dans quelle mesure avez-vous mesuré ou manipulé les variables de l'étude ?

- quelle est la marge d'erreur du devis ?

- quelle est la taille de l'effet ? quelle est la force de l'association? est-ce important ?

- fausse alarme? manque une relation? taille de l'effet? statistiquement significatif?

- l'étude était-elle une expérience ? obtenir une priorité temporelle ? contrôler les explications alternatives en limitant les confusions ? éviter les menaces ?

- l'échantillon est-il représentatif ?

- à quels autres paramètres ou problèmes l'association pourrait-elle être généralisée

- quelle est la représentativité des manipulations et des mesures ?

présenter les niveaux de l'IV aux participants dans différents ordres

- utiliser ceci pour éviter des effets tels que la pratique, la fatigue, l'arrière-goût ou l'ennui sont des explications alternatives potentielles dans une conception au sein du groupe

- lorsqu'il est utilisé, tout effet de commande doit s'annuler lorsque toutes les données sont collectées

fait référence aux situations spécifiques qui sont créées dans le cadre de la manipulation

- dans les conceptions à sens unique, celles-ci sont appelées les conditions expérimentales

*l'équivalence peut être créée par ce biais

- avec des participants différents mais équivalents à chaque niveau de l'expérience

*l'équivalence peut être créée par ce biais

- avec les mêmes personnes dans chacune des conditions expérimentales

- également appelée conception intra-sujets

- la méthode la plus courante pour créer une équivalence entre les conditions expérimentales

- le niveau de la variable indépendante que chaque participant connaîtra est déterminé par un processus aléatoire

les conceptions expérimentales avec seulement 2 niveaux ont des limites

- difficulté à dire lequel des 2 niveaux est à l'origine du changement dans la DV

- est-ce que le niveau 1 monte et 2 baisse ? ou en face

- difficulté à tirer des conclusions sur le modèle ou la relation où la manipulation fait varier la force de l'IV

- compare les moyennes de la DV à travers les niveaux d'un plan de recherche expérimental

- analyse la variabilité de la DV

- si les moyens sont équivalents, il ne doit y avoir de différences que par hasard

- si la manipulation avait influencé le DV il y aura plus d'importance

la variance entre les conditions signifie

*plus significatif que la variance intra-groupe

écart dans les conditions

au sein des groupes, les conceptions permettent aux chercheurs de remarquer les différences entre les conditions


Intégration fonctionnelle

Conceptions multifactorielles

Les plans factoriels combinent deux facteurs ou plus au sein d'une tâche ou de tâches. Les plans factoriels peuvent être interprétés comme la réalisation d'expériences de soustraction dans deux ou plusieurs contextes différents. Les différences d'activations, attribuables aux effets de contexte, sont simplement l'interaction. Considérez une expérience de reconnaissance d'objet implicite, par exemple nommer (du nom de l'objet ou de la couleur du non-objet) et simplement dire « oui » lors de la visualisation passive d'objets et de non-objets. Les facteurs dans cet exemple sont la reconnaissance implicite d'objets à deux niveaux (objets versus non-objets) et la récupération phonologique (nommer versus dire « oui »). L'idée ici est d'examiner l'interaction entre ces facteurs, ou l'effet qu'un facteur a sur les réponses suscitées par les changements dans l'autre. Dans notre expérience, des réponses spécifiques à un objet sont obtenues (en demandant aux sujets de voir des objets par rapport à des formes dépourvues de sens), avec et sans récupération phonologique. Cette conception « deux par deux » permet d'examiner l'interaction entre la récupération phonologique et la reconnaissance d'objets. Cette analyse n'identifie pas des activations spécifiques à une région, mais des activations spécifiques à une région interactions. Lorsque nous avons réalisé cette expérience, ces interactions étaient évidentes dans la région temporale inférieure postérieure gauche et peuvent être associées à l'intégration de la phonologie et de la reconnaissance d'objets (voir Figure 36.4 et Friston et al., 1996 pour plus de détails). Alternativement, cette région peut être considérée comme exprimant des réponses dépendantes de la reconnaissance qui sont réalisées dans, et seulement dans, le contexte de devoir nommer l'objet. Ces résultats peuvent être interprétés comme la preuve d'une spécialisation contextuelle pour la reconnaissance d'objets qui dépend des afférences modulatrices (éventuellement des régions temporelles et pariétales) qui sont impliquées dans la désignation d'un objet visuellement perçu. Il n'y a aucune preuve empirique dans ces résultats pour suggérer que les régions temporelles ou pariétales soient la source de cette influence descendante mais, dans l'exemple suivant, la source de modulation est abordée explicitement à l'aide d'interactions psychophysiologiques.

FIGURE 36.4 . Cet exemple d'interactions spécifiques à une région provient d'une expérience où il a été demandé aux sujets de visualiser des formes non-objets colorées ou des objets colorés et de dire « oui », ou de nommer soit l'objet coloré, soit la couleur de la forme. A gauche : une interaction régionalement spécifique dans le cortex inféro-temporal gauche. Le seuil SPM (Statistical Parametric Map) est p &lt 0.05 (non corrigé). A droite : les activités correspondantes dans les maxima de cette région sont représentées en termes de réponses dépendantes de la reconnaissance d'objets avec et sans dénomination. On voit que cette région montre des réponses de reconnaissance d'objet quand, et seulement quand, il y a récupération phonologique. L'activation « supplémentaire » avec nommage correspond à l'interaction. Ces données ont été acquises à partir de six sujets scannés 12 fois à l'aide de la TEP.


Comment interpréter les dépendances bidirectionnelles dans les plans factoriels ? - Psychologie

Contour: -- pourquoi nous les faisons -- langage -- Principaux effets et interactions -- Définitions -- Graphes -- Approche mathématique (ANOVA) -- Quand les mathématiques et le graphique ne concordent pas

Les plans factoriels sont ceux qui impliquent plus d'un facteur (IV). Dans ce cours, nous ne traiterons que de 2 facteurs à la fois - ce que l'on appelle les conceptions à 2 voies.

-- pourquoi nous les faisons -- test t permet de faire des comparaisons entre deux groupes -- 2 niveaux différents d'un IV -- ANOVA à sens unique comparons plusieurs niveaux d'un IV Le problème est que nous sommes coincés avec un seul IV jusqu'à présent. C'est un problème car nous pensons rarement que les différences dans un DV ne sont liées qu'à une seule chose. On pense généralement que les choses sont un peu plus complexes, qu'il y a plusieurs choses liées à tout comportement humain.

Il y a trois raisons fondamentales pour faire des conceptions à 2 voies. -- 2 IV d'intérêt -- Pour le contrôle -- Expériences critiques

2 IV (facteurs) d'intérêt

C'est le cas si nous pensons qu'il y a deux ou plusieurs variables liées au phénomène et que nous voulons regarder les deux en même temps. De cette façon, nous pouvons voir comment les choses fonctionnent ensemble pour provoquer des changements. Prenez par exemple mon intérêt pour la façon dont la connaissance partagée affecte la mémoire. Les connaissances partagées consistent en 1) la connaissance du matériel à retenir et 2) les connaissances de base (familiarité avec le partenaire). J'ai commencé sur un problème et suggéré pour notre conception à sens unique que nous examinions la familiarité. Et si nous voulions étudier les deux IV en même temps ?

Dessiner comme une boîte

IVUNE: Connaissances partagées du matériel
IVB: Connaissance des partenaires de conversation Connaissance du même matériau Connaissances non partagées
Étranger Des étrangers se souvenant du matériel partagé Des étrangers se souvenant de matériel différent
Colocataires Les colocataires se souvenant du matériel partagé Colocataires se souvenant de matériel différent

Parfois, nous sommes vraiment intéressés par un IV mais sachez qu'un autre IV (basé sur des théories ou des recherches antérieures) est également lié au DV. Parfois, nous incluons cet autre IV à des fins de contrôle -- 1) cela réduira généralement notre MSE et facilitera la recherche des effets de l'IV d'intérêt, et 2) nous pouvons être sûrs que l'IV d'intérêt fonctionne de la même manière dans tous situations d'intérêt.

1. Par exemple, sur la base du travail de Deborah Tannen et des travaux antérieurs que j'ai réalisés avec certains étudiants ici, j'ai des raisons de croire que les hommes et les femmes peuvent parler du passé différemment. Le simple fait de faire l'expérience sans prêter attention au sexe peut augmenter ma variabilité au sein du groupe. Si certains hommes et certaines femmes parlent à des étrangers et que les hommes et les femmes diffèrent, alors j'aurai une grande variabilité dans ce groupe. Si certains hommes et certaines femmes parlent à leurs colocataires et que les hommes et les femmes diffèrent, alors j'aurai une grande variabilité dans ce groupe. Si je regroupe également par sexe, cependant, j'aurai une variabilité intra-groupe plus faible. Les hommes qui parlent à un étranger auront une faible variabilité au sein des groupes, etc. Cela permettra de trouver plus facilement un effet de familiarité.

2. De plus, je peux alors être sûr que les hommes et les femmes se comporteront de manière similaire en réponse à la variable d'intérêt.

Dessiner comme une boîte

IVUNE: Genre
IVB: Connaissance des partenaires de conversation Mâles Femelles
Étranger Les étrangers masculins se souvenant Les femmes étrangères se souvenant
Colocataires Colocataires masculins se souvenant Les colocataires se souvenant

Parfois, nous sommes assez chanceux et brillants pour pouvoir comparer les théories dans une expérience en utilisant chaque théorie pour suggérer une IV. L'exemple est le travail de Chi sur le développement de la mémoire. À mesure que les enfants grandissent, ils sont capables de se souvenir davantage. La théorie de la maturation dit que cela a à voir avec le développement du cerveau et la capacité de traiter l'information. Ceci est directement lié à l'âge. La théorie de l'expansion de la base de connaissances suggère qu'au fur et à mesure que vous en savez plus, vous pouvez en apprendre davantage. Ceci est généralement lié à l'âge. Mais comme ce n'est pas directement lié à l'âge, cela suggère que vous pouvez avoir de jeunes enfants experts dans un domaine donné et des adultes qui ne sont pas experts dans ce domaine. C'est ce que Chi a fait dans le domaine des échecs.

Dessiner comme une boîte

IVUNE: Âge
IVB: Expertise aux échecs Jeune Étudiants
Novices Jeunes novices Novices d'âge collégial
Experts Jeunes Experts Experts d'âge collégial

Pour les DV, Chi a mesuré la capacité de se souvenir de l'emplacement des pièces d'échecs sur un échiquier et la capacité d'effectuer des tâches de mémoire simples.

Cela oppose joliment les théories les unes aux autres et l'une sera très probablement rejetée.

IV (Variable Indépendante) = Facteur = Traitement (il peut y en avoir deux ou plus dans le plan factoriel)

Niveaux (chaque IV a deux niveaux ou plus)

Cellules (la confluence spécifique des niveaux de tous les IV)

Le cas le plus simple est ce qu'on appelle une conception 2 x 2.

C'est le cas le plus simple d'une conception à deux voies,
chaque IV a deux niveaux.
IV A a 1 et 2.
IVB a 1 et 2.
Il y a 4 cellules : A1B1, A1B2, A2B1, A2B2
Il s'agit d'une conception 2 x 2. 2x2 vous en dit long sur le design : il y a deux nombres donc il y a 2 IV le premier nombre est un 2 donc le premier IV a 2 niveaux le deuxième nombre est un 2 donc le deuxième IV a 2 niveaux 2 x 2 = 4 et ça est le nombre de cellules Une conception 2x3 il y a deux nombres donc il y a 2 IV le premier nombre est un 2 donc le premier IV a 2 niveaux le deuxième nombre est un 3 donc le deuxième IV a 3 niveaux 2 x3 = 6 et c'est le nombre de cellules Une conception 2x2x3 il y a trois nombres donc il y a 3 IV le premier nombre est un 2 donc le premier IV a 2 niveaux le deuxième nombre est un 2 donc le deuxième IV a 2 niveaux le troisième nombre est un 3 donc le troisième IV a 3 niveaux 2 x 2 x 3 = 12 et c'est le nombre de cellules

-- Principaux effets et interactions

Lors de la conception factorielle, nous nous intéressons à deux classes d'effets : les effets principaux et les interactions

-- Il existe la possibilité d'un effet principal associé à chaque facteur.

-- Il existe la possibilité d'une interaction associée à chaque relation entre les facteurs. (Avec une conception bidirectionnelle, il n'y a qu'une seule relation, A x B)

-- Effet principal du facteur A (1er IV) : Différence globale entre les niveaux de A qui est cohérente entre les niveaux de B. (La différence se réfère ici principalement à la direction, pas à la taille de la différence).

-- Effet principal du facteur B (2e IV) : Différence globale entre les niveaux de B qui est cohérente entre les niveaux de A. (La différence se réfère ici principalement à la direction).

-- Interaction d'AxB : les différences entre les niveaux d'un facteur dépendent des niveaux de l'autre facteur. (La différence se réfère ici à la direction et à la taille de l'effet). Cela signifie, par exemple, qu'une certaine différence entre les niveaux du facteur A peut être vraie à un niveau de B mais pas à un autre niveau de B ou que la différence entre deux niveaux de A peut être beaucoup plus forte à un niveau de B qu'à un autre niveau de B, même s'il est dans la même direction.

Un moyen simple de rechercher les principaux effets et interactions consiste à représenter graphiquement les moyennes des cellules.

-- Effet principal du facteur A (1er IV) : Différence globale entre les niveaux de A qui est cohérente entre les niveaux de B. (La différence se réfère ici principalement à la direction).

-- Effet principal du facteur B (2e IV) : Différence globale entre les niveaux de B qui est cohérente entre les niveaux de A. (La différence se réfère ici principalement à la direction).

-- Interaction d'AxB : les différences entre les niveaux d'un facteur dépendent des niveaux de l'autre facteur. (La différence se réfère ici à la direction et à la taille de l'effet).

-- Graphiques Regardez les exemples faits en classe

ME de A : La différence entre A1 et A2 est dans le même sens pour les deux niveaux de B.

ME de B : La différence entre B1 et B2 est dans le même sens pour les deux niveaux de A.

Interaction : Les pentes des lignes ne sont pas parallèles.

-- Approche mathématique (ANOVA) Définitions

-- Effet principal du facteur A (1er IV) : Différence globale entre les niveaux de A

-- Effet principal du facteur B (2e IV) : Différence globale entre les niveaux de B

-- Interaction d'AxB : les différences entre les niveaux d'un facteur dépendent des niveaux de l'autre facteur.

** Notez ce qui manque : Il n'y a aucun souci que les ME soient Cohérent.

** Notez ce qui ne change pas : La définition de l'interaction est constante.

Pour faire les jugements requis pour définir les ME et les interactions par les mathématiques, je dois introduire un peu plus de langage.

Considérons maintenant les trois choses que nous recherchons :

ME de A : Y a-t-il une grande différence (par rapport à la variabilité du groupe w/i) entre les moyennes marginales de A ?

ME de B : Y a-t-il une grande différence (par rapport à la variabilité du groupe w/i) entre les moyennes marginales de B ?

Interaction : Décider de l'interaction, vous devez savoir si les deux facteurs sont additifs. Si additif, pas d'interaction si non-additif, interaction.

Additive signifie que vous pouvez prédire les moyennes des cellules en fonction des moyennes marginales. Voici un moyen simple de le faire : regardez 3 des moyens de cellule. Couvrir la moyenne de la quatrième cellule. dans l'exemple ci-dessus, couvrez M2,2 = 20. Essayez maintenant de prédire cela en vous basant sur les moyennes des 3 autres cellules. Au niveau B=1, passer de A=1 à A=2 ajoute 5 à la moyenne de la cellule. Ainsi, nous devrions ajouter 5 à la moyenne de cellule pour B=2, A=1 pour obtenir la moyenne de cellule pour B=2, A=2. S'avère au travail cette fois. Vous pouvez prédire et donc les choses s'additionnent et il n'y a pas d'interaction.

-- Quand les mathématiques et le graphique ne concordent pas

En général, croyez ce qui dit non.

Si le graphique donne l'impression que quelque chose se passe, mais que le calcul (ANOVA) dit non, alors croyez le calcul. L'ANOVA teste non seulement pour voir s'il y a une différence, mais que la différence est grande par rapport à la variabilité du groupe w/i.

Si les calculs indiquent qu'il y a un effet principal, mais regarder le graphique indique qu'il n'y a pas d'effet cohérent effet principal, alors votre effet principal est un artefact de l'interaction. (Remarque, pour que cela se produise, il doit y avoir et il y aura une interaction.) Artefact : quelque chose de créé. Dans ce cas, créé par l'interaction. Cela signifie qu'il est créé parce que les effets d'un facteur vont dans différentes directions à différents niveaux de l'autre facteur - mais que l'un d'eux est plus grand que l'autre et écarte la moyenne (moyenne marginale) dans une direction. Dans ce cas, lorsque vous regardez les moyennes marginales, il y a une différence globale, mais si vous regardez les cellules, ce n'est pas cohérent. La vraie définition d'un effet principal est une différence globale cohérente, mais l'ANOVA ne regarde que la partie globale. Vous, le chercheur, devez vous soucier de la cohérence de l'effet principal. Vous n'obtenez des artefacts que lorsque vous avez une interaction.


10.5 Réplication dans les plans factoriels

Le résultat (y) de l'expérience en usine pilote était la moyenne de deux exécutions répétées. Les deux parcours séparés sont présentés dans le tableau ci-dessous. L'ordre d'exécution a été randomisé. Par exemple, les séries 6 et 13 sont deux réplicats sous les mêmes paramètres pour T, C et K (T=-1, C=-1, K=-1).

Cours T C K oui
6 -1 -1 -1 59
2 1 -1 -1 74
1 -1 1 -1 50
5 1 1 -1 69
8 -1 -1 1 50
9 1 -1 1 81
3 -1 1 1 46
7 1 1 1 79
13 -1 -1 -1 61
4 1 -1 -1 70
16 -1 1 -1 58
10 1 1 -1 67
12 -1 -1 1 54
14 1 -1 1 85
11 -1 1 1 44
15 1 1 1 81

Il n'est pas toujours possible de reproduire une course. L'expérience de l'usine pilote consistait à nettoyer le réacteur, à insérer la charge de catalyseur appropriée et à faire fonctionner l'appareil à une température donnée à une concentration d'alimentation donnée pendant 3 heures pour permettre au processus de se stabiliser dans les conditions expérimentales choisies, et (4) l'échantillonnage la sortie toutes les 15 minutes pendant les dernières heures de fonctionnement. (Boîte, Chasseur, Chasseur, 2005)

exécuter1 exécuter2 T C K y1 y2 différence
6 13 -1 -1 -1 59 61 -2
2 4 1 -1 -1 74 70 4
1 16 -1 1 -1 50 58 -8
5 10 1 1 -1 69 67 2
8 12 -1 -1 1 50 54 -4
9 14 1 -1 1 81 85 -4
3 11 -1 1 1 46 44 2
7 15 1 1 1 79 81 -2

Supposons que la variance de chaque mesure est (sigma^2) . La variance estimée à chaque ensemble de conditions est :

où (y_) est le premier résultat de l'exécution de (ith). Dans le tableau ci-dessus ( ext_i= gauche(y_-y_droit)) . Une estimation groupée de (sigma^2) est

L'estimation de la variance avec un degré de liberté pour une exécution dupliquée est (s_i^2=left(y_-y_ ight).) La moyenne de ces valeurs donne des estimations à un seul degré de liberté donne une estimation groupée (s^2 = 8) avec 8 degrés de liberté.


Comment interpréter les dépendances bidirectionnelles dans les plans factoriels ? - Psychologie

La valeur du khi carré obtenue est de 21,769. Ceci est comparé à une valeur critique du khi carré dans le tableau 5 de l'annexe A. Pour un khi carré unidirectionnel, les degrés de liberté dans le test du khi carré sont égaux à df = k – 1, où k est le nombre de catégories/niveaux associés à la seule variable indépendante. Dans ce cas, il y a six catégories, donc df = 6 – 1 = 5

Choisissez un niveau de signification ( α ) et recherchez cette valeur dans les en-têtes de colonne. Pour cet exemple, je vais définir mon niveau alpha sur α = 0,05 S faites défiler la colonne associée à α = 0,05 jusqu'à ce que vous arriviez à la ligne associée aux degrés de liberté pour le test du chi carré, qui vous donner la valeur critique du chi carré. Dans ce cas, la valeur critique du chi carré avec df = 5 et = 0,05 est 11,070. Étant donné que le chi-carré obtenu (21,769) est supérieur à la valeur critique du chi-carré, l'hypothèse nulle peut être rejetée et l'hypothèse alternative acceptée. Ainsi, je peux conclure qu'il existe une différence significative entre les fréquences observées et les fréquences attendues des majors universitaires qui suivent mon cours Sensation et Perception. Cela signifie qu'il peut y avoir une certaine relation entre ce cours et les types d'étudiants (en fonction de la majeure) qui suivent le cours. Plus précisément, certaines majors peuvent être plus susceptibles de suivre ce cours particulier.

23,5 Chi carré avec deux variables indépendantes

Les tests du chi carré peuvent également examiner si les fréquences observées parmi les combinaisons de deux (ou même plus) variables indépendantes diffèrent de ce à quoi vous vous attendriez par hasard. Par exemple, dans la section précédente, disons que j'ai compté le nombre d'hommes dans chacune des six majeures et le nombre de femmes dans chacune des six majeures. Par conséquent, j'aurais deux variables indépendantes nominales (« Majeur » et « Sexe ») avec un total de 6 (Majeur) x 2 (Sexe) = 12 (Majeur x Sexe) groupes mutuellement exclusifs. Je pourrais compter le nombre d'élèves qui appartiennent à chacun de ces 12 groupes et déterminer la fréquence attendue associée à chaque combinaison de majeure et de sexe pour déterminer si les fréquences observées diffèrent des fréquences attendues.

Lorsque vous avez deux variables indépendantes nominales et que la variable dépendante est la fréquence, vous effectuez un analyse du chi carré bidirectionnel . Cela testera la présence d'une relation entre les deux variables indépendantes lorsque la variable dépendante est une donnée de fréquence. Par exemple, d'après le paragraphe précédent, un chi carré significatif suggérerait qu'il existe une relation significative entre le sexe d'un étudiant et le choix de la majeure qui amène une personne à suivre le cours Sensation et perception.

Lorsque vous testez une relation entre deux variables indépendantes nominales lorsque la variable dépendante est la fréquence, commencez par configurer un tableau de contingence qui répertorie toutes les fréquences observées pour chacune des combinaisons (groupes) créées par les variables indépendantes. Rappel du chapitre 12 (Probabilités), un tableau de contingence répertorie deux variables, l'une représentée par les lignes du tableau et l'autre par les colonnes. Le tableau répertorie la fréquence observée associée à chaque combinaison unique des deux variables. À partir d'un tel tableau de contingence, nous calculerons la fréquence attendue pour chaque combinaison de variables, puis effectuerons le test du chi carré . En utilisant le sexe et l'exemple principal ci-dessus, le tableau de contingence pourrait ressembler à celui ci-dessous :

Les totaux des lignes et les totaux des colonnes sont les fréquences marginales . Il est important de les lister dans le tableau de contingence, car ils sont utilisés pour calculer les valeurs de fréquence attendues. Un chi carré bidirectionnel peut prendre l'une des deux formes, cependant, les deux utilisent exactement les mêmes procédures et ont les mêmes hypothèses. La seule différence réside dans la manière dont les données de fréquence sont collectées et comment les résultats sont interprétés.

UNE test du chi carré d'indépendance C'est là que les fréquences marginales varient indépendamment, c'est-à-dire que les fréquences marginales des deux variables indépendantes ne sont pas fixes ou définies, mais sont plutôt inconnues et peuvent varier de manière aléatoire. (c'est-à-dire qu'un chercheur ne ne pas savoir quelles seront les fréquences marginales avant de collecter les données.) Un test d'indépendance du chi carré est utilisé pour déterminer s'il existe une relation statistiquement significative entre les deux variables indépendantes. L'exemple ci-dessus est un test d'indépendance du Khi-deux, car je n'aurais jamais pu connaître les fréquences marginales de l'une ou l'autre des variables indépendantes avant le début du cours.

UNE c test hi-square pour l'homogénéité de la variance est l'endroit où les fréquences marginales de seul une variables indépendantes sont fixes et déterminées avant toute collecte de données (fréquences marginales pour les deux variables ne peut pas être fixé au préalable). Par exemple, je peux être intéressé par les types de majors universitaires déclarés pour les étudiants masculins et féminins qui prennent leur café au café Aroma. Je pouvais attendre à l'extérieur du café Aroma et demander aux 50 premiers hommes et aux 50 premières femmes qui entrent dans le café Aroma leur spécialité, puis effectuer une analyse du chi carré sur les données. Dans cet exemple, j'ai décidé des fréquences marginales des hommes et des femmes avant de collecter des données, c'est-à-dire que je collecterais des données auprès de 50 hommes et 50 femmes. Dans ce cas, la fréquence marginale des hommes et des femmes est fixe. et sont ne pas permis de varier. Un test du chi carré d'homogénéité de la variance évalue si la différence entre les fréquences observées et les fréquences attendues est égale (homogène) pour les hommes et les femmes ou diffère (hétérogène) entre les hommes et les femmes. Aux fins du présent document, je ne couvrirai que le test du chi carré d'indépendance. Notez simplement que les procédures de test sont exactement les mêmes, la seule différence est la façon dont les données sont collectées.

Un chi carré bidirectionnel a les mêmes hypothèses que le chi carré unidirectionnel : (1) la variable dépendante est des données de fréquence, (2) les variables indépendantes sont nominales et ne sont souvent pas manipulées, et (3) les niveaux de la les variables indépendantes sont mutuellement exclusives. Le chi carré bidirectionnel a une hypothèse supplémentaire : la fréquence de chaque groupe est au moins cinq. Malheureusement, les fréquences de plusieurs groupes dans le sexe et l'exemple principal sont inférieures à cinq, ainsi, l'exemple viole cette hypothèse importante.

Un bon exemple de cas où le test du chi carré pourrait être utilisé pour évaluer les données de fréquence est les dossiers de vote du Congrès à la Chambre des représentants des États-Unis. Plus précisément, les tests du chi carré peuvent examiner la relation entre le parti politique et le vote (« Oui » et « Non ») sur un projet de loi particulier. Un tel exemple a deux variables indépendantes ("Parti politique" et "Décision de vote") et la dépendance est la fréquence des réponses dans chaque combinaison de parti politique et de décision de vote.

Un projet de loi en particulier était le projet de loi HR6 de la Chambre des représentants, la « Loi sur l'indépendance et la sécurité énergétiques », qui a été adoptée à la Chambre le 18/12/2007. Le projet de loi visait à « réduire la dépendance de notre nation vis-à-vis du pétrole étranger en investissant dans des ressources énergétiques alternatives propres, renouvelables, en promouvant de nouvelles technologies énergétiques, en développant une plus grande efficacité et en créant une réserve stratégique d'efficacité énergétique et d'énergie renouvelable pour investir dans l'énergie alternative, et pour d'autres fins. Ci-dessous, se trouve un tableau de contingence qui répertorie la fréquence pour chaque combinaison de parti politique (démocrates et républicains) et de décision sur le projet de loi (Oui, Non, Abstention) :


Chapitre 9 ANOVA factorielle

Nous sommes arrivés à la chose la plus compliquée dont nous allons discuter dans cette classe. Malheureusement, nous devons vous avertir que vous pourriez trouver ce prochain truc un peu compliqué. Peut-être pas, et ce serait génial ! Nous ferons de notre mieux pour présenter les problèmes de différentes manières, afin que vous disposiez de quelques outils différents pour vous aider à comprendre le problème.

C'est quoi ce problème si compliqué ? Eh bien, la première partie n'est pas si compliquée. Par exemple, jusqu'à présent, nous avons parlé d'expériences. La plupart des expériences ont eu deux bits importants, la variable indépendante (la manipulation) et la variable dépendante (ce que nous mesurons). Dans la plupart des cas, notre variable indépendante a eu deux niveaux, ou trois ou quatre mais, il n'y a eu qu'une seule variable indépendante.

Et si vous vouliez manipuler plus d'une variable indépendante ? Si vous faisiez cela, vous auriez au moins deux variables indépendantes, chacune avec ses propres niveaux. Le reste du livre concerne les conceptions avec plus d'une variable indépendante et les tests statistiques que nous utilisons pour analyser ces conceptions.

Passons en revue quelques exemples de conceptions afin de voir de quoi nous parlons. Nous allons imaginer des expériences qui tentent d'améliorer les notes des élèves. Ainsi, la variable dépendante sera toujours la note sur un test.

Nous utiliserions un test t pour ces conceptions, car elles n'ont que deux niveaux.

Moment de la journée (matin par rapport à l'après-midi) : les élèves réussissent-ils mieux les tests lorsqu'ils les passent le matin par rapport à l'après-midi ? Il y a un IV (heure de la journée), avec deux niveaux (matin vs après-midi)

Caféine (un peu de caféine vs pas de caféine) : les élèves réussissent-ils mieux aux tests lorsqu'ils boivent de la caféine plutôt que de ne pas en boire ? Il y a un IV (caféine), avec deux niveaux (un peu de caféine vs pas de caféine)

Nous utiliserions une ANOVA pour ces conceptions car elles ont plus de deux niveaux

Moment de la journée (matin, après-midi, nuit) : les élèves réussissent-ils mieux les tests lorsqu'ils les passent le matin, l'après-midi ou le soir ? Il y a un IV (heure de la journée), avec trois niveaux (Matin, Après-midi et Nuit)

Caféine (1 café, 2 cafés, 3 cafés) : les élèves réussissent-ils mieux aux tests lorsqu'ils boivent 1 café, 2 cafés ou trois cafés ? Il y a un IV (caféine), avec trois niveaux (1 café, 2 cafés et 3 cafés)

Nous n'avons pas parlé du type de test à exécuter pour cette conception (indice, cela s'appelle une ANOVA factorielle)

  1. IV1 (Heure de la journée : Matin vs Après-midi) IV2 (Caféine : un peu de caféine vs pas de caféine) : Comment l'heure de la journée et la consommation de caféine influencent-elles les notes des élèves ? Nous avons fait passer des tests aux élèves le matin ou l'après-midi, avec ou sans caféine. Il y a deux IV (heure de la journée et caféine). IV1 (Heure de la journée) a deux niveaux (matin vs après-midi). IV2 (caféine) a deux niveaux (un peu de caféine contre pas de caféine)

Bon, arrêtons-nous ici pour le moment. Les deux premiers modèles avaient tous deux un IV. La troisième conception montre un exemple de conception avec 2 IV (heure de la journée et caféine), chacun avec deux niveaux. C'est ce qu'on appelle un Conception factorielle 2x2. Cela s'appelle un factoriel conception, car les niveaux de chaque variable indépendante sont entièrement croisés. Cela signifie que d'abord chaque niveau d'un IV, les niveaux de l'autre IV sont également manipulés. « ATTENDRE STOP S'IL VOUS PLAÎT ! » Oui, il semble que nous commencions à parler dans la langue étrangère des statistiques et des modèles de recherche. Nous nous en excusons. Nous continuerons à le mélanger avec un langage simple et quelques images.


Psy 230 ch 9 : Plans factoriels

= les plans factoriels sont décrits numériquement (2x4x3--le fait qu'il y ait 3 nombres indique la quantité de variables indépendantes. 2 nous indique que la première variable indépendante a 2 niveaux, et que 4 et 3 nous indiquent, respectivement, que la deuxième variable indépendante a quatre niveaux et la troisième variable indépendante a 3 niveaux

= les conceptions factorielles sont mieux à même de saisir la complexité causale de la vie réelle que les conceptions qui n'incluent qu'une seule variable indépendante. Chaque variable indépendante incorporée dans la conception peut avoir un effet principal. L'effet principal se produit lorsqu'une variable indépendante a un effet global sur une variable dépendante. différentes variables indépendantes dans la conception peuvent interagir les unes avec les autres. l'interaction se produit lorsque la manière dont une variable indépendante influence le comportement diffère, selon le niveau d'une autre variable indépendante

= les plans factoriels peuvent examiner les interactions. est souvent plus efficace à conduire. La principale limitation est qu'à mesure que le nombre de variables indépendantes augmente, le nombre total de conditions dans l'expérience augmente rapidement et peut dépasser les ressources disponibles pour mener l'expérience

= pour examiner les effets non linéaires d'une variable indépendante dans un plan factoriel, cette variable doit avoir trois niveaux ou plus. pour examiner si une variable est un modérateur, cette variable est simplement incorporée dans le plan factoriel en tant que variable indépendante supplémentaire --- si cette variable produit une interaction, alors c'est un modérateur

= les variables sujet sont souvent incorporées dans des plans factoriels qui incluent également au moins une variable manipulée --- crée un plan personne x situation.parce que les variables du sujet sont mesurées et non manipulées, les résultats qui semblent être causés par une variable du sujet peuvent être causés par d'autres facteurs qui sont corrélés avec la variable du sujet

= dans une expérience factorielle avec deux variables indépendantes A et B, huit résultats sont possibles. lorsqu'aucune interaction A x B, quatre résultats sont possibles : 1. aucun effet principal n'existe, 2. A mais pas B a un effet principal, 3 .B mais pas A a un effet principal, 4. les deux effets principaux se produisent. lorsqu'il y a une interaction A x B, vous pouvez obtenir les quatre mêmes résultats possibles concernant les effets principaux

=les interactions peuvent être ordinales ou disordinales. lorsqu'une interaction se produit, tout effet principal doit être interprété avec prudence car l'interaction peut limiter la conclusion générale qui serait tirée uniquement de l'effet principal

=souvent, les données de l'expérience factorielle sont initialement analysées pour déterminer s'il s'agit de trois effets ou interactions principaux. si une interaction se produit, les effets principaux simples sont analysés. les effets principaux simples représentent l'effet d'une IV à un niveau spécifique d'une autre IV. Si l'effet principal simple est statistiquement significatif, le chercheur peut utiliser des tests post-hoc pour comparer les résultats entre des paires de conditions spécifiques


10.5 Réplication dans les plans factoriels

Le résultat (y) de l'expérience en usine pilote était la moyenne de deux exécutions répétées. Les deux parcours séparés sont présentés dans le tableau ci-dessous. L'ordre d'exécution a été randomisé. Par exemple, les séries 6 et 13 sont deux réplicats sous les mêmes paramètres pour T, C et K (T=-1, C=-1, K=-1).

Cours T C K oui
6 -1 -1 -1 59
2 1 -1 -1 74
1 -1 1 -1 50
5 1 1 -1 69
8 -1 -1 1 50
9 1 -1 1 81
3 -1 1 1 46
7 1 1 1 79
13 -1 -1 -1 61
4 1 -1 -1 70
16 -1 1 -1 58
10 1 1 -1 67
12 -1 -1 1 54
14 1 -1 1 85
11 -1 1 1 44
15 1 1 1 81

Il n'est pas toujours possible de reproduire une course. L'expérience de l'usine pilote consistait à nettoyer le réacteur, à insérer la charge de catalyseur appropriée et à faire fonctionner l'appareil à une température donnée à une concentration d'alimentation donnée pendant 3 heures pour permettre au processus de se stabiliser dans les conditions expérimentales choisies, et (4) l'échantillonnage la sortie toutes les 15 minutes pendant les dernières heures de fonctionnement. (Boîte, Chasseur, Chasseur, 2005)

exécuter1 exécuter2 T C K y1 y2 différence
6 13 -1 -1 -1 59 61 -2
2 4 1 -1 -1 74 70 4
1 16 -1 1 -1 50 58 -8
5 10 1 1 -1 69 67 2
8 12 -1 -1 1 50 54 -4
9 14 1 -1 1 81 85 -4
3 11 -1 1 1 46 44 2
7 15 1 1 1 79 81 -2

Supposons que la variance de chaque mesure est (sigma^2) . La variance estimée à chaque ensemble de conditions est :

où (y_) est le premier résultat de l'exécution de (ith). Dans le tableau ci-dessus ( ext_i= gauche(y_-y_droit)) . Une estimation groupée de (sigma^2) est

L'estimation de la variance avec un degré de liberté pour une exécution dupliquée est (s_i^2=left(y_-y_ ight).) La moyenne de ces valeurs donne des estimations à un seul degré de liberté donne une estimation groupée (s^2 = 8) avec 8 degrés de liberté.


Comment interpréter les dépendances bidirectionnelles dans les plans factoriels ? - Psychologie

Contour: -- pourquoi nous les faisons -- langage -- Principaux effets et interactions -- Définitions -- Graphes -- Approche mathématique (ANOVA) -- Quand les mathématiques et le graphique ne concordent pas

Les plans factoriels sont ceux qui impliquent plus d'un facteur (IV). Dans ce cours, nous ne traiterons que de 2 facteurs à la fois - ce que l'on appelle les conceptions à 2 voies.

-- pourquoi nous les faisons -- test t permet de faire des comparaisons entre deux groupes -- 2 niveaux différents d'un IV -- ANOVA à sens unique comparons plusieurs niveaux d'un IV Le problème est que nous sommes coincés avec un seul IV jusqu'à présent. C'est un problème car nous pensons rarement que les différences dans un DV ne sont liées qu'à une seule chose. On pense généralement que les choses sont un peu plus complexes, qu'il y a plusieurs choses liées à tout comportement humain.

Il y a trois raisons fondamentales pour faire des conceptions à 2 voies. -- 2 IV d'intérêt -- Pour le contrôle -- Expériences critiques

2 IV (facteurs) d'intérêt

C'est le cas si nous pensons qu'il y a deux ou plusieurs variables liées au phénomène et que nous voulons regarder les deux en même temps. De cette façon, nous pouvons voir comment les choses fonctionnent ensemble pour provoquer des changements. Prenez par exemple mon intérêt pour la façon dont la connaissance partagée affecte la mémoire. Les connaissances partagées consistent en 1) la connaissance du matériel à retenir et 2) les connaissances de base (familiarité avec le partenaire). J'ai commencé sur un problème et suggéré pour notre conception à sens unique que nous examinions la familiarité. Et si nous voulions étudier les deux IV en même temps ?

Dessiner comme une boîte

IVUNE: Connaissances partagées du matériel
IVB: Connaissance des partenaires de conversation Connaissance du même matériau Connaissances non partagées
Étranger Des étrangers se souvenant du matériel partagé Des étrangers se souvenant de matériel différent
Colocataires Les colocataires se souvenant du matériel partagé Colocataires se souvenant de matériel différent

Parfois, nous sommes vraiment intéressés par un IV mais sachez qu'un autre IV (basé sur des théories ou des recherches antérieures) est également lié au DV. Parfois, nous incluons cet autre IV à des fins de contrôle -- 1) cela réduira généralement notre MSE et facilitera la recherche des effets de l'IV d'intérêt, et 2) nous pouvons être sûrs que l'IV d'intérêt fonctionne de la même manière dans tous situations d'intérêt.

1. Par exemple, sur la base du travail de Deborah Tannen et des travaux antérieurs que j'ai réalisés avec certains étudiants ici, j'ai des raisons de croire que les hommes et les femmes peuvent parler du passé différemment. Le simple fait de faire l'expérience sans prêter attention au sexe peut augmenter ma variabilité au sein du groupe. Si certains hommes et certaines femmes parlent à des étrangers et que les hommes et les femmes diffèrent, alors j'aurai une grande variabilité dans ce groupe. Si certains hommes et certaines femmes parlent à leurs colocataires et que les hommes et les femmes diffèrent, alors j'aurai une grande variabilité dans ce groupe. Si je regroupe également par sexe, cependant, j'aurai une variabilité intra-groupe plus faible. Les hommes qui parlent à un étranger auront une faible variabilité au sein des groupes, etc. Cela permettra de trouver plus facilement un effet de familiarité.

2. De plus, je peux alors être sûr que les hommes et les femmes se comporteront de manière similaire en réponse à la variable d'intérêt.

Dessiner comme une boîte

IVUNE: Genre
IVB: Connaissance des partenaires de conversation Mâles Femelles
Étranger Les étrangers masculins se souvenant Les femmes étrangères se souvenant
Colocataires Colocataires masculins se souvenant Les colocataires se souvenant

Parfois, nous sommes assez chanceux et brillants pour pouvoir comparer les théories dans une expérience en utilisant chaque théorie pour suggérer une IV. L'exemple est le travail de Chi sur le développement de la mémoire. À mesure que les enfants grandissent, ils sont capables de se souvenir davantage. La théorie de la maturation dit que cela a à voir avec le développement du cerveau et la capacité de traiter l'information. Ceci est directement lié à l'âge. La théorie de l'expansion de la base de connaissances suggère qu'au fur et à mesure que vous en savez plus, vous pouvez en apprendre davantage. Ceci est généralement lié à l'âge. Mais comme ce n'est pas directement lié à l'âge, cela suggère que vous pouvez avoir de jeunes enfants experts dans un domaine donné et des adultes qui ne sont pas experts dans ce domaine. C'est ce que Chi a fait dans le domaine des échecs.

Dessiner comme une boîte

IVUNE: Âge
IVB: Expertise aux échecs Jeune Étudiants
Novices Jeunes novices Novices d'âge collégial
Experts Jeunes Experts Experts d'âge collégial

Pour les DV, Chi a mesuré la capacité de se souvenir de l'emplacement des pièces d'échecs sur un échiquier et la capacité d'effectuer des tâches de mémoire simples.

Cela oppose joliment les théories les unes aux autres et l'une sera très probablement rejetée.

IV (Variable Indépendante) = Facteur = Traitement (il peut y en avoir deux ou plus dans le plan factoriel)

Niveaux (chaque IV a deux niveaux ou plus)

Cellules (la confluence spécifique des niveaux de tous les IV)

Le cas le plus simple est ce qu'on appelle une conception 2 x 2.

C'est le cas le plus simple d'une conception à deux voies,
chaque IV a deux niveaux.
IV A a 1 et 2.
IVB a 1 et 2.
Il y a 4 cellules : A1B1, A1B2, A2B1, A2B2
Il s'agit d'une conception 2 x 2. 2x2 vous en dit long sur le design : il y a deux nombres donc il y a 2 IV le premier nombre est un 2 donc le premier IV a 2 niveaux le deuxième nombre est un 2 donc le deuxième IV a 2 niveaux 2 x 2 = 4 et ça est le nombre de cellules Une conception 2x3 il y a deux nombres donc il y a 2 IV le premier nombre est un 2 donc le premier IV a 2 niveaux le deuxième nombre est un 3 donc le deuxième IV a 3 niveaux 2 x3 = 6 et c'est le nombre de cellules Une conception 2x2x3 il y a trois nombres donc il y a 3 IV le premier nombre est un 2 donc le premier IV a 2 niveaux le deuxième nombre est un 2 donc le deuxième IV a 2 niveaux le troisième nombre est un 3 donc le troisième IV a 3 niveaux 2 x 2 x 3 = 12 et c'est le nombre de cellules

-- Principaux effets et interactions

Lors de la conception factorielle, nous nous intéressons à deux classes d'effets : les effets principaux et les interactions

-- Il existe la possibilité d'un effet principal associé à chaque facteur.

-- Il existe la possibilité d'une interaction associée à chaque relation entre les facteurs. (Avec une conception bidirectionnelle, il n'y a qu'une seule relation, A x B)

-- Effet principal du facteur A (1er IV) : Différence globale entre les niveaux de A qui est cohérente entre les niveaux de B. (La différence se réfère ici principalement à la direction, pas à la taille de la différence).

-- Effet principal du facteur B (2e IV) : Différence globale entre les niveaux de B qui est cohérente entre les niveaux de A. (La différence se réfère ici principalement à la direction).

-- Interaction d'AxB : les différences entre les niveaux d'un facteur dépendent des niveaux de l'autre facteur. (La différence se réfère ici à la direction et à la taille de l'effet). Cela signifie, par exemple, qu'une certaine différence entre les niveaux du facteur A peut être vraie à un niveau de B mais pas à un autre niveau de B ou que la différence entre deux niveaux de A peut être beaucoup plus forte à un niveau de B qu'à un autre niveau de B, même s'il est dans la même direction.

Un moyen simple de rechercher les principaux effets et interactions consiste à représenter graphiquement les moyennes des cellules.

-- Effet principal du facteur A (1er IV) : Différence globale entre les niveaux de A qui est cohérente entre les niveaux de B. (La différence se réfère ici principalement à la direction).

-- Effet principal du facteur B (2e IV) : Différence globale entre les niveaux de B qui est cohérente entre les niveaux de A. (La différence se réfère ici principalement à la direction).

-- Interaction d'AxB : les différences entre les niveaux d'un facteur dépendent des niveaux de l'autre facteur. (La différence se réfère ici à la direction et à la taille de l'effet).

-- Graphiques Regardez les exemples faits en classe

ME de A : La différence entre A1 et A2 est dans le même sens pour les deux niveaux de B.

ME de B : La différence entre B1 et B2 est dans le même sens pour les deux niveaux de A.

Interaction : Les pentes des lignes ne sont pas parallèles.

-- Approche mathématique (ANOVA) Définitions

-- Effet principal du facteur A (1er IV) : Différence globale entre les niveaux de A

-- Effet principal du facteur B (2e IV) : Différence globale entre les niveaux de B

-- Interaction d'AxB : les différences entre les niveaux d'un facteur dépendent des niveaux de l'autre facteur.

** Notez ce qui manque : Il n'y a aucun souci que les ME soient Cohérent.

** Notez ce qui ne change pas : La définition de l'interaction est constante.

Pour faire les jugements requis pour définir les ME et les interactions par les mathématiques, je dois introduire un peu plus de langage.

Considérons maintenant les trois choses que nous recherchons :

ME de A : Y a-t-il une grande différence (par rapport à la variabilité du groupe w/i) entre les moyennes marginales de A ?

ME de B : Y a-t-il une grande différence (par rapport à la variabilité du groupe w/i) entre les moyennes marginales de B ?

Interaction : Décider de l'interaction, vous devez savoir si les deux facteurs sont additifs. Si additif, pas d'interaction si non-additif, interaction.

Additive signifie que vous pouvez prédire les moyennes des cellules en fonction des moyennes marginales. Voici un moyen simple de le faire : regardez 3 des moyens de cellule. Couvrir la moyenne de la quatrième cellule. dans l'exemple ci-dessus, couvrez M2,2 = 20. Essayez maintenant de prédire cela en vous basant sur les moyennes des 3 autres cellules. Au niveau B=1, passer de A=1 à A=2 ajoute 5 à la moyenne de la cellule. Ainsi, nous devrions ajouter 5 à la moyenne de cellule pour B=2, A=1 pour obtenir la moyenne de cellule pour B=2, A=2. S'avère au travail cette fois. Vous pouvez prédire et donc les choses s'additionnent et il n'y a pas d'interaction.

-- Quand les mathématiques et le graphique ne concordent pas

En général, croyez ce qui dit non.

Si le graphique donne l'impression que quelque chose se passe, mais que le calcul (ANOVA) dit non, alors croyez le calcul. L'ANOVA teste non seulement pour voir s'il y a une différence, mais que la différence est grande par rapport à la variabilité du groupe w/i.

Si les calculs indiquent qu'il y a un effet principal, mais regarder le graphique indique qu'il n'y a pas d'effet cohérent effet principal, alors votre effet principal est un artefact de l'interaction. (Remarque, pour que cela se produise, il doit y avoir et il y aura une interaction.) Artefact : quelque chose de créé. Dans ce cas, créé par l'interaction. Cela signifie qu'il est créé parce que les effets d'un facteur vont dans différentes directions à différents niveaux de l'autre facteur - mais que l'un d'eux est plus grand que l'autre et écarte la moyenne (moyenne marginale) dans une direction. Dans ce cas, lorsque vous regardez les moyennes marginales, il y a une différence globale, mais si vous regardez les cellules, ce n'est pas cohérent. La vraie définition d'un effet principal est une différence globale cohérente, mais l'ANOVA ne regarde que la partie globale. Vous, le chercheur, devez vous soucier de la cohérence de l'effet principal. Vous n'obtenez des artefacts que lorsque vous avez une interaction.


Contenu

Définition Modifier

Le modèle tente d'expliquer un ensemble de p observations dans chacun des m individus avec un ensemble de k facteurs communs (F) où il y a moins de facteurs par unité que d'observations par unité (k<p). Chaque individu a k de leurs propres facteurs communs, et ceux-ci sont liés aux observations via le facteur matrice de chargement ( L ∈ R p × k ^

> ), pour une seule observation, selon

Aussi nous imposerons les hypothèses suivantes à F :

  1. F et ϵ sont indépendants.
  2. E ( F ) = 0 (F)=0> où E est l'espérance
  3. C o v ( F ) = I (F)=I> où Cov est la matrice de covariance, pour s'assurer que les facteurs ne sont pas corrélés, et je est la matrice identité.

et donc, des conditions imposées à F dessus,

Exemple Modifier

Supposons qu'un psychologue fasse l'hypothèse qu'il existe deux types d'intelligence, « l'intelligence verbale » et « l'intelligence mathématique », dont aucune n'est directement observée. La preuve de l'hypothèse est recherchée dans les résultats des examens de chacun des 10 domaines académiques différents de 1000 étudiants. Si chaque élève est choisi au hasard parmi une grande population, alors les 10 scores de chaque élève sont des variables aléatoires. L'hypothèse du psychologue peut dire que pour chacun des 10 domaines académiques, le score moyenné sur le groupe de tous les étudiants qui partagent une paire commune de valeurs pour les "intelligences" verbales et mathématiques est un temps constant de leur niveau d'intelligence verbale plus un autre temps constant leur niveau d'intelligence mathématique, c'est-à-dire qu'il s'agit d'une combinaison linéaire de ces deux « facteurs ». Les nombres pour un sujet particulier, par lesquels les deux types d'intelligence sont multipliés pour obtenir le score attendu, sont posés par l'hypothèse comme étant les mêmes pour toutes les paires de niveaux d'intelligence, et sont appelés "facteur de chargement" pour ce sujet. [ éclaircissements nécessaires ] Par exemple, l'hypothèse peut tenir que l'aptitude moyenne prédite de l'étudiant dans le domaine de l'astronomie est

Les nombres 10 et 6 sont les saturations factorielles associées à l'astronomie. D'autres matières académiques peuvent avoir des saturations factorielles différentes.

Deux étudiants supposés avoir des degrés identiques d'intelligence verbale et mathématique peuvent avoir des aptitudes mesurées différentes en astronomie parce que les aptitudes individuelles diffèrent des aptitudes moyennes (prédites ci-dessus) et à cause de l'erreur de mesure elle-même. De telles différences constituent ce que l'on appelle collectivement « l'erreur » - un terme statistique qui signifie la quantité par laquelle un individu, tel que mesuré, diffère de ce qui est moyen ou prédit par ses niveaux d'intelligence (voir erreurs et résidus dans les statistiques ).

Les données observables qui entrent dans l'analyse factorielle seraient 10 scores de chacun des 1000 élèves, un total de 10 000 nombres. Les saturations factorielles et les niveaux des deux types d'intelligence de chaque élève doivent être déduits des données.

Modèle mathématique du même exemple Modifier

et la variance de l'échantillon est donnée par :

Le modèle d'analyse factorielle pour cet échantillon particulier est alors :

Notez que, puisque toute rotation d'une solution est également une solution, cela rend l'interprétation des facteurs difficile. Voir les inconvénients ci-dessous. Dans cet exemple particulier, si nous ne savons pas à l'avance que les deux types d'intelligence ne sont pas corrélés, alors nous ne pouvons pas interpréter les deux facteurs comme les deux types différents d'intelligence. Même s'ils ne sont pas corrélés, on ne peut pas dire quel facteur correspond à l'intelligence verbale et lequel correspond à l'intelligence mathématique sans un argument extérieur.

Cela équivaut à minimiser les composantes hors diagonale de la covariance d'erreur qui, dans les équations du modèle, ont des valeurs attendues de zéro. Ceci doit être mis en contraste avec l'analyse en composantes principales qui cherche à minimiser l'erreur quadratique moyenne de tous les résidus. [2] Avant l'avènement des ordinateurs à grande vitesse, des efforts considérables ont été consacrés à la recherche de solutions approximatives au problème, en particulier en estimant les communautés par d'autres moyens, ce qui simplifie considérablement le problème en produisant une matrice de corrélation réduite connue. Cela a ensuite été utilisé pour estimer les facteurs et les charges. Avec l'avènement des ordinateurs à grande vitesse, le problème de minimisation peut être résolu de manière itérative avec une vitesse adéquate, et les communautés sont calculées dans le processus, plutôt que d'être nécessaires à l'avance. L'algorithme MinRes est particulièrement adapté à ce problème, mais n'est pas le seul moyen itératif de trouver une solution.

Si les facteurs de solution peuvent être corrélés (comme dans la rotation « oblimin », par exemple), alors le modèle mathématique correspondant utilise des coordonnées asymétriques plutôt que des coordonnées orthogonales.

Interprétation géométrique Modifier

Le but de l'analyse factorielle est de choisir l'hyperplan d'ajustement de telle sorte que la matrice de corrélation réduite reproduise le plus fidèlement possible la matrice de corrélation, à l'exception des éléments diagonaux de la matrice de corrélation dont on sait qu'ils ont une valeur unitaire. En d'autres termes, le but est de reproduire le plus fidèlement possible les corrélations croisées dans les données. Plus précisément, pour l'hyperplan d'ajustement, l'erreur quadratique moyenne dans les composants hors diagonale

doit être minimisé, et ceci est accompli en le minimisant par rapport à un ensemble de vecteurs de facteurs orthonormés. On peut voir que

Le terme de droite est juste la covariance des erreurs. Dans le modèle, la covariance d'erreur est indiquée comme étant une matrice diagonale et donc le problème de minimisation ci-dessus donnera en fait un « meilleur ajustement » au modèle : il donnera un échantillon d'estimation de la covariance d'erreur qui a ses composantes hors diagonale minimisé au sens quadratique moyen. On voit que depuis le z ^ a >_> sont des projections orthogonales des vecteurs de données, leur longueur sera inférieure ou égale à la longueur du vecteur de données projeté, qui est l'unité. Le carré de ces longueurs ne sont que les éléments diagonaux de la matrice de corrélation réduite. Ces éléments diagonaux de la matrice de corrélation réduite sont appelés « communautés » :

De grandes valeurs des communités indiqueront que l'hyperplan d'ajustement reproduit assez fidèlement la matrice de corrélation. Les valeurs moyennes des facteurs doivent également être contraintes à être nulles, d'où il résulte que les valeurs moyennes des erreurs seront également nulles.

Types d'analyse factorielle Modifier

Analyse factorielle exploratoire Modifier

L'analyse factorielle exploratoire (EFA) est utilisée pour identifier les interrelations complexes entre les éléments et les éléments de groupe qui font partie de concepts unifiés. [3] Le chercheur ne fait aucune a priori hypothèses sur les relations entre les facteurs. [3]

Analyse factorielle confirmatoire Modifier

L'analyse factorielle confirmatoire (AFC) est une approche plus complexe qui teste l'hypothèse selon laquelle les éléments sont associés à des facteurs spécifiques. [3] CFA utilise la modélisation par équation structurelle pour tester un modèle de mesure dans lequel le chargement sur les facteurs permet d'évaluer les relations entre les variables observées et les variables non observées. [3] Les approches de modélisation par équation structurelle peuvent s'adapter aux erreurs de mesure et sont moins restrictives que l'estimation par les moindres carrés. [3] Les modèles hypothétiques sont testés par rapport aux données réelles, et l'analyse démontrerait les charges des variables observées sur les variables latentes (facteurs), ainsi que la corrélation entre les variables latentes. [3]

Types d'extraction de facteurs Modifier

L'analyse en composantes principales (ACP) est une méthode largement utilisée pour l'extraction de facteurs, qui est la première phase de l'EPT. [3] Les pondérations factorielles sont calculées pour extraire la variance maximale possible, la factorisation successive se poursuivant jusqu'à ce qu'il ne reste plus de variance significative. [3] Le modèle factoriel doit ensuite subir une rotation pour l'analyse. [3]

L'analyse factorielle canonique, également appelée factorisation canonique de Rao, est une méthode différente de calcul du même modèle que l'ACP, qui utilise la méthode de l'axe principal. L'analyse factorielle canonique recherche les facteurs qui ont la corrélation canonique la plus élevée avec les variables observées. L'analyse factorielle canonique n'est pas affectée par le redimensionnement arbitraire des données.

L'analyse factorielle commune, également appelée analyse factorielle principale (PFA) ou factorisation de l'axe principal (PAF), recherche le moins de facteurs pouvant expliquer la variance commune (corrélation) d'un ensemble de variables.

La factorisation d'images est basée sur la matrice de corrélation des variables prédites plutôt que sur les variables réelles, où chaque variable est prédite à partir des autres à l'aide d'une régression multiple.

La factorisation alpha est basée sur la maximisation de la fiabilité des facteurs, en supposant que les variables sont échantillonnées au hasard à partir d'un univers de variables. Toutes les autres méthodes supposent que les cas sont échantillonnés et les variables fixées.

Le modèle de régression factorielle est un modèle combinatoire de modèle factoriel et de modèle de régression ou alternativement, il peut être considéré comme le modèle factoriel hybride, [4] dont les facteurs sont partiellement connus.

Terminologie Modifier

Charges factorielles : la communauté est le carré de la charge externe normalisée d'un élément. De manière analogue au r au carré de Pearson, la charge factorielle au carré est le pourcentage de la variance de cette variable indicatrice expliquée par le facteur. Pour obtenir le pourcentage de variance dans toutes les variables prises en compte par chaque facteur, ajoutez la somme des pondérations factorielles au carré pour ce facteur (colonne) et divisez par le nombre de variables. (Notez que le nombre de variables est égal à la somme de leurs variances car la variance d'une variable standardisée est de 1.) Cela revient à diviser la valeur propre du facteur par le nombre de variables.

Interprétation des pondérations factorielles : En règle générale dans l'analyse factorielle confirmatoire, les pondérations devraient être de 0,7 ou plus pour confirmer que les variables indépendantes identifiées a priori sont représentées par un facteur particulier, au motif que le niveau 0,7 correspond à environ la moitié de la la variance de l'indicateur étant expliquée par le facteur. Cependant, la norme .7 est élevée et les données réelles peuvent très bien ne pas répondre à ce critère, c'est pourquoi certains chercheurs, notamment à des fins exploratoires, utiliseront un niveau inférieur tel que .4 pour le facteur central et .25 pour le facteur central. autres facteurs. En tout état de cause, les saturations factorielles doivent être interprétées à la lumière de la théorie, et non par des seuils arbitraires.

En rotation oblique, on peut examiner à la fois une matrice de modèle et une matrice de structure. La matrice de structure est simplement la matrice de chargement de facteur comme dans la rotation orthogonale, représentant la variance d'une variable mesurée expliquée par un facteur à la fois sur la base des contributions uniques et communes. La matrice de modèle, en revanche, contient des coefficients qui ne représentent que des contributions uniques. En règle générale, plus il y a de facteurs, plus les coefficients de modèle sont faibles, car il y aura plus de contributions communes à la variance expliquée. Pour la rotation oblique, le chercheur examine à la fois les coefficients de structure et de motif lorsqu'il attribue une étiquette à un facteur. Les principes de la rotation oblique peuvent être dérivés à la fois de l'entropie croisée et de sa double entropie. [5]

Communauté : La somme des pondérations factorielles au carré pour tous les facteurs pour une variable donnée (ligne) est la variance de cette variable représentée par tous les facteurs. La communauté mesure le pourcentage de variance dans une variable donnée expliquée par tous les facteurs conjointement et peut être interprétée comme la fiabilité de l'indicateur dans le contexte des facteurs posés.

Solutions fallacieuses : Si la communauté dépasse 1,0, il y a une fausse solution, qui peut refléter un échantillon trop petit ou le choix d'extraire trop ou trop peu de facteurs.

Unicité d'une variable : La variabilité d'une variable moins sa communauté.

Valeurs propres/racines caractéristiques : les valeurs propres mesurent la quantité de variation dans l'échantillon total représentée par chaque facteur. Le rapport des valeurs propres est le rapport d'importance explicative des facteurs par rapport aux variables. Si un facteur a une valeur propre faible, alors il contribue peu à l'explication des variances dans les variables et peut être ignoré comme moins important que les facteurs avec des valeurs propres plus élevées.

Sommes d'extraction des chargements au carré : les valeurs propres initiales et les valeurs propres après extraction (répertoriées par SPSS comme « Sommes d'extraction des chargements au carré ») sont les mêmes pour l'extraction PCA, mais pour les autres méthodes d'extraction, les valeurs propres après extraction seront inférieures à leurs homologues initiales. SPSS imprime également les "Sommes de rotation des chargements au carré" et même pour PCA, ces valeurs propres seront différentes des valeurs propres initiales et d'extraction, bien que leur total soit le même.

Scores factoriels (également appelés scores composants dans l'ACP) : sont les scores de chaque cas (ligne) sur chaque facteur (colonne). Pour calculer le score factoriel pour un cas donné pour un facteur donné, on prend le score standardisé du cas sur chaque variable, multiplie par les chargements correspondants de la variable pour le facteur donné, et additionne ces produits. Le calcul des scores factoriels permet de rechercher les valeurs aberrantes des facteurs. De plus, les scores factoriels peuvent être utilisés comme variables dans la modélisation ultérieure. (Expliqué à partir de l'ACP et non du point de vue de l'analyse factorielle).

Critères pour déterminer le nombre de facteurs Modifier

Les chercheurs souhaitent éviter les critères subjectifs ou arbitraires de rétention des facteurs tels que « cela me paraissait logique ». Un certain nombre de méthodes objectives ont été développées pour résoudre ce problème, permettant aux utilisateurs de déterminer une gamme appropriée de solutions à étudier. [6] Les méthodes peuvent ne pas convenir. Par exemple, l'analyse parallèle peut suggérer 5 facteurs tandis que le MAP de Velicer en suggère 6, de sorte que le chercheur peut demander des solutions à 5 et 6 facteurs et discuter de chacun en fonction de leur relation avec les données externes et la théorie.

Critères modernes Modifier

Analyse parallèle de Horn (AP) : [7] Une méthode de simulation basée sur Monte-Carlo qui compare les valeurs propres observées avec celles obtenues à partir de variables normales non corrélées. Un facteur ou une composante est retenu si la valeur propre associée est supérieure au 95e centile de la distribution des valeurs propres dérivées des données aléatoires. PA fait partie des règles les plus couramment recommandées pour déterminer le nombre de composants à conserver, [6] [8] mais de nombreux programmes n'incluent pas cette option (une exception notable étant R). [9] Cependant, Formann a fourni des preuves à la fois théoriques et empiriques que son application pourrait ne pas être appropriée dans de nombreux cas, car ses performances sont considérablement influencées par la taille de l'échantillon, la discrimination des éléments et le type de coefficient de corrélation. [dix]

Le test MAP de Velicer (1976) [11] tel que décrit par Courtney (2013) [12] « implique une analyse complète en composantes principales suivie de l'examen d'une série de matrices de corrélations partielles » (p. 397 (notez cependant que cette citation ne ne se produisent pas dans Velicer (1976) et le numéro de page cité est en dehors des pages de la citation. La corrélation au carré pour l'étape « 0 » (voir la figure 4) est la corrélation moyenne hors diagonale au carré pour la matrice de corrélation non partielle. 1, la première composante principale et ses éléments associés sont supprimés. Par la suite, la corrélation hors diagonale quadratique moyenne pour la matrice de corrélation suivante est ensuite calculée pour l'étape 1. À l'étape 2, les deux premières composantes principales sont supprimées et le résultat la corrélation hors diagonale moyenne quadratique est à nouveau calculée. Les calculs sont effectués pour k moins un pas (k représentant le nombre total de variables dans la matrice). Ensuite, toutes les corrélations quadratiques moyennes pour chaque s tep sont alignés et le nombre de pas dans les analyses qui ont abouti à la corrélation partielle quadratique moyenne la plus faible détermine le nombre de composants ou de facteurs à retenir. [11] Par cette méthode, les composantes sont maintenues tant que la variance dans la matrice de corrélation représente la variance systématique, par opposition à la variance résiduelle ou d'erreur. Bien que méthodologiquement similaire à l'analyse en composantes principales, la technique MAP s'est avérée assez efficace pour déterminer le nombre de facteurs à retenir dans plusieurs études de simulation. [6] [13] [14] [15] Cette procédure est disponible via l'interface utilisateur de SPSS, [12] ainsi que le psy package pour le langage de programmation R. [16] [17]

Méthodes plus anciennes Modifier

Critère de Kaiser : La règle de Kaiser consiste à supprimer tous les composants dont les valeurs propres sont inférieures à 1,0 – la valeur propre étant égale à l'information prise en compte par un élément unique moyen. [18] Le critère de Kaiser est le critère par défaut dans SPSS et la plupart des logiciels statistiques, mais n'est pas recommandé lorsqu'il est utilisé comme seul critère de coupure pour estimer le nombre de facteurs car il a tendance à sur-extraire les facteurs. [19] Une variante de cette méthode a été créée où un chercheur calcule des intervalles de confiance pour chaque valeur propre et ne retient que les facteurs dont l'intervalle de confiance entier est supérieur à 1,0. [13] [20]

Diagramme en éboulis : [21] Le test en éboulis de Cattell trace les composants sur l'axe X et les valeurs propres correspondantes sur l'axe Y. Au fur et à mesure que l'on se déplace vers la droite, vers les composants ultérieurs, les valeurs propres chutent. Lorsque la chute cesse et que la courbe forme un coude vers une baisse moins abrupte, le test d'éboulis de Cattell indique de supprimer tous les autres composants après celui commençant au coude. Cette règle est parfois critiquée pour se prêter à un "truquage" contrôlé par les chercheurs. C'est-à-dire que le choix du "coude" peut être subjectif car la courbe a plusieurs coudes ou est une courbe lisse, le chercheur peut être tenté de fixer le seuil au nombre de facteurs souhaités par son programme de recherche. [ citation requise ]

Critères expliqués par la variance : certains chercheurs utilisent simplement la règle consistant à conserver suffisamment de facteurs pour expliquer 90 % (parfois 80 %) de la variation. Lorsque l'objectif du chercheur met l'accent sur la parcimonie (expliquer la variance avec le moins de facteurs possible), le critère peut être aussi bas que 50 %.

Méthode bayésienne Modifier

Une approche bayésienne basée sur le processus de buffet indien renvoie une distribution de probabilité sur le nombre plausible de facteurs latents. [22]

Méthodes de rotation Modifier

La sortie non tournée maximise la variance représentée par le premier facteur et les facteurs suivants, et force les facteurs à être orthogonaux. Cette compression de données se fait au prix de la charge de la plupart des éléments sur les premiers facteurs, et généralement, du fait que de nombreux éléments se chargent considérablement sur plus d'un facteur. La rotation sert à rendre la sortie plus compréhensible, en recherchant ce que l'on appelle la « structure simple » : un modèle de chargements où chaque élément se charge fortement sur un seul des facteurs, et beaucoup plus faiblement sur les autres facteurs. Les rotations peuvent être orthogonales ou obliques (permettant aux facteurs de se corréler).

La rotation Varimax est une rotation orthogonale des axes factoriels pour maximiser la variance des chargements au carré d'un facteur (colonne) sur toutes les variables (lignes) d'une matrice factorielle, ce qui a pour effet de différencier les variables d'origine par facteur extrait. Chaque facteur aura tendance à avoir des poids importants ou faibles pour une variable particulière. Une solution varimax donne des résultats qui permettent d'identifier aussi facilement que possible chaque variable avec un seul facteur. C'est l'option de rotation la plus courante. Cependant, l'orthogonalité (c'est-à-dire l'indépendance) des facteurs est souvent une hypothèse irréaliste. Les rotations obliques incluent la rotation orthogonale, et pour cette raison, les rotations obliques sont une méthode préférée. Tenir compte de facteurs corrélés les uns aux autres est particulièrement applicable dans la recherche psychométrique, car les attitudes, les opinions et les capacités intellectuelles ont tendance à être corrélées, et puisqu'il serait irréaliste dans de nombreuses situations de supposer le contraire. [23]

La rotation quartimax est une alternative orthogonale qui minimise le nombre de facteurs nécessaires pour expliquer chaque variable. Ce type de rotation génère souvent un facteur général sur lequel la plupart des variables sont chargées à un degré élevé ou moyen. Une telle structure factorielle n'est généralement pas utile à l'objectif de la recherche.

La rotation Equimax est un compromis entre les critères varimax et quartimax.

La rotation oblimin directe est la méthode standard lorsque l'on souhaite une solution non orthogonale (oblique), c'est-à-dire une solution dans laquelle les facteurs peuvent être corrélés. Cela se traduira par des valeurs propres plus élevées mais une interprétabilité réduite des facteurs. Voir ci-dessous. [ éclaircissements nécessaires ]

La rotation Promax est une méthode alternative de rotation non orthogonale (oblique) qui est plus rapide en termes de calcul que la méthode directe oblimin et est donc parfois utilisée pour de très grands ensembles de données.

Analyse factorielle d'ordre supérieur Modifier

Analyse factorielle d'ordre supérieur est une méthode statistique consistant à répéter les étapes de l'analyse factorielle – rotation oblique – analyse factorielle des facteurs pivotés. Son mérite est de permettre au chercheur de voir la structure hiérarchique des phénomènes étudiés. Pour interpréter les résultats, on procède soit en post-multipliant la matrice de modèles de facteurs primaires par les matrices de modèles de facteurs d'ordre supérieur (Gorsuch, 1983) et peut-être en appliquant une rotation Varimax au résultat (Thompson, 1990) ou en utilisant une méthode de Schmid- Solution de Leiman (SLS, Schmid & Leiman, 1957, également connue sous le nom de transformation de Schmid-Leiman) qui attribue la variation des facteurs primaires aux facteurs de second ordre.

Historique Modifier

Charles Spearman a été le premier psychologue à discuter de l'analyse factorielle commune [24] et l'a fait dans son article de 1904. [25] Il a fourni peu de détails sur ses méthodes et s'est intéressé aux modèles à un seul facteur. [26] Il a découvert que les scores des écoliers sur une grande variété de sujets apparemment sans rapport étaient positivement corrélés, ce qui l'a amené à postuler qu'une seule capacité mentale générale, ou g, sous-tend et façonne les performances cognitives humaines.

Le développement initial de l'analyse factorielle commune avec des facteurs multiples a été donné par Louis Thurstone dans deux articles au début des années 1930, [27] [28] résumé dans son livre de 1935, Le vecteur de l'esprit. [29] Thurstone a introduit plusieurs concepts d'analyse factorielle importants, y compris la communauté, l'unicité et la rotation. [30] Il a plaidé pour une "structure simple" et a développé des méthodes de rotation qui pourraient être utilisées comme un moyen d'atteindre une telle structure. [24]

Dans la méthodologie Q, Stephenson, un étudiant de Spearman, distingue entre R l'analyse factorielle, orientée vers l'étude des différences interindividuelles, et Q analyse factorielle orientée vers les différences intra-individuelles subjectives. [31] [32]

Raymond Cattell était un ardent défenseur de l'analyse factorielle et de la psychométrie et a utilisé la théorie multifactorielle de Thurstone pour expliquer l'intelligence. Cattell a également développé le test de "scree" et les coefficients de similarité.

Applications en psychologie Modifier

L'analyse factorielle est utilisée pour identifier les « facteurs » qui expliquent une variété de résultats sur différents tests. Par exemple, des recherches sur le renseignement ont révélé que les personnes qui obtiennent un score élevé à un test d'aptitude verbale sont également bonnes à d'autres tests nécessitant des aptitudes verbales. Les chercheurs ont expliqué cela en utilisant l'analyse factorielle pour isoler un facteur, souvent appelé intelligence verbale, qui représente le degré auquel une personne est capable de résoudre des problèmes impliquant des compétences verbales.

L'analyse factorielle en psychologie est le plus souvent associée à la recherche sur le renseignement. Cependant, il a également été utilisé pour trouver des facteurs dans un large éventail de domaines tels que la personnalité, les attitudes, les croyances, etc. Il est lié à la psychométrie, car il peut évaluer la validité d'un instrument en déterminant si l'instrument mesure effectivement le postulat les facteurs.

L'analyse factorielle est une technique fréquemment utilisée dans la recherche interculturelle. Il sert à extraire les dimensions culturelles. Les modèles de dimensions culturelles les plus connus sont ceux élaborés par Geert Hofstede, Ronald Inglehart, Christian Welzel, Shalom Schwartz et Michael Minkov.

Avantages Modifier

  • Réduction du nombre de variables, en combinant deux ou plusieurs variables en un seul facteur. Par exemple, les performances à la course, au lancer de balle, au bâton, au saut et à l'haltérophilie pourraient être combinées en un seul facteur tel que la capacité athlétique générale. Habituellement, dans une matrice élément par personne, les facteurs sont sélectionnés en regroupant les éléments liés. Dans la technique d'analyse factorielle Q, la matrice est transposée et les facteurs sont créés en regroupant des personnes apparentées. Par exemple, les libéraux, les libertaires, les conservateurs et les socialistes pourraient former des groupes séparés.
  • Identification de groupes de variables interdépendantes, pour voir comment elles sont liées les unes aux autres. Par exemple, Carroll a utilisé l'analyse factorielle pour construire sa théorie des trois strates. Il a découvert qu'un facteur appelé "perception visuelle large" se rapporte à la qualité d'un individu dans les tâches visuelles. Il a également trouvé un facteur de « perception auditive large », lié à la capacité de tâche auditive. De plus, il a trouvé un facteur global, appelé "g" ou intelligence générale, qui se rapporte à la fois à la "perception visuelle large" et à la "perception auditive large".Cela signifie qu'une personne avec un « g » élevé est susceptible d'avoir à la fois une capacité de « perception visuelle » élevée et une capacité de « perception auditive » élevée, et que « g » explique donc en grande partie pourquoi quelqu'un est bon ou mauvais dans les deux cas. ces domaines.

Inconvénients Modifier

  • ". chaque orientation est également acceptable mathématiquement. Mais différentes théories factorielles se sont avérées différer autant en termes d'orientations d'axes factoriels pour une solution donnée qu'en termes d'autre chose, de sorte que l'ajustement du modèle ne s'est pas avéré utile pour distinguer entre théories." (Sternberg, 1977 [33] ). Cela signifie que toutes les rotations représentent des processus sous-jacents différents, mais toutes les rotations sont des résultats également valables de l'optimisation de l'analyse factorielle standard. Par conséquent, il est impossible de choisir la bonne rotation en utilisant uniquement l'analyse factorielle.
  • L'analyse factorielle ne peut être aussi bonne que les données le permettent. En psychologie, où les chercheurs doivent souvent s'appuyer sur des mesures moins valides et fiables telles que les auto-évaluations, cela peut être problématique.
  • L'interprétation de l'analyse factorielle repose sur l'utilisation d'une « heuristique », qui est une solution « pratique même si elle n'est pas absolument vraie ». [34] Plus d'une interprétation peut être faite des mêmes données factorisées de la même manière, et l'analyse factorielle ne peut pas identifier la causalité.

L'analyse factorielle est liée à l'analyse en composantes principales (ACP), mais les deux ne sont pas identiques. [35] Il y a eu une controverse importante dans le domaine sur les différences entre les deux techniques. L'ACP peut être considérée comme une version plus basique de l'analyse factorielle exploratoire (EFA) qui a été développée dans les premiers jours avant l'avènement des ordinateurs à grande vitesse. L'ACP et l'analyse factorielle visent toutes deux à réduire la dimensionnalité d'un ensemble de données, mais les approches adoptées pour ce faire sont différentes pour les deux techniques. L'analyse factorielle est clairement conçue avec l'objectif d'identifier certains facteurs non observables à partir des variables observées, alors que l'ACP ne répond pas directement à cet objectif au mieux, l'ACP fournit une approximation des facteurs requis. [36] Du point de vue de l'analyse exploratoire, les valeurs propres de l'ACP sont des chargements de composants gonflés, c'est-à-dire contaminés par la variance d'erreur. [37] [38] [39] [40] [41] [42]

Alors que l'EFA et l'ACP sont traités comme des techniques synonymes dans certains domaines de la statistique, cela a été critiqué. [43] [44] L'analyse factorielle « traite l'hypothèse d'une structure causale sous-jacente: [elle] suppose que la covariation des variables observées est due à la présence d'une ou plusieurs variables latentes (facteurs) qui exercent une influence causale sur ces variables observées". [45] En revanche, l'ACP ne suppose ni ne dépend d'une telle relation causale sous-jacente. Les chercheurs ont fait valoir que les distinctions entre les deux techniques peuvent signifier qu'il y a des avantages objectifs à préférer l'une à l'autre en fonction de l'objectif analytique. Si le modèle factoriel est mal formulé ou si les hypothèses ne sont pas remplies, alors l'analyse factorielle donnera des résultats erronés. L'analyse factorielle a été utilisée avec succès lorsqu'une compréhension adéquate du système permet de bonnes formulations initiales du modèle. L'ACP utilise une transformation mathématique des données d'origine sans hypothèse sur la forme de la matrice de covariance. L'objectif de l'ACP est de déterminer combinaisons linéaires des variables d'origine et en sélectionner quelques-unes qui peuvent être utilisées pour résumer l'ensemble de données sans perdre beaucoup en formation. [46]

Arguments opposant l'APC et l'EFA Modifier

Fabrice et al. (1999) [43] abordent un certain nombre de raisons invoquées pour suggérer que l'ACP n'est pas équivalente à l'analyse factorielle :

  1. Il est parfois suggéré que l'ACP est plus rapide en termes de calcul et nécessite moins de ressources que l'analyse factorielle. Fabrice et al. suggèrent que les ressources informatiques facilement disponibles ont rendu cette préoccupation pratique non pertinente.
  2. L'ACP et l'analyse factorielle peuvent produire des résultats similaires. Ce point est également abordé par Fabrigar et al. dans certains cas, où les communalités sont faibles (par exemple 0,4), les deux techniques produisent des résultats divergents. En effet, Fabrice et al. soutiennent que dans les cas où les données correspondent aux hypothèses du modèle à facteurs communs, les résultats de l'ACP sont des résultats inexacts.
  3. Dans certains cas, l'analyse factorielle conduit à des « cas Heywood ». Celles-ci englobent des situations dans lesquelles 100 % ou plus de la variance d'une variable mesurée est estimée être prise en compte par le modèle. Fabrice et al. suggèrent que ces cas sont en fait informatifs pour le chercheur, indiquant un modèle incorrectement spécifié ou une violation du modèle à facteurs communs. L'absence de cas Heywood dans l'approche PCA peut signifier que de tels problèmes passent inaperçus.
  4. Les chercheurs obtiennent des informations supplémentaires à partir d'une approche ACP, comme le score d'un individu sur un certain composant, ces informations ne sont pas fournies par l'analyse factorielle. Cependant, comme Fabrigar et al. soutiennent, l'objectif typique de l'analyse factorielle - c'est-à-dire déterminer les facteurs expliquant la structure des corrélations entre les variables mesurées - ne nécessite pas la connaissance des scores factoriels et donc cet avantage est annulé. Il est également possible de calculer des scores factoriels à partir d'une analyse factorielle.

Variance contre covariance Modifier

L'analyse factorielle prend en compte l'erreur aléatoire inhérente à la mesure, alors que l'ACP ne le fait pas. Ce point est illustré par Brown (2009), [47] qui a indiqué que, en ce qui concerne les matrices de corrélation impliquées dans les calculs :

"Dans l'ACP, les 1,00 sont mis en diagonale, ce qui signifie que toute la variance de la matrice doit être prise en compte (y compris la variance unique à chaque variable, la variance commune aux variables et la variance d'erreur). Ce serait donc, par définition , incluent toute la variance dans les variables. En revanche, dans EFA, les communalités sont mises en diagonale ce qui signifie que seule la variance partagée avec d'autres variables doit être prise en compte (hors variance propre à chaque variable et variance d'erreur). inclurait donc, par définition, uniquement la variance qui est commune entre les variables. »

Pour cette raison, Brown (2009) recommande d'utiliser l'analyse factorielle lorsque des idées théoriques sur les relations entre les variables existent, alors que l'ACP devrait être utilisée si l'objectif du chercheur est d'explorer des modèles dans leurs données.

Différences de procédure et de résultats Modifier

Les différences entre l'ACP et l'analyse factorielle (AF) sont illustrées plus en détail par Suhr (2009) : [44]

  • L'ACP donne des composantes principales qui représentent une quantité maximale de variance pour les variables observées FA représente commun variance dans les données.
  • L'ACP insère des uns sur les diagonales de la matrice de corrélation FA ajuste les diagonales de la matrice de corrélation avec les facteurs uniques.
  • L'ACP minimise la somme des carrés de la distance perpendiculaire à l'axe des composantes FA estime les facteurs qui influencent les réponses sur les variables observées.
  • Les scores des composants dans l'ACP représentent une combinaison linéaire des variables observées pondérées par des vecteurs propres, les variables observées dans FA sont des combinaisons linéaires des facteurs sous-jacents et uniques.
  • Dans l'ACP, les composants produits sont ininterprétables, c'est-à-dire qu'ils ne représentent pas les « constructions » sous-jacentes dans FA, les constructions sous-jacentes peuvent être étiquetées et facilement interprétées, étant donné une spécification de modèle précise.
  • Identifiez les attributs saillants que les consommateurs utilisent pour évaluer les produits de cette catégorie.
  • Utilisez des techniques de recherche marketing quantitatives (telles que des enquêtes) pour collecter des données auprès d'un échantillon de clients potentiels concernant leurs évaluations de tous les attributs du produit.
  • Saisissez les données dans un programme statistique et exécutez la procédure d'analyse factorielle. L'ordinateur produira un ensemble d'attributs (ou facteurs) sous-jacents.
  • Utilisez ces facteurs pour construire des cartes perceptives et d'autres dispositifs de positionnement de produits.

Collecte d'informations Modifier

L'étape de collecte des données est généralement effectuée par des professionnels de la recherche marketing. Les questions de l'enquête demandent au répondant d'évaluer un échantillon de produit ou des descriptions de concepts de produit sur une gamme d'attributs. De cinq à vingt attributs sont choisis. Ils peuvent inclure des éléments tels que la facilité d'utilisation, le poids, la précision, la durabilité, la couleur, le prix ou la taille. Les attributs choisis varieront en fonction du produit étudié. La même question est posée pour tous les produits de l'étude. Les données de plusieurs produits sont codées et saisies dans un programme statistique tel que R, SPSS, SAS, Stata, STATISTICA, JMP et SYSTAT.

Analyse Modifier

L'analyse isolera les facteurs sous-jacents qui expliquent les données à l'aide d'une matrice d'associations. [48] ​​L'analyse factorielle est une technique d'interdépendance. L'ensemble complet des relations interdépendantes est examiné. Il n'y a pas de spécification de variables dépendantes, de variables indépendantes ou de causalité. L'analyse factorielle suppose que toutes les données d'évaluation sur différents attributs peuvent être réduites à quelques dimensions importantes. Cette réduction est possible car certains attributs peuvent être liés les uns aux autres. La note attribuée à un attribut est en partie le résultat de l'influence d'autres attributs. L'algorithme statistique déconstruit la notation (appelée score brut) en ses différentes composantes et reconstruit les scores partiels en scores factoriels sous-jacents. Le degré de corrélation entre le score brut initial et le score factoriel final est appelé un facteur de chargement.

Avantages Modifier

  • Les attributs objectifs et subjectifs peuvent être utilisés à condition que les attributs subjectifs puissent être convertis en scores.
  • L'analyse factorielle peut identifier des dimensions ou des constructions latentes que l'analyse directe ne peut pas.
  • C'est facile et pas cher.

Inconvénients Modifier

  • L'utilité dépend de la capacité des chercheurs à collecter un ensemble suffisant d'attributs de produits. Si des attributs importants sont exclus ou négligés, la valeur de la procédure est réduite.
  • Si les ensembles de variables observées sont très similaires les uns aux autres et distincts des autres éléments, l'analyse factorielle leur attribuera un seul facteur. Cela peut masquer des facteurs qui représentent des relations plus intéressantes. [éclaircissements nécessaires]
  • Les facteurs de nommage peuvent nécessiter des connaissances théoriques, car des attributs apparemment dissemblables peuvent être fortement corrélés pour des raisons inconnues.

L'analyse factorielle a également été largement utilisée dans les sciences physiques telles que la géochimie, l'hydrochimie, [49] l'astrophysique et la cosmologie, ainsi que dans les sciences biologiques, telles que l'écologie, la biologie moléculaire, les neurosciences et la biochimie.

Dans la gestion de la qualité des eaux souterraines, il est important de relier la distribution spatiale de différents paramètres chimiques à différentes sources possibles, qui ont des signatures chimiques différentes. Par exemple, une mine de sulfures est susceptible d'être associée à des niveaux élevés d'acidité, de sulfates dissous et de métaux de transition. Ces signatures peuvent être identifiées comme des facteurs grâce à l'analyse factorielle en mode R, et l'emplacement des sources possibles peut être suggéré en définissant les scores des facteurs. [50]

En géochimie, différents facteurs peuvent correspondre à différentes associations minérales, et donc à une minéralisation. [51]

L'analyse factorielle peut être utilisée pour résumer les données des puces à ADN d'oligonucléotides haute densité au niveau de la sonde pour Affymetrix GeneChips. Dans ce cas, la variable latente correspond à la concentration d'ARN dans un échantillon. [52]

L'analyse factorielle a été mise en œuvre dans plusieurs programmes d'analyse statistique depuis les années 1980 :


Intégration fonctionnelle

Conceptions multifactorielles

Les plans factoriels combinent deux facteurs ou plus au sein d'une tâche ou de tâches. Les plans factoriels peuvent être interprétés comme la réalisation d'expériences de soustraction dans deux ou plusieurs contextes différents. Les différences d'activations, attribuables aux effets de contexte, sont simplement l'interaction. Considérez une expérience de reconnaissance d'objet implicite, par exemple nommer (du nom de l'objet ou de la couleur du non-objet) et simplement dire « oui » lors de la visualisation passive d'objets et de non-objets. Les facteurs dans cet exemple sont la reconnaissance implicite d'objets à deux niveaux (objets versus non-objets) et la récupération phonologique (nommer versus dire « oui »). L'idée ici est d'examiner l'interaction entre ces facteurs, ou l'effet qu'un facteur a sur les réponses suscitées par les changements dans l'autre. Dans notre expérience, des réponses spécifiques à un objet sont obtenues (en demandant aux sujets de voir des objets par rapport à des formes dépourvues de sens), avec et sans récupération phonologique. Cette conception « deux par deux » permet d'examiner l'interaction entre la récupération phonologique et la reconnaissance d'objets. Cette analyse n'identifie pas des activations spécifiques à une région, mais des activations spécifiques à une région interactions. Lorsque nous avons réalisé cette expérience, ces interactions étaient évidentes dans la région temporale inférieure postérieure gauche et peuvent être associées à l'intégration de la phonologie et de la reconnaissance d'objets (voir Figure 36.4 et Friston et al., 1996 pour plus de détails). Alternativement, cette région peut être considérée comme exprimant des réponses dépendantes de la reconnaissance qui sont réalisées dans, et seulement dans, le contexte de devoir nommer l'objet. Ces résultats peuvent être interprétés comme la preuve d'une spécialisation contextuelle pour la reconnaissance d'objets qui dépend des afférences modulatrices (éventuellement des régions temporelles et pariétales) qui sont impliquées dans la désignation d'un objet visuellement perçu. Il n'y a aucune preuve empirique dans ces résultats pour suggérer que les régions temporelles ou pariétales soient la source de cette influence descendante mais, dans l'exemple suivant, la source de modulation est abordée explicitement à l'aide d'interactions psychophysiologiques.

FIGURE 36.4 . Cet exemple d'interactions spécifiques à une région provient d'une expérience où il a été demandé aux sujets de visualiser des formes non-objets colorées ou des objets colorés et de dire « oui », ou de nommer soit l'objet coloré, soit la couleur de la forme. A gauche : une interaction régionalement spécifique dans le cortex inféro-temporal gauche. Le seuil SPM (Statistical Parametric Map) est p &lt 0.05 (non corrigé). A droite : les activités correspondantes dans les maxima de cette région sont représentées en termes de réponses dépendantes de la reconnaissance d'objets avec et sans dénomination. On voit que cette région montre des réponses de reconnaissance d'objet quand, et seulement quand, il y a récupération phonologique. L'activation « supplémentaire » avec nommage correspond à l'interaction. Ces données ont été acquises à partir de six sujets scannés 12 fois à l'aide de la TEP.


Chapitre 9 ANOVA factorielle

Nous sommes arrivés à la chose la plus compliquée dont nous allons discuter dans cette classe. Malheureusement, nous devons vous avertir que vous pourriez trouver ce prochain truc un peu compliqué. Peut-être pas, et ce serait génial ! Nous ferons de notre mieux pour présenter les problèmes de différentes manières, afin que vous disposiez de quelques outils différents pour vous aider à comprendre le problème.

C'est quoi ce problème si compliqué ? Eh bien, la première partie n'est pas si compliquée. Par exemple, jusqu'à présent, nous avons parlé d'expériences. La plupart des expériences ont eu deux bits importants, la variable indépendante (la manipulation) et la variable dépendante (ce que nous mesurons). Dans la plupart des cas, notre variable indépendante a eu deux niveaux, ou trois ou quatre mais, il n'y a eu qu'une seule variable indépendante.

Et si vous vouliez manipuler plus d'une variable indépendante ? Si vous faisiez cela, vous auriez au moins deux variables indépendantes, chacune avec ses propres niveaux. Le reste du livre concerne les conceptions avec plus d'une variable indépendante et les tests statistiques que nous utilisons pour analyser ces conceptions.

Passons en revue quelques exemples de conceptions afin de voir de quoi nous parlons. Nous allons imaginer des expériences qui tentent d'améliorer les notes des élèves. Ainsi, la variable dépendante sera toujours la note sur un test.

Nous utiliserions un test t pour ces conceptions, car elles n'ont que deux niveaux.

Moment de la journée (matin par rapport à l'après-midi) : les élèves réussissent-ils mieux les tests lorsqu'ils les passent le matin par rapport à l'après-midi ? Il y a un IV (heure de la journée), avec deux niveaux (matin vs après-midi)

Caféine (un peu de caféine vs pas de caféine) : les élèves réussissent-ils mieux aux tests lorsqu'ils boivent de la caféine plutôt que de ne pas en boire ? Il y a un IV (caféine), avec deux niveaux (un peu de caféine vs pas de caféine)

Nous utiliserions une ANOVA pour ces conceptions car elles ont plus de deux niveaux

Moment de la journée (matin, après-midi, nuit) : les élèves réussissent-ils mieux les tests lorsqu'ils les passent le matin, l'après-midi ou le soir ? Il y a un IV (heure de la journée), avec trois niveaux (Matin, Après-midi et Nuit)

Caféine (1 café, 2 cafés, 3 cafés) : les élèves réussissent-ils mieux aux tests lorsqu'ils boivent 1 café, 2 cafés ou trois cafés ? Il y a un IV (caféine), avec trois niveaux (1 café, 2 cafés et 3 cafés)

Nous n'avons pas parlé du type de test à exécuter pour cette conception (indice, cela s'appelle une ANOVA factorielle)

  1. IV1 (Heure de la journée : Matin vs Après-midi) IV2 (Caféine : un peu de caféine vs pas de caféine) : Comment l'heure de la journée et la consommation de caféine influencent-elles les notes des élèves ? Nous avons fait passer des tests aux élèves le matin ou l'après-midi, avec ou sans caféine. Il y a deux IV (heure de la journée et caféine). IV1 (Heure de la journée) a deux niveaux (matin vs après-midi). IV2 (caféine) a deux niveaux (un peu de caféine contre pas de caféine)

Bon, arrêtons-nous ici pour le moment. Les deux premiers modèles avaient tous deux un IV. La troisième conception montre un exemple de conception avec 2 IV (heure de la journée et caféine), chacun avec deux niveaux. C'est ce qu'on appelle un Conception factorielle 2x2. Cela s'appelle un factoriel conception, car les niveaux de chaque variable indépendante sont entièrement croisés. Cela signifie que d'abord chaque niveau d'un IV, les niveaux de l'autre IV sont également manipulés. « ATTENDRE STOP S'IL VOUS PLAÎT ! » Oui, il semble que nous commencions à parler dans la langue étrangère des statistiques et des modèles de recherche. Nous nous en excusons. Nous continuerons à le mélanger avec un langage simple et quelques images.


Comment interpréter les dépendances bidirectionnelles dans les plans factoriels ? - Psychologie

La valeur du khi carré obtenue est de 21,769. Ceci est comparé à une valeur critique du khi carré dans le tableau 5 de l'annexe A. Pour un khi carré unidirectionnel, les degrés de liberté dans le test du khi carré sont égaux à df = k – 1, où k est le nombre de catégories/niveaux associés à la seule variable indépendante. Dans ce cas, il y a six catégories, donc df = 6 – 1 = 5

Choisissez un niveau de signification ( α ) et recherchez cette valeur dans les en-têtes de colonne. Pour cet exemple, je vais définir mon niveau alpha sur α = 0,05 S faites défiler la colonne associée à α = 0,05 jusqu'à ce que vous arriviez à la ligne associée aux degrés de liberté pour le test du chi carré, qui vous donner la valeur critique du chi carré. Dans ce cas, la valeur critique du chi carré avec df = 5 et = 0,05 est 11,070. Étant donné que le chi-carré obtenu (21,769) est supérieur à la valeur critique du chi-carré, l'hypothèse nulle peut être rejetée et l'hypothèse alternative acceptée.Ainsi, je peux conclure qu'il existe une différence significative entre les fréquences observées et les fréquences attendues des majors universitaires qui suivent mon cours Sensation et Perception. Cela signifie qu'il peut y avoir une certaine relation entre ce cours et les types d'étudiants (en fonction de la majeure) qui suivent le cours. Plus précisément, certaines majors peuvent être plus susceptibles de suivre ce cours particulier.

23,5 Chi carré avec deux variables indépendantes

Les tests du chi carré peuvent également examiner si les fréquences observées parmi les combinaisons de deux (ou même plus) variables indépendantes diffèrent de ce à quoi vous vous attendriez par hasard. Par exemple, dans la section précédente, disons que j'ai compté le nombre d'hommes dans chacune des six majeures et le nombre de femmes dans chacune des six majeures. Par conséquent, j'aurais deux variables indépendantes nominales (« Majeur » et « Sexe ») avec un total de 6 (Majeur) x 2 (Sexe) = 12 (Majeur x Sexe) groupes mutuellement exclusifs. Je pourrais compter le nombre d'élèves qui appartiennent à chacun de ces 12 groupes et déterminer la fréquence attendue associée à chaque combinaison de majeure et de sexe pour déterminer si les fréquences observées diffèrent des fréquences attendues.

Lorsque vous avez deux variables indépendantes nominales et que la variable dépendante est la fréquence, vous effectuez un analyse du chi carré bidirectionnel . Cela testera la présence d'une relation entre les deux variables indépendantes lorsque la variable dépendante est une donnée de fréquence. Par exemple, d'après le paragraphe précédent, un chi carré significatif suggérerait qu'il existe une relation significative entre le sexe d'un étudiant et le choix de la majeure qui amène une personne à suivre le cours Sensation et perception.

Lorsque vous testez une relation entre deux variables indépendantes nominales lorsque la variable dépendante est la fréquence, commencez par configurer un tableau de contingence qui répertorie toutes les fréquences observées pour chacune des combinaisons (groupes) créées par les variables indépendantes. Rappel du chapitre 12 (Probabilités), un tableau de contingence répertorie deux variables, l'une représentée par les lignes du tableau et l'autre par les colonnes. Le tableau répertorie la fréquence observée associée à chaque combinaison unique des deux variables. À partir d'un tel tableau de contingence, nous calculerons la fréquence attendue pour chaque combinaison de variables, puis effectuerons le test du chi carré . En utilisant le sexe et l'exemple principal ci-dessus, le tableau de contingence pourrait ressembler à celui ci-dessous :

Les totaux des lignes et les totaux des colonnes sont les fréquences marginales . Il est important de les lister dans le tableau de contingence, car ils sont utilisés pour calculer les valeurs de fréquence attendues. Un chi carré bidirectionnel peut prendre l'une des deux formes, cependant, les deux utilisent exactement les mêmes procédures et ont les mêmes hypothèses. La seule différence réside dans la manière dont les données de fréquence sont collectées et comment les résultats sont interprétés.

UNE test du chi carré d'indépendance C'est là que les fréquences marginales varient indépendamment, c'est-à-dire que les fréquences marginales des deux variables indépendantes ne sont pas fixes ou définies, mais sont plutôt inconnues et peuvent varier de manière aléatoire. (c'est-à-dire qu'un chercheur ne ne pas savoir quelles seront les fréquences marginales avant de collecter les données.) Un test d'indépendance du chi carré est utilisé pour déterminer s'il existe une relation statistiquement significative entre les deux variables indépendantes. L'exemple ci-dessus est un test d'indépendance du Khi-deux, car je n'aurais jamais pu connaître les fréquences marginales de l'une ou l'autre des variables indépendantes avant le début du cours.

UNE c test hi-square pour l'homogénéité de la variance est l'endroit où les fréquences marginales de seul une variables indépendantes sont fixes et déterminées avant toute collecte de données (fréquences marginales pour les deux variables ne peut pas être fixé au préalable). Par exemple, je peux être intéressé par les types de majors universitaires déclarés pour les étudiants masculins et féminins qui prennent leur café au café Aroma. Je pouvais attendre à l'extérieur du café Aroma et demander aux 50 premiers hommes et aux 50 premières femmes qui entrent dans le café Aroma leur spécialité, puis effectuer une analyse du chi carré sur les données. Dans cet exemple, j'ai décidé des fréquences marginales des hommes et des femmes avant de collecter des données, c'est-à-dire que je collecterais des données auprès de 50 hommes et 50 femmes. Dans ce cas, la fréquence marginale des hommes et des femmes est fixe. et sont ne pas permis de varier. Un test du chi carré d'homogénéité de la variance évalue si la différence entre les fréquences observées et les fréquences attendues est égale (homogène) pour les hommes et les femmes ou diffère (hétérogène) entre les hommes et les femmes. Aux fins du présent document, je ne couvrirai que le test du chi carré d'indépendance. Notez simplement que les procédures de test sont exactement les mêmes, la seule différence est la façon dont les données sont collectées.

Un chi carré bidirectionnel a les mêmes hypothèses que le chi carré unidirectionnel : (1) la variable dépendante est des données de fréquence, (2) les variables indépendantes sont nominales et ne sont souvent pas manipulées, et (3) les niveaux de la les variables indépendantes sont mutuellement exclusives. Le chi carré bidirectionnel a une hypothèse supplémentaire : la fréquence de chaque groupe est au moins cinq. Malheureusement, les fréquences de plusieurs groupes dans le sexe et l'exemple principal sont inférieures à cinq, ainsi, l'exemple viole cette hypothèse importante.

Un bon exemple de cas où le test du chi carré pourrait être utilisé pour évaluer les données de fréquence est les dossiers de vote du Congrès à la Chambre des représentants des États-Unis. Plus précisément, les tests du chi carré peuvent examiner la relation entre le parti politique et le vote (« Oui » et « Non ») sur un projet de loi particulier. Un tel exemple a deux variables indépendantes ("Parti politique" et "Décision de vote") et la dépendance est la fréquence des réponses dans chaque combinaison de parti politique et de décision de vote.

Un projet de loi en particulier était le projet de loi HR6 de la Chambre des représentants, la « Loi sur l'indépendance et la sécurité énergétiques », qui a été adoptée à la Chambre le 18/12/2007. Le projet de loi visait à « réduire la dépendance de notre nation vis-à-vis du pétrole étranger en investissant dans des ressources énergétiques alternatives propres, renouvelables, en promouvant de nouvelles technologies énergétiques, en développant une plus grande efficacité et en créant une réserve stratégique d'efficacité énergétique et d'énergie renouvelable pour investir dans l'énergie alternative, et pour d'autres fins. Ci-dessous, se trouve un tableau de contingence qui répertorie la fréquence pour chaque combinaison de parti politique (démocrates et républicains) et de décision sur le projet de loi (Oui, Non, Abstention) :


Modèles à effets mixtes

Les modèles (à effets) mixtes sont un cadre statistique qui présente des facteurs fixes et aléatoires. Les modèles mixtes modélisent explicitement les structures de données hiérarchiques en regroupant les observations en groupes (Gelman & Hill 2007 Bolker et al. 2009). Le regroupement peut être considéré comme un cas d'imbrication, car les observations appartiennent uniquement à des groupes particuliers (Zuur et al. 2009 ), mais nous préférons les termes « données structurées », « données groupées » ou « données groupées » plutôt que « données emboîtées » dans ce cas, car cette terminologie évite la confusion avec les facteurs emboîtés, et elle permet surtout des effets aléatoires croisés ( Gelman & Hill 2007). Les structures de regroupement peuvent résulter de mesures répétées sur les mêmes individus, mais aussi de structures spatiales ou temporelles, de structures familiales, de groupes sociaux d'organismes, etc. Au niveau hiérarchique le plus bas, il y a des observations individuelles. Nous appelons ce niveau le niveau de données ou d'unité (Gelman & Hill 2007 Tableau 2). Les observations individuelles sont regroupées par facteurs aléatoires. Les facteurs aléatoires constituent donc le niveau de regroupement. Du fait de la modélisation de différents niveaux de regroupement, les modèles mixtes sont souvent appelés modèles hiérarchiques ou multiniveaux, notamment dans les sciences sociales (Goldstein 2011 Snijders & Bosker 2011 ).

Les facteurs aléatoires sont des prédicteurs où la distribution des coefficients individuels est explicitement modélisée par des hyperparamètres (voir tableau 2), dans le cas typique en estimant la variance entre les groupes (Gelman & Hill 2007 ). Contrairement aux facteurs fixes qui sont estimés uniquement sur la base d'observations faites pour un niveau de facteur particulier, les estimations de facteurs aléatoires sont influencées par la moyenne de la population en fait, leurs estimations sont tirées vers la moyenne de la population ('rétrécissement', voir le tableau 2 McCulloch & Neuhaus 2005 Snijders & Bosker 2011). Il existe une discussion approfondie sur les effets fixes et aléatoires (voir ci-dessous). Dans les applications pratiques, les variables sont modélisées comme des effets aléatoires si l'intérêt principal réside dans l'estimation des variances, tandis que des facteurs fixes sont utilisés pour estimer l'effet moyen d'un traitement (Merlo et al. 2005c). Les effets aléatoires sont souvent utilisés pour contrôler la structure corrélée dans les données, c'est-à-dire les dépendances entre les données ("pseudoréplication"). Les facteurs imbriqués sont généralement mieux traités comme des effets aléatoires, comme nous le décrivons ci-dessous.

Dans un modèle avec des facteurs fixes et aléatoires, il est important de considérer comment les niveaux du facteur fixe sont liés aux niveaux du facteur aléatoire. Leur relation peut être emboîtée ou croisée (Fig. 3). Nous appellerons un facteur fixe dont les niveaux varient entre les groupes (d'un effet aléatoire) un prédicteur au niveau du groupe (Gelman & Hill 2007 Kirk 2009 parfois appelé « facteur externe » voir Pinheiro & Bates 2000 ). Par exemple, un traitement peut avoir été appliqué à des individus sélectionnés au hasard, et plusieurs observations ont été effectuées par individu. Les individus (un effet aléatoire) sont imbriqués dans les traitements, et les observations sont imbriquées dans les individus (et les traitements). Dans cet exemple, le « traitement » est un prédicteur au niveau du groupe (facteur externe à l'individu). Un facteur fixe dont les niveaux varient au sein des groupes est appelé un prédicteur au niveau des données ou des unités (Gelman & Hill 2007 parfois appelé « facteur interne » Pinheiro & Bates 2000 ). Par exemple, plusieurs fratries (les familles sont traitées comme un effet aléatoire) peuvent avoir été divisées en deux groupes de traitement avec une observation par individu. Les individus sont regroupés au sein des familles, mais le traitement est croisé à l'effet aléatoire familial. Dans ce cas, le « traitement » est un prédicteur au niveau des données (facteur interne à l'individu).

En cas de niveaux multiples (« modèles hiérarchiques d'ordre supérieur »), il peut être nécessaire d'être plus précis sur les différents niveaux de regroupement. Par exemple, s'il existe des observations regroupées dans des sujets imbriqués dans des familles, il existe deux niveaux de regroupement et une déclaration sur un prédicteur au niveau du groupe sera ambiguë. Dans cet exemple, il serait plus précis de parler de prédicteurs au niveau des données (le niveau des observations), des prédicteurs au niveau du sujet et des prédicteurs au niveau de la famille. Si le traitement est appliqué à des familles entières, le « traitement » sera un prédicteur au niveau du groupe (un facteur externe à la famille). Si le traitement est appliqué à des sujets individuels, le « traitement » sera un prédicteur au niveau des données (un facteur interne à la famille, mais un facteur externe au sujet).


Psy 230 ch 9 : Plans factoriels

= les plans factoriels sont décrits numériquement (2x4x3--le fait qu'il y ait 3 nombres indique la quantité de variables indépendantes. 2 nous indique que la première variable indépendante a 2 niveaux, et que 4 et 3 nous indiquent, respectivement, que la deuxième variable indépendante a quatre niveaux et la troisième variable indépendante a 3 niveaux

= les conceptions factorielles sont mieux à même de saisir la complexité causale de la vie réelle que les conceptions qui n'incluent qu'une seule variable indépendante. Chaque variable indépendante incorporée dans la conception peut avoir un effet principal. L'effet principal se produit lorsqu'une variable indépendante a un effet global sur une variable dépendante. différentes variables indépendantes dans la conception peuvent interagir les unes avec les autres. l'interaction se produit lorsque la manière dont une variable indépendante influence le comportement diffère, selon le niveau d'une autre variable indépendante

= les plans factoriels peuvent examiner les interactions. est souvent plus efficace à conduire. La principale limitation est qu'à mesure que le nombre de variables indépendantes augmente, le nombre total de conditions dans l'expérience augmente rapidement et peut dépasser les ressources disponibles pour mener l'expérience

= pour examiner les effets non linéaires d'une variable indépendante dans un plan factoriel, cette variable doit avoir trois niveaux ou plus. pour examiner si une variable est un modérateur, cette variable est simplement incorporée dans le plan factoriel en tant que variable indépendante supplémentaire --- si cette variable produit une interaction, alors c'est un modérateur

= les variables sujet sont souvent incorporées dans des plans factoriels qui incluent également au moins une variable manipulée --- crée un plan personne x situation. parce que les variables du sujet sont mesurées et non manipulées, les résultats qui semblent être causés par une variable du sujet peuvent être causés par d'autres facteurs qui sont corrélés avec la variable du sujet

= dans une expérience factorielle avec deux variables indépendantes A et B, huit résultats sont possibles. lorsqu'aucune interaction A x B, quatre résultats sont possibles : 1. aucun effet principal n'existe, 2. A mais pas B a un effet principal, 3 .B mais pas A a un effet principal, 4. les deux effets principaux se produisent. lorsqu'il y a une interaction A x B, vous pouvez obtenir les quatre mêmes résultats possibles concernant les effets principaux

=les interactions peuvent être ordinales ou disordinales. lorsqu'une interaction se produit, tout effet principal doit être interprété avec prudence car l'interaction peut limiter la conclusion générale qui serait tirée uniquement de l'effet principal

=souvent, les données de l'expérience factorielle sont initialement analysées pour déterminer s'il s'agit de trois effets ou interactions principaux. si une interaction se produit, les effets principaux simples sont analysés. les effets principaux simples représentent l'effet d'une IV à un niveau spécifique d'une autre IV. Si l'effet principal simple est statistiquement significatif, le chercheur peut utiliser des tests post-hoc pour comparer les résultats entre des paires de conditions spécifiques


Examen 3 .

- dans quelle mesure avez-vous mesuré la variable en question ?

- dans quelle mesure avez-vous mesuré chacune des 2 variables en association ?

- dans quelle mesure avez-vous mesuré ou manipulé les variables de l'étude ?

- quelle est la marge d'erreur du devis ?

- quelle est la taille de l'effet ? quelle est la force de l'association? est-ce important ?

- fausse alarme? manque une relation? taille de l'effet? statistiquement significatif?

- l'étude était-elle une expérience ? obtenir une priorité temporelle ? contrôler les explications alternatives en limitant les confusions ? éviter les menaces ?

- l'échantillon est-il représentatif ?

- à quels autres paramètres ou problèmes l'association pourrait-elle être généralisée

- quelle est la représentativité des manipulations et des mesures ?

présenter les niveaux de l'IV aux participants dans différents ordres

- utiliser ceci pour éviter des effets tels que la pratique, la fatigue, l'arrière-goût ou l'ennui sont des explications alternatives potentielles dans une conception au sein du groupe

- lorsqu'il est utilisé, tout effet de commande doit s'annuler lorsque toutes les données sont collectées

fait référence aux situations spécifiques qui sont créées dans le cadre de la manipulation

- dans les conceptions à sens unique, celles-ci sont appelées les conditions expérimentales

*l'équivalence peut être créée par ce biais

- avec des participants différents mais équivalents à chaque niveau de l'expérience

*l'équivalence peut être créée par ce biais

- avec les mêmes personnes dans chacune des conditions expérimentales

- également appelée conception intra-sujets

- la méthode la plus courante pour créer une équivalence entre les conditions expérimentales

- le niveau de la variable indépendante que chaque participant connaîtra est déterminé par un processus aléatoire

les conceptions expérimentales avec seulement 2 niveaux ont des limites

- difficulté à dire lequel des 2 niveaux est à l'origine du changement dans la DV

- est-ce que le niveau 1 monte et 2 baisse ? ou en face

- difficulté à tirer des conclusions sur le modèle ou la relation où la manipulation fait varier la force de l'IV

- compare les moyennes de la DV à travers les niveaux d'un plan de recherche expérimental

- analyse la variabilité de la DV

- si les moyens sont équivalents, il ne doit y avoir de différences que par hasard

- si la manipulation avait influencé le DV il y aura plus d'importance

la variance entre les conditions signifie

*plus significatif que la variance intra-groupe

écart dans les conditions

au sein des groupes, les conceptions permettent aux chercheurs de remarquer les différences entre les conditions