Thursday, 16 February 2017

T Statistiques Dans Stata Forex

T test indépendant à l'aide de Stata Introduction Le test t indépendant, également appelé test t des échantillons indépendants, t test des mesures indépendantes ou t test non apparié, sert à déterminer si la moyenne d'une variable dépendante Le poids, le niveau d'anxiété, le salaire, le temps de réaction, etc.) est le même dans deux groupes indépendants indépendants (par exemple, hommes vs femmes, employés vs chômeurs, moins de 21 ans vs 21 ans et plus, etc.). Plus précisément, vous utilisez un test t indépendant pour déterminer si la différence moyenne entre deux groupes est statistiquement significativement différente de zéro. Par exemple, un test t indépendant pourrait être utilisé pour vérifier si le temps de révision varie selon le sexe (c. à d. Votre variable dépendante serait le temps de révision, mesuré en minutes ou en heures, et votre variable indépendante serait le sexe, Groupes: hommes et femmes). Alternativement, un test t indépendant pourrait être utilisé pour comprendre s'il existe une différence de salaire en fonction du niveau d'éducation (c'est à dire que votre variable dépendante serait le salaire et votre variable indépendante serait le niveau d'éducation, qui comprend deux groupes: ). Note: Dans Stata 12, vous verrez que le test t indépendant est appelé test de comparaison moyenne de deux groupes, alors que dans Stata 13, il est appelé test t (test de comparaison de moyenne). Dans ce guide, nous vous montrons comment effectuer un test t indépendant à l'aide de Stata, ainsi que d'interpréter et de rapporter les résultats de ce test. Cependant, avant de vous présenter cette procédure, vous devez comprendre les différentes hypothèses que vos données doivent respecter pour qu'un test t indépendant vous donne un résultat valide. Nous discutons ces hypothèses à la suite. Remarque: Si votre variable indépendante a des groupes connexes, vous devrez utiliser un test t apparié. Sinon, si vous avez plus de deux groupes non liés, vous pouvez utiliser une ANOVA unidirectionnelle. Cependant, si vous avez un seul groupe et que vous souhaitez le comparer à une valeur connue ou hypothétique, vous pouvez exécuter un test t d'un échantillon. Nous avons également un guide sur la façon d'exécuter un test t indépendant à l'aide de Minitab ici. Hypothèses Six hypothèses sous tendent le test t indépendant. Si l'une de ces six hypothèses n'est pas remplie, vous ne pouvez pas analyser vos données à l'aide d'un test t indépendant parce que vous n'obtiendrez pas un résultat valide. Puisque les hypothèses 1, 2 et 3 se rapportent à la conception de votre étude et au choix des variables, elles ne peuvent être testées pour l'utilisation de Stata. Cependant, vous devez décider si votre étude répond à ces hypothèses avant de passer à autre chose. Hypothèse 1: Votre variable dépendante doit être mesurée au niveau de l'intervalle ou du ratio (c'est à dire qu'ils sont continus). Parmi les variables dépendantes figurent la hauteur (mesurée en pieds et en pouces), la température (mesurée en o C), le salaire (mesuré en dollars américains), le temps de révision (mesuré en heures), l'intelligence (mesurée à l'aide du score IQ), le temps de réaction Mesurée en millisecondes), la performance des tests (mesurée de 0 à 100), les ventes (mesurées en nombre de transactions par mois), et ainsi de suite. Si vous ne savez pas si votre variable dépendante est continue (c'est à dire mesurée au niveau de l'intervalle ou du ratio), consultez notre guide Types de variables. Hypothèse 2: Votre variable indépendante doit être composée de deux catégories. Indépendants (non apparentés). Les exemples de ces variables indépendantes incluent le sexe (2 groupes: masculin ou féminin), le type de traitement (2 groupes: médication ou pas de médicament), le niveau d'éducation (2 groupes: premier cycle ou post universitaire), religieux (2 groupes: oui ou non) Ainsi de suite. Hypothèse 3: Vous devez avoir l'indépendance des observations. Ce qui signifie qu'il n'y a pas de relation entre les observations dans chaque groupe ou entre les groupes eux mêmes. Par exemple, il doit y avoir différents participants dans chaque groupe, aucun participant n'étant dans plus d'un groupe. Si vous n'avez pas l'indépendance des observations, il est probable que vous avez des groupes liés, ce qui signifie que vous aurez besoin d'utiliser un test t dépendante au lieu du test t indépendant. Heureusement, vous pouvez vérifier les hypothèses 4, 5 et 6 en utilisant Stata. En passant aux hypothèses 4, 5 et 6, nous suggérons de les tester dans cet ordre parce qu'il représente un ordre où, si une violation à l'hypothèse n'est pas corrigible, vous ne pourrez plus utiliser un test t indépendant. En fait, ne soyez pas surpris si vos données échouent une ou plusieurs de ces hypothèses car cela est assez typique lorsque vous travaillez avec des données du monde réel plutôt que des exemples de manuels qui souvent ne vous montrent comment réaliser un test t indépendant quand tout va bien. Cependant, ne vous inquiétez pas parce que même lorsque vos données échouent certaines hypothèses, il ya souvent une solution pour surmonter cela (par exemple, transformer vos données ou en utilisant un autre test statistique à la place). N'oubliez pas que si vous ne vérifiez pas que vos données répondent à ces hypothèses ou si vous les testez de manière incorrecte, les résultats obtenus lors de l'exécution d'un test t indépendant pourraient ne pas être valides. Hypothèse 4: Il ne devrait pas y avoir de valeurs aberrantes significatives. Un outlier est tout simplement un seul cas dans votre ensemble de données qui ne suit pas le schéma habituel (par exemple, dans une étude de 100 élèves IQ scores, où le score moyen était de 108 avec seulement une petite variation entre les étudiants, un étudiant avait un score de 156 , Ce qui est très inhabituel, et peut même la mettre dans le top 1 des scores de QI dans le monde). Le problème avec les valeurs aberrantes est qu'elles peuvent avoir un effet négatif sur le test t indépendant, ce qui réduit la précision de vos résultats. Heureusement, lorsque vous utilisez Stata pour exécuter un test t indépendant sur vos données, vous pouvez facilement détecter les valeurs aberrantes possibles. Hypothèse 5: Votre variable dépendante devrait être approximativement distribuée normalement pour chaque catégorie de la variable indépendante. Vos données doivent seulement être approximativement normales pour exécuter un t test indépendant parce qu'il est assez robuste aux violations de la normalité, ce qui signifie que cette présomption peut être un peu violée et fournir toujours des résultats valables. Vous pouvez tester la normalité en utilisant le test de normalité Shapiro Wilk, qui est facilement testé pour l'utilisation de Stata. Hypothèse 6: Il doit y avoir homogénéité des variances. Vous pouvez tester cette hypothèse dans Stata en utilisant le test de Levenes pour l'homogénéité des variances. Test Levenes est très important quand il s'agit d'interpréter les résultats d'un guide de test t indépendant car Stata est capable de produire des sorties différentes selon que vos données répondent ou échouent à cette hypothèse. Dans la pratique, la vérification des hypothèses 4, 5 et 6 prendra probablement la plus grande partie de votre temps lors de l'exécution d'un test t indépendant. Cependant, ce n'est pas une tâche difficile, et Stata fournit tous les outils dont vous avez besoin pour ce faire. Dans la section, Procédure d'essai dans Stata. Nous illustrons la procédure Stata requise pour effectuer un test t indépendant en supposant qu'aucune hypothèse n'a été violée. Tout d'abord, nous présentons l'exemple que nous utilisons pour expliquer la procédure d'essai t indépendante dans Stata. Avec une forte proportion de gros fumeurs qui luttent pour cesser de fumer, le gouvernement veut trouver des façons de les aider à réduire leur consommation de cigarettes. Un chercheur veut étudier si l'utilisation de patchs de nicotine réduit la consommation de cigarettes, et si oui, combien. Par conséquent, le chercheur recrute un échantillon aléatoire de 30 fumeurs lourds de la population, où un fumeur lourd est défini comme une personne qui fume une moyenne de 40 cigarettes ou plus par jour. Cet échantillon de 30 participants a été divisé de façon aléatoire en deux groupes indépendants: ndash un groupe témoin et un groupe de traitement ndash avec 15 participants dans chaque groupe. Par conséquent, 15 participants ont reçu les patchs de nicotine (le groupe de traitement) et 15 participants ont reçu un placebo, c'est à dire un timbre qui ne contenait pas de nicotine (le groupe témoin). En conséquence, aucun des participants ne savait s'ils étaient dans le groupe de traitement ou dans le groupe témoin. Trois mois après le début de l'expérience, la consommation de cigarettes des deux groupes a été mesurée en termes de nombre moyen de cigarettes fumées par jour. Par conséquent, la variable dépendante était la consommation de cigarettes (mesurée en termes de nombre de cigarettes fumées quotidiennement à la fin de l'expérience), tandis que la variable indépendante était le type de traitement, où il y avait deux groupes indépendants (le groupe de traitement et le groupe témoin). Un test t indépendant a été utilisé pour déterminer s'il y avait une différence statistiquement significative dans la consommation de cigarettes entre les deux groupes indépendants (c'est à dire le groupe de traitement et le groupe témoin). Configuration dans Stata Dans Stata, nous avons séparé les deux groupes pour l'analyse en créant une variable de regroupement, appelée TreatmentType. Et a donné au groupe témoin qui a reçu le placebo une valeur de 1 Placebo et le groupe de traitement qui a reçu les timbres de nicotine une valeur de 2 Nicotine patch, comme indiqué ci dessous. Publié avec l'autorisation écrite de StataCorp LP. Les scores pour la variable dépendante, CigaretteConsumption. Ont ensuite été saisies dans la feuille de calcul Editeur de données (Edition) dans la colonne à droite de la variable indépendante, Type de traitement. Comme indiqué ci dessous: Publié avec l'autorisation écrite de StataCorp LP. Procédure de test dans Stata Dans cette section, nous vous montrons comment analyser vos données en utilisant un test t indépendant dans Stata lorsque les six hypothèses dans la section précédente, Hypothèses. N'ont pas été violés. Vous pouvez effectuer un test t indépendant à l'aide du code ou de l'interface utilisateur graphique Stats (GUI). Après avoir effectué votre analyse, nous vous montrerons comment interpréter vos résultats. Tout d'abord, choisissez si vous souhaitez utiliser le code ou Statas interface graphique utilisateur (GUI). Le code pour exécuter un test t indépendant sur vos données prend la forme: ttest DependentVariable, by (IndependentVariable) Publié avec l'autorisation écrite de StataCorp LP. En utilisant notre exemple où la variable dépendante est CigaretteConsumption et la variable indépendante est TreatmentType. Le code requis serait: ttest CigaretteConsumption, by (TreatmentType) Note 1: Vous devez être précis lorsque vous entrez le code dans la zone. Le code est sensible à la casse. Par exemple, si vous avez entré CigaretteConsumption où le premier c est en minuscules plutôt que majuscules (c'est à dire un gros C), ce qui devrait être, vous obtiendrez un message d'erreur comme ce qui suit: Remarque 2: Si vous obtenez toujours le message d'erreur dans Note 1: ci dessus, il vaut la peine de vérifier le nom que vous avez donné vos variables dépendantes et indépendantes dans l'éditeur de données lorsque vous configurez votre fichier (voir l'écran de l'éditeur de données ci dessus). Dans la zone de droite de l'écran de l'Editeur de données, c'est la façon dont vous avez écrit vos variables dans la section, et non la section que vous devez entrer dans le code (voir ci dessous pour notre variable indépendante). Cela peut sembler évident, mais c'est une erreur qui est parfois faite, résultant de l'erreur dans la note 1 ci dessus. Par conséquent, entrez le code, ttest CigaretteConsumption, par (TreatmentType). Et appuyez sur le bouton ReturnEnter de votre clavier. Publié avec l'autorisation écrite de StataCorp LP. Vous pouvez voir la sortie de Stata qui sera produite ici. Graphical User Interface (GUI) Les trois étapes nécessaires pour exécuter un test t indépendant dans Stata 12 ndash connu comme un test de comparaison de deux groupes dans Stata 12 ndash sont présentés ci dessous. La même procédure nécessite quatre étapes dans Stata 13 et ceci est montré plus bas: Version 12 Dans Stata 12, cliquez sur Statistiques gt Résumés, tableaux et tests gt Tests classiques des hypothèses gt Test de comparaison de deux groupes sur le menu principal, comme indiqué ci dessous. Publié avec l'autorisation écrite de StataCorp LP. Vous obtiendrez la boîte de dialogue ttest Test de comparaison de deux groupes: Publié avec l'autorisation écrite de StataCorp LP. Sélectionnez la variable dépendante, CigaretteConsumption. À partir de la zone de liste déroulante Nom de variable: et la variable indépendante, Type de traitement. À partir du nom de la variable de groupe: zone de liste déroulante, comme indiqué ci dessous: Publié avec l'autorisation écrite de StataCorp LP. Version 13 Dans Stata 13, cliquez sur Statistiques gt Résumés, tableaux et tests gt Tests classiques des hypothèses gt t test (test de comparaison de moyenne) sur le menu supérieur, comme indiqué ci dessous. Publié avec l'autorisation écrite de StataCorp LP. Vous obtiendrez la boîte de dialogue t tests (tests de comparaison moyenne): Publié avec l'autorisation écrite de StataCorp LP. Sélectionnez l'option Deux échantillons en utilisant les groupes dans la zone ndasht testsdash, comme indiqué ci dessous: Publié avec l'autorisation écrite de StataCorp LP. Sélectionnez la variable dépendante, CigaretteConsumption. À partir de la zone de liste déroulante Nom de variable: et la variable indépendante, Type de traitement. À partir du nom de la variable de groupe: zone de liste déroulante. Vous allez vous retrouver avec un écran similaire à celui ci dessous: Publié avec l'autorisation écrite de StataCorp LP. Cliquez sur le bouton. La sortie produite par Stata est présentée ci dessous. Résultat du test t indépendant dans Stata Si vos données ont dépassé l'hypothèse 4 (c'est à dire qu'il n'y avait pas de valeurs aberrantes significatives), l'hypothèse 5 (c'est à dire que votre variable dépendante était approximativement distribuée normalement pour chaque catégorie de la variable indépendante) Homogénéité des variances), que nous avons expliqué plus haut dans la section «Hypothèses», vous n'aurez qu'à interpréter la sortie Stata suivante pour le test t indépendant: Publié avec l'autorisation écrite de StataCorp LP. Cette sortie fournit des statistiques descriptives utiles pour les deux groupes que vous avez comparés, y compris la moyenne et l'écart type, ainsi que les résultats réels du test t indépendant. Nous pouvons voir que les moyennes du groupe sont significativement différentes puisque la valeur p de la rangée Pr (T t) (sous Ha: diff 0) est inférieure à 0,05 (c'est à dire basée sur un niveau de signification à 2 queues). En regardant la colonne Moyenne, vous pouvez voir que les personnes qui ont utilisé les patchs de nicotine avaient une consommation de cigarettes plus faible à la fin de l'expérience par rapport à ceux qui ont reçu le placebo. Remarque: Nous présentons la sortie du test t indépendant ci dessus. Toutefois, comme vous auriez dû tester vos données pour les hypothèses que nous avons expliquées plus haut dans la section Hypothèses, vous devrez également interpréter la sortie Stata qui a été produite lorsque vous les avez testées. (B) la production Stata produit pour votre test de normalité de Shapiro Wilk pour déterminer la normalité et (c) la production Stata produit pour le test de Levenes pour l'homogénéité de Variances. N'oubliez pas non plus que si vos données ont échoué à l'une de ces hypothèses, la sortie que vous obtenez de la procédure de test t indépendante (c'est à dire la sortie dont nous avons parlé ci dessus) ne sera plus pertinente et vous devrez interpréter la sortie Stata Produisent quand ils échouent (c'est à dire que cela inclut des résultats différents). Déclaration de la sortie du test t indépendant Lorsque vous signalez la sortie de votre test t indépendant, il est recommandé d'inclure: (a) une introduction à l'analyse que vous avez effectuée (b) des informations sur votre échantillon, y compris le nombre (C) la moyenne et l'écart type pour vos deux groupes indépendants et (d) la valeur t observée (T), les degrés de liberté (degrés de liberté) et le niveau de signification, ou plus spécifiquement la valeur p à deux colonnes (Pr (T t)). D'après les résultats ci dessus, nous pourrions présenter les résultats de cette étude comme suit: Un test t indépendant a été effectué sur un échantillon de 30 fumeurs lourds afin de déterminer s'il existait des différences dans la consommation de cigarettes selon le type de traitement consistant en un placebo Le groupe témoin) et les timbres de nicotine (le groupe de traitement). Les deux groupes comprenaient 15 participants au hasard. Les résultats ont montré que les participants ayant reçu des timbres de nicotine ont statistiquement significativement diminué la consommation de cigarettes (21,47 177 2,07 cigarettes) à la fin de l'expérience comparativement aux participants ayant reçu le placebo (28,53 177 2,07 cigarettes), t (28) 2,410, p 0,023. En plus de la déclaration des résultats comme ci dessus, un diagramme peut être utilisé pour présenter visuellement vos résultats. Par exemple, vous pouvez le faire en utilisant un diagramme à barres avec des barres d'erreur (par exemple, où les barres d'erreurs pourraient être l'écart type, l'erreur standard ou 95 intervalles de confiance). Cela peut rendre plus facile pour les autres de comprendre vos résultats. En outre, vous êtes de plus en plus attendus pour déclarer des tailles d'effet en plus de vos résultats indépendants du test t. Les tailles d'effet sont importantes car, bien que le test t indépendant vous indique si la différence entre les moyennes de groupe est réelle (c'est à dire différente dans la population), elle ne vous indique pas la taille de la différence. Bien que Stata ne produise pas ces tailles d'effet pour vous en utilisant cette procédure, il ya une procédure dans Stata pour le faire. Pour des questions rapides, envoyez un courriel à dataprinceton. edu. Pas d'appts. Nécessaire pendant les heures de marche. Remarque: le laboratoire DSS est ouvert tant que Firestone est ouvert, aucun rendez vous nécessaire pour utiliser les ordinateurs de laboratoire pour votre propre analyse. Interprétation de la sortie de régression Introduction Ce guide suppose que vous avez au moins une petite connaissance des concepts de régression multiple linéaire et que vous pouvez effectuer une régression dans certains logiciels tels que Stata, SPSS ou Excel. Vous pouvez lire notre page d'accompagnement Introduction à la régression d'abord. Pour obtenir de l'aide pour effectuer la régression dans des logiciels particuliers, il existe certaines ressources au Portail informatique UCLA. Brève revue de la régression Rappelez vous que l'analyse de régression est utilisée pour produire une équation qui prédit une variable dépendante en utilisant une ou plusieurs variables indépendantes. Cette équation a la forme où Y est la variable dépendante que vous essayez de prédire, X1. X2 et ainsi de suite sont les variables indépendantes que vous utilisez pour le prédire, b1. B2 et ainsi de suite sont les coefficients ou les multiplicateurs qui décrivent la taille de l'effet que les variables indépendantes ont sur votre variable dépendante Y. Et A est la valeur Y qui est prédite lorsque toutes les variables indépendantes sont égales à zéro. Dans la régression Stata ci dessous, l'équation de prédiction est le prix 294.1955 (mpg) 1767.292 (étranger) 11905.42 vous dire que le prix est prévu d'augmenter 1767.292 lorsque la variable étrangère augmente d'un, la diminution de 294.1955 quand mpg augmente d'un , Et est prédit être 11905.42 quand le mpg et l'étranger sont zéro. L'élaboration d'une équation de prédiction comme celle ci n'est qu'un exercice utile si les variables indépendantes de votre jeu de données ont une certaine corrélation avec votre variable dépendante. Ainsi, en plus des composantes de prédiction de votre équation les coefficients sur vos variables indépendantes (bêta) et la constante (alpha) vous avez besoin d'une certaine mesure pour vous dire à quel point chaque variable indépendante est associée à votre variable dépendante. Lorsque vous exécutez votre régression, vous essayez de découvrir si les coefficients de vos variables indépendantes sont vraiment différents de 0 (donc les variables indépendantes ont un effet réel sur votre variable dépendante) ou si toute différence apparente de 0 est juste due au hasard chance. L'hypothèse nulle (par défaut) est toujours que chaque variable indépendante n'a absolument aucun effet (a un coefficient de 0) et vous cherchez une raison de rejeter cette théorie. P, t et erreur type La statistique t est le coefficient divisé par son erreur type. L'erreur type est une estimation de l'écart type du coefficient, la quantité qui varie selon les cas. Il peut être considéré comme une mesure de la précision avec laquelle le coefficient de régression est mesuré. Si un coefficient est grand par rapport à son erreur standard, alors il est probablement différent de 0. Quelle est sa taille? Votre logiciel de régression compare la statistique t à votre variable avec les valeurs de la distribution Student t pour déterminer la valeur P, qui est le nombre Que vous devez vraiment regarder. La distribution Student t décrit comment la moyenne d'un échantillon avec un certain nombre d'observations (votre n) devrait se comporter. Si 95 de la distribution t est plus proche de la moyenne que la valeur t sur le coefficient que vous regardez, alors vous avez une valeur P de 5. Cela est également référé à un niveau de signification de 5. La valeur P est la probabilité De voir un résultat aussi extrême que celui que vous obtenez (à une valeur aussi grande que la vôtre) dans une collection de données aléatoires dans laquelle la variable n'a aucun effet. Un P de 5 ou moins est le point généralement accepté pour rejeter l'hypothèse nulle. Avec une valeur de P de 5 (ou .05), il ya seulement 5 chances que les résultats que vous voyez aient été présentés dans une distribution aléatoire, donc vous pouvez dire avec une probabilité 95 d'être correct que la variable a un certain effet, En supposant que votre modèle est correctement spécifié. L'intervalle de confiance de 95 pour vos coefficients montrés par beaucoup de paquets de régression vous donne la même information. Vous pouvez être sûr que la valeur réelle, sous jacente du coefficient que vous estimez tombe quelque part dans cet intervalle de confiance, donc si l'intervalle ne contient pas 0, votre valeur P sera .05 ou moins. Notez que la taille de la valeur P pour un coefficient ne dit rien sur la taille de l'effet que la variable a sur votre variable dépendante il est possible d'avoir un résultat très significatif (très petite valeur P) pour un effet minuscule. Coefficients Dans la régression linéaire simple ou multiple, la taille du coefficient pour chaque variable indépendante vous donne la taille de l'effet que la variable a sur votre variable dépendante, et le signe sur le coefficient (positif ou négatif) vous donne la direction de la variable effet. En régression avec une seule variable indépendante, le coefficient indique la mesure dans laquelle la variable dépendante devrait augmenter (si le coefficient est positif) ou diminuer (si le coefficient est négatif) lorsque cette variable indépendante augmente d'une unité. Dans la régression avec plusieurs variables indépendantes, le coefficient vous indique combien la variable dépendante devrait augmenter lorsque cette variable indépendante augmente d'une unité, en maintenant toutes les autres variables indépendantes constantes. N'oubliez pas de garder à l'esprit les unités dont vos variables sont mesurées. Remarque: dans les formes de régression autres que la régression linéaire, comme la logistique ou le probit, les coefficients n'ont pas cette interprétation directe. Expliquer comment y faire face ne relève pas de la portée d'un guide d'introduction. R carré et signification globale de la régression Le R carré de la régression est la fraction de la variation dans votre variable dépendante qui est comptabilisée (ou prédit par) vos variables indépendantes. (En régression avec une seule variable indépendante, c'est le même que le carré de la corrélation entre votre variable dépendante et indépendante.) Le R carré est généralement d'importance secondaire, à moins que votre principale préoccupation est d'utiliser l'équation de régression pour faire des prédictions précises . La valeur P vous indique combien vous pouvez être sûr que chaque variable individuelle a une certaine corrélation avec la variable dépendante, ce qui est la chose importante. Un autre nombre à prendre en compte est la valeur P pour la régression dans son ensemble. Puisque vos variables indépendantes peuvent être corrélées, une condition connue sous le nom de multicollinéarité, les coefficients sur des variables individuelles peuvent être insignifiants lorsque la régression dans son ensemble est significative. Intuitivement, c'est parce que les variables indépendantes fortement corrélées expliquent la même partie de la variation dans la variable dépendante, donc leur pouvoir explicatif et la signification de leurs coefficients sont répartis entre eux. Pour en savoir plus copie 2007 Les fiduciaires de l'Université de Princeton. Tous les droits sont réservés. Dataprinceton. edu NOTE: L'information est pour l'université de Princeton. N'hésitez pas à utiliser la documentation mais nous ne pouvons pas répondre aux questions en dehors de Princeton Dernière mise à jour de cette page:


No comments:

Post a Comment