Thursday 11 October 2018

How to interpret summary statistics in stata forex


Bem-vindo ao Instituto de Pesquisa Digital e Educação Stata FAQ Como posso obter estatísticas descritivas eo resumo de cinco números em uma linha Stata fornece o comando sumário que permite ver a média eo desvio padrão, mas não fornece os cinco números Resumo (min, q25, mediana, q75, max). Você pode usar a opção detail, mas então você obtém uma página de saída para cada variável. Se você deseja obter a média, desvio padrão e resumo de cinco números em uma linha, então você deseja obter o comando univar. O comando univar foi escrito por John R. Gleason e aparece no Stata Technical Bulletin 51. Você pode baixar univar de dentro do Stata digitando findit univar (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações Sobre como usar o findit). Vamos ilustrar o uso do comando univar usando a escola secundária e além de arquivo de dados que usamos em nossas classes de Stata. Aqui você vê a saída que você obtém de resumir. Aqui está a saída que você pode obter de univar. Se você incluir a opção vlabel, ela também incluirá os rótulos de variáveis ​​na tabela. A opção boxplot exibe um mini boxplot acima de cada variável. Aqui nós usamos a opção por (feminino) para exibir tabelas separadamente para machos e fêmeas. Podemos usar as opções by (female) e onehdr para obter uma tabela com um cabeçalho que pode ser um pouco mais fácil de ler. Aqui pedimos um boxplot para a variável write e pedimos que os boxplots sejam plotados usando a mesma escala (via onescal) para que possamos comparar significativamente o boxplot dos machos e fêmeas. Você pode ver que a mediana do boxplot é maior para as fêmeas. (Se tivéssemos omitido a opção onescal, cada boxplot seria na sua própria escala). Para obter mais informações Para obter mais informações, consulte a ajuda ou o manual de referência sobre o resumo. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Learning Module Informações e estatísticas descritivas Este módulo mostra Comandos para mostrar informações descritivas e estatísticas descritivas sobre arquivos de dados. Obtendo uma visão geral do seu arquivo O comando sysuse carrega um conjunto de dados Stata especificado que foi enviado com o Stata. Aqui vamos usar o auto arquivo de dados. O comando descrever mostra informações básicas sobre um arquivo de dados Stata. Como você pode ver, ele nos informa o número de observações no arquivo, o número de variáveis, os nomes das variáveis ​​e muito mais. O comando codebook é uma ótima ferramenta para obter uma rápida visão geral das variáveis ​​no arquivo de dados. Ele produz um tipo de livro de código eletrônico do arquivo de dados. Dê uma olhada no que produz abaixo. Outro comando útil para obter uma visão geral rápida de um arquivo de dados é o comando inspeccionar. Aqui está o que o comando de inspeção produz para o arquivo de dados automático. O comando list é útil para visualizar todos ou um intervalo de observações. Aqui olhamos para fazer, preço, mpg, rep78 e estrangeiros para as primeiras 10 observações. Criando tabelas O comando tabulate é útil para obter tabelas de freqüência. Abaixo, fazemos uma tabela para rep78 e uma tabela para estrangeiros. O comando também pode ser abreviado para tab. O comando tab1 pode ser usado como um atalho para solicitar tabelas para uma série de variáveis ​​(em vez de digitar o comando tabular repetidamente para cada variável de interesse). Podemos usar a opção plot para fazer um gráfico para mostrar visualmente os valores tabulados. Também podemos fazer tabelas de referência usando tabulate. Vamos olhar para o histórico de reparo dividido por carros estrangeiros e nacionais. Com a opção de coluna, podemos solicitar porcentagens de coluna. Observe que cerca de 86 dos carros estrangeiros recebeu uma classificação de 4 ou 5. Apenas cerca de 23 dos carros nacionais foram classificados como altamente. Podemos usar a opção nofreq para suprimir as freqüências, e apenas focar as porcentagens. Note que a ordem das opções não importa. Basta lembrar que as opções devem vir após a vírgula. Gerando estatísticas de resumo com sumário Para estatísticas de resumo, podemos usar o comando summary. Permite gerar algumas estatísticas de resumo em mpg. Podemos usar a opção detail do comando summarize para obter estatísticas de resumo mais detalhadas. Para obter esses valores separadamente para estrangeiros e domésticos, poderíamos usar o prefixo foreign: como mostrado abaixo. Note que primeiro tivemos que classificar os dados antes de usar por estrangeiros:. Esta não é a maneira mais eficiente de fazer isso. Outra maneira, que não requer que os dados sejam classificados, é usando a opção summarize () como parte do comando tabulate. Aqui está outro exemplo, mostrando o preço médio dos carros para cada nível de histórico de reparo. Resumo Forneça informações sobre o arquivo de dados atual, incluindo o número de variáveis ​​e observações e uma lista das variáveis ​​em um arquivo de dados. Produza o livro de códigos como informações para o arquivo de dados atual. Fornecer uma visão geral rápida do arquivo de dados. Liste as variáveis ​​make e mpg. Faça uma tabela de mpg. Faça uma tabela de dois sentidos de rep78 por estrangeiros. Produzir estatísticas sumárias de mpg e preço. Produza estatísticas sumárias para mpg separadamente para carros estrangeiros e domésticos. Produza estatísticas de resumo para mpg por estrangeiro (ordenação prévia não é necessária). O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. Estatísticas somáticas em Stata Depois de ter um conjunto de dados pronto para analisar1. O primeiro passo de qualquer bom projeto empírico deve ser criar estatísticas sumárias. As estatísticas de resumo são uma maneira de explorar seu conjunto de dados, encontrar padrões e talvez até mesmo refinar sua pergunta de interesse. Neste workshop, você aprenderá a usar o Stata para criar estatísticas básicas de resumo, tabelas cruzadas e tabelas cada vez mais ricas de estatísticas resumidas. Este workshop foi concebido para ensinar-lhe sintaxe, em vez de apontar e clicar comandos. A principal vantagem de escrever um arquivo do é que você sempre pode reutilizar a maior parte dele em projetos diferentes, com apenas alguns ajustes se você usar comandos Stata por ponto e clique, você será condenado a começar do zero toda vez. Usaremos um conjunto de dados do inquérito à saúde da comunidade canadiana (ESCC). Você pode encontrá-lo no caminho de inserção de pasta aqui, o conjunto de dados é U: STAFFJLStatasummarystatsprojectsummstats. dta, um subconjunto de CCHS eu criei e limpei um pouco (recode para fazer binário 0-1). Antes de começar, vamos olhar para a descrição de cada variável2: Uma tabulação simples deve ser sempre a sua primeira facada em seus dados. O comando tabulate retorna uma freqüência e tabela de distribuição cumulativa no visualizador Stata. Vamos dizer que você quer saber a proporção de entrevistado na amostra que já teve uma vacina contra gripe: Note que você pode combinar o comando tabulate com o prefixo by (ou bysort) para olhar para a tabulação de subgrupos em seu conjunto de dados. O prefixo bysort é uma combinação de por e classificar você poderia equivalentemente dividi-lo em dois comandos, mas geralmente é mais simples de usar bysort Stata primeiro classificar os dados e, em seguida, retornar as informações por categoria. Por exemplo, aqui vamos ver se os padrões de vacinas contra a gripe parecem diferentes para cada província: Se você está interessado em apenas um subgrupo, você também pode usar o qualificador if com o comando tabulate. Aqui, vamos dizer que queremos saber a freqüência de vacinas contra a gripe na amostra de Ontário: Finalmente, você pode usar o comando tabulate para fazer uma tabulação cruzada simples usando variáveis ​​categóricas. Digamos que você quer saber quantas das mulheres na amostra fumou mais de 100 cigarros em sua vida: Uma vez que você tenha tabulado seus dados, você pode começar a olhar para estatísticas de resumo diferente da freqüência. O comando resumo retorna média, desvio padrão, mínimo, máximo e freqüência. O exemplo é construído da mesma forma que o exemplo de tabulação foi. Primeiro olhamos para as estatísticas de resumo de toda a amostra, e depois olhamos para as estatísticas de subamostras (cada província). Usando o qualificador if retorna as estatísticas de resumo de um subgrupo específico. Nestes exemplos, nós nos concentramos na divisão da amostra por província, mas qualquer variável categórica pode ser usada. Em exemplos subseqüentes, veremos homens e mulheres, fumantes e não-fumantes, fisicamente ativos ou não. A forma como você olha para os seus dados depende do tipo de perguntas que você quer fazer o mais claro a sua pergunta, mais específica a sua análise pode ser. Essa combinação de comandos permite que você crie tabelas de estatísticas de resumo simples e bidirecionais simples no Stata. A primeira parte do comando (tabulate) dividirá seus dados de acordo com uma variável categórica (aqui usaremos sexo). A segunda parte dará estatísticas resumidas para outra variável (preferencialmente quantitativa). Vamos dizer que você quer saber como (se) homens e mulheres diferem no seu consumo diário de frutas e legumes: Esta tabela nos dará a média, o desvio padrão ea freqüência do consumo diário de frutas e legumes para homens e mulheres na amostra : Se você quer saber se homens e mulheres de diferentes províncias têm padrões diferentes em seu consumo diário médio de frutas e legumes, você pode usar o comando bysort novamente para fazer a mesma consulta província por província: Note que você também pode usar o if Qualificador aqui (como fizemos no tabular e resumir comandos) para olhar, digamos, uma província only3. Você também pode usar o comando tabulate, summarize () para criar uma tabela rápida de estatísticas resumidas de quatro vias. Por exemplo, se você quisesse olhar para os padrões de consumo diário de frutas e vegetais para homens e mulheres com hábitos tabágicos diferentes, você poderia criar uma tabela para isso: O resultado parece mostrar um certo padrão: os fumantes parecem comer menos frutas e Vegetais do que os não-fumantes, e as mulheres parecem comer mais frutas e vegetais do que os homens, em média4. O comando tabstat exibe estatísticas de resumo de uma série de variáveis ​​numéricas em uma tabela, possivelmente discriminada por (condicionada por) outra variável. Sem a opção by (), tabstat é uma alternativa útil para resumir porque permite especificar a lista de estatísticas a serem exibidas. Com a opção by (), o tabstat se assemelha ao tabulate usado com sua opção summarize () em que ambas as estatísticas do relatório varlist para os diferentes valores de varname. O comando tabstat permite mais flexibilidade em termos das estatísticas apresentadas e do formato da tabela. A primeira linha retornará as estatísticas (média, desvio padrão e freqüência) para 4 variáveis ​​(HWTGHTM HWTGWTK HWTGBMI PACFD) para toda a amostra. A janela de resultado se parece com a seguinte: A segunda linha diz Stata para fazer o mesmo, mas para dividir a amostra entre macho e fêmea. Este é o resultado: Observe como nós também obter o total, por isso, se você estiver interessado nas amostras de divisão eo total, não há necessidade de fazer ambos separadamente. Finalmente, a terceira linha de comando, com o prefixo bysort, fará o mesmo turno para cada província, e dividirá cada sub-amostra em macho e fêmea. Os resultados estão no mesmo formato, no entanto isso retorna subamostra (isto é, provincial) total para homens e mulheres combinados, mas não o total geral para todas as províncias: Note que você escolhe as estatísticas que são relatadas na tabela. As estatísticas disponíveis estão listadas na ajuda tabstat: O comando table calcula e exibe tabelas de estatísticas. Assim como no tabstat, você pode escolher as estatísticas que deseja reportar, mas também escolher a variável que deseja que as estatísticas sejam relatadas, bem como as variáveis ​​que você deseja que as informações sejam cruzadas. A estrutura da sintaxe é simples, mas tem um olhar mais atento: Isso fará com que uma tabela com PACFD como a variável de linha (mas somente se o valor para PACFD não for. d5), DHHSEX como a variável superrow eo conteúdo de cada célula Será média, desvio padrão e freqüência da variável FVCDTOT: Podemos fazer melhor Sim, nós podemos. Até quatro variáveis ​​podem ser especificadas no by (), assim com as três linhas, coluna e supercolumn variáveis, tabelas de sete vias podem ser exibidas. Nós não estaremos fazendo uma tabela de sete vias hoje, mas vamos olhar para uma tabela de quatro vias com superrow (uma tabela de cinco vias, se youd gosta): A sintaxe é o mesmo, só parece mais complicado. Tabela rowvar colvar supercolvar se em peso, options6 No nosso exemplo, a variável de linha é novamente PACDFD, a variável de coluna é SMK01B. Estamos usando o qualificador if para restringir a observação para o qual os valores das variáveis ​​de linha e coluna é 0 ou 1, o conteúdo das células é novamente média, desvio padrão e freqüência da variável FVCDTOT, e temos DHHSEX como um Superrow variável. A maneira de ler esta tabela é simples: um entrevistado que não se envolve em mais de 15 minutos de atividade diária e nunca fumou um cigarro inteiro come em média 5.1 unidades de frutas e legumes diariamente. Agora, um final flourish Uma tabela de quatro vias com supercolumn e superrow Aqui está o comando: tabela PACFD SMK01B FLU160 se ((PACFD. d) amp (SMK01B0SMK01B1) amp (FLU1600FLU1601)), c (média FVCDTOT sd FVCDTOT n FVCDTOT) por (DHHSEX) Agora, você pode se perguntar, eu realmente preciso fazer tudo isso apenas para olhar para estatísticas de resumo A resposta variará com base no seu nível de sofisticação, sua pergunta de pesquisa ou sua agenda de pesquisa de supervisor Para alguns, tabule E talvez tabulate, resume () será mais do que suficiente. Para outros, tabstat e tabela podem ser ferramentas muito úteis. Encorajamos você a jogar com dados e a obter um conhecimento profundo de seu conjunto de dados antes de realizar uma análise estatística mais formal. Há muitas fontes interenet boas para leituras suplementares na criação de estatísticas de resumo no Stata. Seja específico quando você insere uma consulta em um mecanismo de pesquisa e você deve encontrar muito conselho escrito pelo usuário. 1 Consulte as guias para obter dados de ltodesigt, limpeza de dados no Stata 2 Você notará alguns comandos administrativos antes do comando describe (aqui abreviado para des) 3 A sintaxe seria simplesmente: tab DHHSEX se GEOGPRV35, sum (FVCDTOT) 4 We cant Extrair inferência de olhar para os meios que seria necessário para testar se ou não qualquer destes meios é estatisticamente diferente dos outros. No entanto, olhar para estas estatísticas de resumo é um bom começo investigar padrões nos dados. 5 Neste conjunto de dados. D é um código de dados em falta 6 Escreva a tabela de ajuda na janela de comandos do Stata para uma apresentação detalhada dos recursos deste comando.

No comments:

Post a Comment