Um dos principais objetivos da Estatística é tirar conclusões a partir dos dados.
Dados em geral consistem de uma amostra de elementos de uma população de interesse.
O objetivo é usar a amostra e tirar conclusões sobre a população.
Quão confiável será utilizar a informação obtida apenas de uma amostra para concluir algo sobre a população?
População: todos os elementos ou resultados de um problema que está sendo estudado.
Amostra: qualquer subconjunto da população que contém os elementos que podem ser observados e é onde as quantidades de interesse podem ser medidas.
Variável Aleatória: Característica numérica do resultado de um experimento.
Parâmetros: Característica numérica (desconhecida) da distribuição dos elementos da população.
Estimador/Estatística: Função da amostra, construída com a finalidade de representar, ou estimar um parâmetro de interesse na população.
Estimativa: Valor numérico que um estimador assume para uma dada amostra.
Erro amostral: é a diferença entre um estimador e o parâmetro que se quer estimar.
Seja \(X_{1},...,X_{n}\) uma amostra e \[T = f(X_{1}, \ldots, X_{n})\] é uma estatística.
Exemplos:
Note que uma estatística é uma função que em uma determinada amostra assume um valor específico (estimativa).
Para que serve uma estatística?
Para "estimar" características de uma população.
População:
Amostra:
Temos interesse em conhecer a média e variância das alturas dos brasileiros adultos. Sabemos que a distribuição das alturas pode ser representada por um modelo normal.
Solução 1: Medir a altura de todos os brasileiros adultos (censo).
Solução 2: Selecionar de forma aleatória algumas pessoas (amostra), analisá-las e inferir propriedades para toda a população.
Seja \(\theta\) a proporção de alunos na Unicamp que concorda com a presença da PM no campus.
Imagine um fenômeno de interesse que possa ser representado por uma v.a. \(X\) que assume os valores \(1\) ou \(2\) com igual probabilidade.
Nesse caso,
\(\begin{aligned} \mu = \mathbb E(X) &= 1 \times P(X=1) + 2 \times P(X=2) \\ &= 1\times \frac{1}{2} + 2\times \frac{1}{2} = \frac{3}{2} \end{aligned}\)
\(\begin{aligned} \sigma^2 &= Var(X) = \mathbb E[(X - \mu)^2] \\ &= (1-1.5)^2 \times P(X=1) + (2 - 1.5)^2 \times P(X=2) \\ &= \frac{1}{4} \end{aligned}\)
Imagine que uma população de interesse tenha distribuição como a de \(X\) definida anteriormente.
Imagine também que, embora saibamos que os valores possíveis sejam \(1\) e \(2\), não tenhamos conhecimento sobre suas respectivas probabilidades.
Isto é, se temos \(N\) elementos nessa população, podemos pensar que a característica de interesse de cada elemento \(i\) segue uma v.a. \(X_i\) em que \(P(X_i=1)=P(X_i=2)=1/2\), mas nós não sabemos disso.
Imagine que o interesse seja \(\mu\).
Vamos coletar uma amostra aleatória simples com reposição (\(AAS_c\)) de tamanho \(n=2\) e calcular a média amostral.
Usaremos esta média amostral para estimar \(\mu\).
Quão útil é esta estimativa que se baseia em apenas 2 elementos da população?
Quão precisa?
Imagine que o aluno \(A\) coleta uma \(AAS_c\) com \(n=2\) a partir da população, obtém os dados e calcula \(\bar X\).
O aluno \(B\) coleta uma \(AAS_c\) com \(n=2\) a partir da população, obtém os dados e calcula \(\bar X\).
As duas médias amostrais serão necessariamente iguais?
A média amostral é uma v.a. e, portanto, tem uma distribuição de probabilidade.
Todas as combinações possíveis de valores para o primeiro e para o segundo elemento amostrados segundo o plano \(AAS_c\) com \(n=2\) são:
Possibilidades | \((X_1 = 1, X_2 = 1)\) | \((X_1 = 1, X_2 = 2)\) | \((X_1 = 2, X_2 = 1)\) | \((X_1=2,X_2=2)\) |
---|---|---|---|---|
\(\bar X\) | 1 | 1.5 | 1.5 | 2 |
\(P(X_1 = i, X_2 = j)\) | 0.25 | 0.25 | 0.25 | 0.25 |
\(\displaystyle \mathbb E(\bar X) = 1 \times \frac{1}{4} + 1.5 \times \frac{1}{2} + 2 \times \frac{1}{4} = \frac{3}{2} = 1.5\)
\(\begin{aligned} Var(\bar X) &= \mathbb E[(\bar X - \mathbb E(\bar X))^2 ] \\ &= (1 - 1.5)^2 \times \frac{1}{4} + (1.5 - 1.5)^2 \frac{1}{2} + (2 - 1.5)^2 \frac{1}{4} = \frac{1}{8} \end{aligned}\)
Note que: \(\displaystyle \mathbb E(\bar X) = \mu = \mathbb E(X)\) e \(\displaystyle Var(\bar X) = \frac{\sigma^2}{n} = \frac{Var(X)}{n}\).
Distribuição de probabilidade de \(X\) (esquerda) e de \(\bar X\) (direita):
Resultado: Seja \(X\) uma v.a. com média \(\mu\) e variância \(\sigma^{2}\) e \(X_{1}, \ldots, X_{n}\) uma amostra aleatória simples de \(X\). A média amostral \[\bar X_n = \frac{X_1 + \ldots + X_n}{n}\] tem as seguintes propriedades:
\[\mathbb E (\bar X_n) = \mu \qquad \mbox{e} \qquad Var(\bar X_n) = \frac{\sigma^2}{n}.\]
Ou seja, embora \(\mu\) seja desconhecido, sabemos que o valor esperado da média amostral é \(\mu\).
Além disso, conforme o tamanho amostral aumenta, a imprecisão da média amostral para estimar \(\mu\) fica cada vez menor, pois \(Var(\bar X) = \sigma^2/n\).
Exemplo: \(X_1, X_2, X_3\) ensaios de Bernoulli(p) independentes.
Usando o resultado enunciado anteriormente, temos a esperança e a variância da média amostral \(\bar X\): \(\mathbb E(\bar X) = \mu\) e \(Var(\bar X) = \frac{\sigma^2}{n}\).
No entanto, para conhecermos a distribuição de probabilidade de \(\bar X\), como foi feito no exemplo anterior, é preciso conhecer todos os valores possíveis de \(X\) e suas respectivas probabilidades.
Mas, se conhecermos tudo isso, não precisamos fazer amostragem nem inferência: saberemos tudo o que desejarmos daquela população!
O exemplo anterior foi um caso hipotético apenas para demonstrar como a média amostral \(\bar X\) se comporta quando realizamos a amostragem.
Na prática, não teremos informações suficientes para de fato descrevermos a distribuição exata de \(\bar X\).
Resultado
Para uma amostra aleatória simples \(X_1, \ldots ,X_n\) coletada de uma população com média \(\mu\) e variância \(\sigma^{2}\), a distribuição amostral de \(\bar X_{n}\) aproxima-se de uma distribuição Normal de média \(\mu\) e variância \(\frac{\sigma^{2}}{n}\), quando \(n\) for suficientemente grande.
Definimos também:
\[Z = \frac{\bar X_{n} - \mu}{\sigma / \sqrt{n}} \sim N(0,1)\]
Seja \(X_{1}, \ldots ,X_{n}\) uma amostra aleatória de tamanho \(n\) tal que \(X \sim Exp(2)\): \[f_{X_i}(x) = 2e^{-2x}, \qquad \mbox{para } x \geq 0\]
Então \(\mathbb E(X_i) = \frac{1}{2}\) e \(Var(X_i) = \frac{1}{4}\).
Suponha que \(X_{i}\) modela o tempo de vida de um transistor em horas. Os tempos de vida de 100 transistores são coletados. Desejamos estudar a variável aleatória \(\bar X_{100}\) (média amostral de uma amostra de tamanho 100). Sabemos: \[\mathbb E(\bar X_{100}) = \frac{1}{2} \qquad \mbox{e} \qquad Var(\bar X_{100}) = \frac{1/4}{100} = \frac{1}{400}.\]
Pelo TLC, temos que: \(\displaystyle \bar X_{n}\sim N \left(\frac{1}{2},\frac{1}{400}\right)\)
\(\begin{aligned} F_{\bar X_{100}}(x) = P\left(\bar X_{100} \leq x\right) & = P\left(\frac{\bar X_{100}-(1/2)}{(1/2)/\sqrt{100}} \leq \frac{x-(1/2)}{(1/2)/\sqrt{100}}\right) \\ & = P\left(Z \leq 10(2x-1) \right) \end{aligned}\)
e
\(\begin{aligned} P\left(\bar X_{100} \geq x\right) & = 1 - P\left(\bar X_{100} < x\right) \\ & = 1 - P\left(\frac{\bar X_{100}-(1/2)}{(1/2)/\sqrt{100}} \leq \frac{x-(1/2)}{(1/2)/\sqrt{100}}\right) \\ & = 1 - P\left(Z \leq 10(2x-1) \right) \end{aligned}\)
\(X=\) resultado obtido no lançamento de um dado honesto.
\(x\) | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
\(p(x)=P(X=x)\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) |
\(\mathbb E(X) = \frac{1}{6}\times(1+2+3+4+5+6) = \frac{21}{6} = 3.5\)
\(Var(X) = \frac{1}{6}[(1+4+9+16+25+36)-\frac{1}{6}\times(21)^{2}] = \frac{35}{2} = 17.5\)
Se temos uma amostra aleatória simples de tamanho \(n\): \(X_1,X_2,\ldots, X_n\), pelo TLC sabemos que a distribuição amostral de \(\bar X_n\) é aproximadamente Normal\(\left( 3.5, \frac{17.5}{n} \right)\).
O primeiro histograma a seguir mostra o resultado de 10000 repetições do seguinte experimento: observar o resultado do lançamento de 1 dado. Repare que é muito próximo de uma distribuição uniforme discreta (chance 1/6 para cada resultado).
O segundo histograma mostra o resultado de 10000 repetições do seguinte experimento: observar a média do lançamento de 2 dados (equivalente a observar a média de 2 lançamentos de um dado).
O último histograma mostra o resultado de 10000 repetições do seguinte experimento: observar a média do lançamento de 100 dados (equivalente a observar a média de 100 lançamentos de um dado).
Repare que conforme o número de dados (tamanho amostral) aumenta, a distribuição da média amostral se aproxima da distribuição normal com média 3.5 e variância cada vez menor (17.5/n).
Você pode verificar o comportamento de \(\bar X\) para várias distribuições de \(X\):
Consideremos uma população em que a proporção de indivíduos portadores de uma certa característica seja \(p\). \[ X_{i} = \left\{ \begin{array}{ll} 1, & \mbox{se o indivíduo i possui a característica} \\ 0, & \mbox{caso contrário} \\ \end{array} \right.\]
Veja que \(X_{i}\sim Bernoulli(p)\); \(i = 1, 2, \ldots, n\).
Se as observações são independentes: \(S_{n} = X_{1} + \ldots + X_{n} \sim Bin(n,p)\).
Após a coleta de uma amostra aleatória simples de \(n\) indivíduos, podemos considerar que um estimador de \(p\) é dado por:
\[\widehat{p} = \frac{S_{n}}{n} \quad \mbox{(média amostral)}.\]
Utilizando a distribuição exata (n pequeno): \[P\left(\widehat p = \frac{k}{n}\right) = P\left(\frac{S_{n}}{n} = \frac{k}{n}\right) = P\left(S_{n} = k\right) = {n \choose k} p^{k} \left(1-p\right)^{n-k},\]
para \(k=0,1,...,n\).
Utilizando a aproximação para a Normal (n grande): \[\widehat p \sim N\left(p, \frac{p(1-p)}{n} \right)\]
Se \(p\) for a proporção de fumantes no estado de SP (\(p=0.2\)) e tivermos coletado uma amostra aleatória simples de 500 indivíduos: \[ X_{i} = \left\{ \begin{array}{ll} 1, & \mbox{se o indivíduo i é fumante} \\ 0, & \mbox{caso contrário} \\ \end{array} \right.\]
Qual a probabilidade de que termos observado não mais que 25% de fumantes na amostra?
O estimador de \(p\) é: \(\widehat p = \frac{1}{500} \sum_{i=1}^{500} X_i\).
Pela aproximação Normal, \(\widehat p \sim N\left(0.2, \frac{0.2\times0.8}{500}\right) = N \left(0.2, 0.00032 \right)\)
\[P\left( \widehat p \leq 0.25 \right) = P \left(Z\leq 2.795 \right) = \Phi\left(2.795 \right) = 0.9974\]
Se \(\quad \widehat p = \frac{S_n}{n} \quad \Longrightarrow \quad S_n = n\widehat p\).
Quando \(n\) é grande o suficiente: \(\quad \widehat p \sim N \left(p, \frac{p(1-p)}{n}\right)\)
Nesse caso, qual a distribuição de \(S_n\)?
Vimos que \(S_n = X_1 + \ldots + X_n \sim Bin(n, p)\)
Pelas propriedades da distribuição Normal: \[S_n = n \widehat p \sim N \left(np, np(1-p) \right)\]
Portanto, quando \(n\) é grande, \(Bin(n, p) \approx N \left(np, np(1-p) \right)\)
Seja \(X \sim Bin(100, 0.4)\).
Qual a probabilidade de \(X\) ser menor ou igual a \(50\)?
Sabemos que:
\(\mathbb E(X) = 100 \times0.4 = 40\)
\(Var(X) = 100 \times 0.4 \times0.6 = 24\)
Como \(n\) é grande, podemos usar a aproximação \(X \approx N(40,24)\). Portanto,
\[P\left( X \leq 50 \right) = P\left(Z \leq \frac{50-40}{\sqrt{24}}\right) \approx \Phi \left( \frac{10}{\sqrt{24}} \right) = \Phi \left(2.04 \right) \approx 0.9793\]
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Benilton Carvalho