Estatística

Estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequência da ocorrência de eventos^[1], tanto em estudos observacionais quanto em experimentos para modelar a aleatoriedade e a incerteza de forma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso.

Algumas práticas estatísticas incluem, por exemplo, o planejamento, a sumarização e a interpretação de observações. Dado que o objetivo da estatística é a produção da melhor informação possível a partir dos dados disponíveis, alguns autores sugerem que a estatística é um ramo da teoria da decisão.

Devido às suas raízes empíricas e seu foco em aplicações, a estatística geralmente é considerada uma disciplina distinta da matemática, e não um ramo dela.^[2]^[3]

A estatística é uma ciência que se dedica à coleta, análise e interpretação de dados. Preocupa-se com os métodos de recolha, organização, resumo, apresentação e interpretação dos dados, assim como tirar conclusões sobre as características das fontes donde estes foram retirados, para melhor compreender as situações.

Etimologia

O termo estatística surge da expressão em latim statisticum collegium palestra sobre os assuntos do Estado, de onde surgiu a palavra em língua italiana statista, que significa “homem de estado”, ou político, e a palavra alemã Statistik, designando a análise de dados sobre o Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por Schmeitzel na Universidade de Jena e adotada pelo acadêmico alemão Godofredo Achenwall. Aparece como vocabulário na Enciclopédia Britânica em 1797, e adquiriu um significado de coleta e classificação de dados, no início do século XIX.

História

De acordo com a Revista do Instituto Internacional de Estatística, “Cinco homens, Hermann Conring, Gottfried Achenwall, Johann Peter Süssmilch, John Graunt e William Petty já receberam a honra de serem chamados de fundadores da estatística por diferentes autores.”^[4]

Alguns autores dizem que é comum encontrar como marco inicial da estatística a publicação do “Observations on the Bills of Mortality“ (Observações sobre os Censos de Mortalidade, 1662) de John Graunt. As primeiras aplicações do pensamento estatístico estavam voltadas para as necessidades de Estado, na formulação de políticas públicas, fornecendo dados demográficos e econômicos. A abrangência da estatística aumentou no começo do século XIX para incluir a acumulação e análise de dados de maneira geral. Hoje, a estatística é largamente aplicada nas ciências naturais, e sociais, inclusive na administração pública e privada.

Seus fundamentos matemáticos foram postos no século XVII com o desenvolvimento da teoria das probabilidades por Pascal e Fermat, que surgiu com o estudo dos jogos de azar. O método dos mínimos quadrados foi descrito pela primeira vez por Carl Friedrich Gauss cerca de 1794. O uso de computadores modernos tem permitido a computação de dados estatísticos em larga escala e também tornaram possível novos métodos antes impraticáveis.

Fundamentos

Ligações para estatística observacional fenômeno são coletados pelos fenômenos estatísticos.

Estatística inferencial é o conjunto de técnicas utilizadas para identificar relações entre variáveis que representem ou não relações de causa e efeito;
Estatística robusta é o conjunto de técnicas utilizadas para atenuar o efeito de outliers e preservar a forma de uma distribuição tão aderente quanto possível aos dados empíricos.

A estatística não é uma ferramenta matemática que nos informa sobre o quanto de erro nossas observações apresentam sobre a realidade pesquisada. A estatística baseia-se na medição do erro que existe entre a estimativa de quanto uma amostra representa adequadamente a população da qual foi extraída. Assim o conhecimento de teoria de conjuntos, análise combinatória e cálculo são indispensáveis para compreender como o erro se comporta e a magnitude do mesmo. É o erro (erro amostral) que define a qualidade da observação e do delineamento experimental.

A faceta dessa ferramenta mais palpável é a estatística descritiva. A descrição dos dados coletados é comumente apresentado em gráficos ou relatórios e serve tanto a prospecção de uma ou mais variáveis para posterior aplicação ou não de testes estatísticos bem como a apresentação de resultados de delineamentos experimentais.

Nós descrevemos o nosso conhecimento de forma matemática e tentamos aprender mais sobre aquilo que podemos observar. Isto requer:

O planejamento das observações por forma a controlar a sua variabilidade (concepção do experimento);
Sumarização da coleção de observações;
Inferência estatística – obter um consenso sobre o que as observações nos dizem sobre o mundo que observamos.

Em algumas formas de estatística descritiva, nomeadamente mineração de dados (data mining), os segundo e terceiro passos tornam-se normalmente mais importantes que o primeiro.

A probabilidade de um evento é definida como um número entre zero e um.

Normalmente aproximamos a probabilidade de alguma coisa para cima ou para baixo porque elas são tão prováveis ou improváveis de ocorrer, que é fácil de reconhecê-las como probabilidade de um ou zero. Entretanto, isso pode levar a desentendimentos e comportamentos perigosos, porque é difícil distinguir entre, uma probabilidade de 10⁻⁴ e uma de 10⁻⁹, a despeito da grande diferença numérica entre elas. Por exemplo, se você espera atravessar uma estrada 10⁵ ou 10⁶ vezes na sua vida, definir o risco de atravessá-la em 10⁻⁹ significa que você está bem seguro pelo resto da sua vida. Entretanto, um risco de 10⁻⁴ significa que é bem provável que você tenha um acidente, mesmo que intuitivamente um risco de 0,01% pareça muito baixo.

Estatística computacional

O crescimento rápido e sustentados no poder de processamento dos computadores a partir da segunda metade do século XX teve um forte impacto na prática da estatística. Os modelos estatísticos mais antigos eram quase sempre lineares, mas os computadores modernos, junto com algoritmos numéricos apropriados, causaram um aumento do interesse nos modelos não-lineares (especialmente redes neurais e árvores de decisão) assim como na criação de novos tipos, como o modelo linear generalizado e o modelo multi-nível.

O aumento na capacidade de computação também tem levado à popularização de métodos que demandam muitos cálculos baseados em reamostragem (em inglês e no jargão do meio resampling), como testes de permutação e bootstrap, enquanto técnicas como a amostragem de Gibbs tem feito com que os métodos de Bayes fiquem mais fáceis. A revolução informática também tem levado a um aumento na ênfase na estatística “experimental” e “empírica”. Um grande número de softwares estatísticos, de uso tanto geral como específico estão disponíveis no mercado.