Análise de Dados
Para o estudo futuro de vários algoritmos de aprendizagem, são necessários alguns conceitos de probabilidade e estatística.
Variáveis
Na tarefa da análise de dados, podemos lidar com uma ou mais variáveis. Estas variáveis podem ser categóricas ou qualitativas (como a classe de uma observação), ou podem ser numéricas, descrevendo quantidades. Este último tipo de variáveis subdivide-se em variáveis contínuas e variáveis discretas.
As variáveis contínuas podem ser tornadas em variáveis discretas através de um processo de discretização (por exemplo, transformar alturas em intervalos de alturas).
Exploração de Dados
Esta é uma etapa essencial para conhecer e aprender através do conjunto de dados. Algumas métricas importantes para variáveis categóricas são a moda, frequência e probabidade. Dados numéricos podem ser representados e estudados através de um histograma, através dos quantis, e funções de probabilidade.
O processo de fitting corresponde à aprendizagem de parâmetros de uma função de probabilidade através do conjunto de dados.
Estatística para Uma Variável
Métricas de Localização
As métricas de localização permitem-nos localizar os dados. Tais métricas incluem a média, moda, média harmónica e a média aparada (que corresponde à média da amostra, descartando algumas das observações dos extremos da função de probabilidade).
Métricas de Dispersão
As medidas de dispersão quantificam a variabilidade presente nos dados. Definimos o desvio padrão como a raíz quadrada da variância. Ao quantificar a variabilidade da amostra, é comum sobreestimar a variabilidade, pois não é possível conhecer toda a população.
Outliers
Os outliers correspondem a observações que tomam valores incomuns. As métricas da média e da variância são são baseadas em médias, pelo que são sensíveis à presença de outliers nos dados.
De modo a detetar a presença de outliers, é comum utilizar a métrica do intervalo interquartil (interquartile range), definida como a diferença entre o maior valor presente o terceira quartil e o menor valor do primeiro quartil.
As observações que não pertencem ao intervalo abaixo são consideradas outliers.
Os diagramas de caixa (boxplots) são úteis para visualizar a presença de outliers.
Estatística para Várias Variáveis
Ao tratar mais do que uma variável, o interesse está em descobrir qual a correlação entre cada par de variáveis. Se duas variáveis estiverem altamente correlacionadas, estamos perante variáveis redundantes. Assim, escolhemos a variável com a maior variabilidade, pois possui maior poder discriminativo.
Covariância
A covariância permite descrever a relação entre um par de variáveis.
Correlação de Pearson
O coeficiente de correlação de Pearson permite quantificar a correlação linear entre duas variáveis. É de notar que as variáveis têm de ser numéricas e o coeficiente é apenas capaz de identificar correlações lineares. Mesmo que as variáveis estão correlacionadas de outra forma (por exemplo quadraticamene), o coeficiente não é capaz de capturar esta correlação.
O valor de varia no intervalo . Um sinal positivo indica uma correlação direta (se o valor de aumenta, o valor de também aumenta) e um sinal negativo indica uma correlação inversa (se o valor de aumenta, o valor de diminui). O valor nulo indica que as duas variáveis não estão relacionadas.
Rank de Spearman
A métrica do rank de Spearman permite avaliar a correlação (não apenas linear) entre duas variáveis.
É calculado o rank de cada uma das variáveis, sendo de seguida calculada o coeficiente da correlação Pearson dos ranks calculados.
O cálculo dos ranks começa pela ordenação crescente dos valores da variável. De seguida, é atribuído um rank a cada valor, de forma sequencial. Se existirem valores repetidos, o rank desse valor será a média das posições que os valores ocupam.
Exemplo
y1 | 1 | 3 | 3 | 5 | 7 | 7 | 7 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|
rank | 1 | 2.5 | 2.5 | 4 | 6 | 6 | 6 | 8 | 9 |
No exemplo acima, o valor 3 vê-se repetido nas posições 2 e 3. Como tal, este recebe um rank de . De forma semelhante, o valor 6 vê-se repetido nas posições 5, 6 e 7. Como tal, recebe um rank de .