Download k - CIn/UFPE - Universidade Federal de Pernambuco

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Aula Pratica
Aprendizagem WEKA
Prof. Ivan Gesteira Costa Filho
Centro de Informática
Universidade Federal de Pernambuco
Weka
 Coleção de Métodos de Aprendizagem de Maquina


Implementado em Java
Open Source
http://www.cs.waikato.ac.nz/ml/weka/
 Livro
Ian H. Witten, Eibe Frank, Data Mining: Practical Machine
Learning Tools and Techniques (Second Edition),
Morgan Kaufmann
Weka
 Funcionalidade


Escolha de Atributos e Filtros
Classificação




Arvores de Decisão, Bayesiano Ingênuo, Perceptron,
SVM, e muito mais …
Agrupamento
Seleção de Atributos
Visualização
Weka
 Baixar o programa de

www.cin.ufpe.br/~igcf/si/
 Instalar em c:\temp e rodar ...
 Abrir arquivo no problema de Jogar Tênis

<instalacao weka>/data/weather.arff
Weka
Formato de entrada (arff)
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
Atributos
Instancias
Weka
 Rodar Weka …
Weka Design Experimental
 Como avaliar métodos de classificação?
 Erro no conjunto de treinamento não é valido

Pode ser apenas sinal de overfitting
 Separar Exemplos para validação e teste
Validação – escolha de parâmetros
Teste – avaliação dos resultados
Validação Cruzada – k-fold
Treino
Teste
k=3
X
• Quando k = no dados  leave-one-out
Média Erro e
desvio-padrão
de desempenho
Matriz de confusão
 Oferece uma medida da efetividade do
modelo de classificação


Mostra o número de classificações reais contra
as classificações preditas, em cada classe
Os resultados são sumarizados em uma matriz
de duas dimensões

Classes verdadeiras x Classes preditas
Matriz de confusão
M (C i ,C j ) 
h x   C j

yT y C 
x ,
 : 
i
Matriz de confusão
 Número de predições corretas: diagonal da
matriz

Outros elementos correspondem números de
erros
Matriz de confusão
 Por simplicidade, sejam duas classes: + e -
n = TP + TN + FP + FN
Matriz de confusão
 Várias medidas de desempenho podem ser obtidas da
matriz de confusão:
TP  TN
 Taxa de acerto
Ac 
n
TP
 Sensibilidade ou revocação (recall)
Sen 
TP  FN
TN
 Especificidade (precision)
Esp 
FP  TN

F-measure
Novos dados
 Abrir dados soybean
 Classificação de Doenças de Soja


A partir de sintomas das soja
19 classes e 683 instancias
Conjunto de dados
 Problema:

Classificação de câncer a partir do perfil de
expressão dos pacientes
 http://www.cin.ufpe.br/~igcf/weka_format/
golub-1999-v1.arff

Conjunto de dados já foi pré-processado para extrair
genes mais informativos

Originalmente mais de 10.000 Genes