Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco Weka Coleção de Métodos de Aprendizagem de Maquina Implementado em Java Open Source http://www.cs.waikato.ac.nz/ml/weka/ Livro Ian H. Witten, Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques (Second Edition), Morgan Kaufmann Weka Funcionalidade Escolha de Atributos e Filtros Classificação Arvores de Decisão, Bayesiano Ingênuo, Perceptron, SVM, e muito mais … Agrupamento Seleção de Atributos Visualização Weka Baixar o programa de www.cin.ufpe.br/~igcf/si/ Instalar em c:\temp e rodar ... Abrir arquivo no problema de Jogar Tênis <instalacao weka>/data/weather.arff Weka Formato de entrada (arff) @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes Atributos Instancias Weka Rodar Weka … Weka Design Experimental Como avaliar métodos de classificação? Erro no conjunto de treinamento não é valido Pode ser apenas sinal de overfitting Separar Exemplos para validação e teste Validação – escolha de parâmetros Teste – avaliação dos resultados Validação Cruzada – k-fold Treino Teste k=3 X • Quando k = no dados leave-one-out Média Erro e desvio-padrão de desempenho Matriz de confusão Oferece uma medida da efetividade do modelo de classificação Mostra o número de classificações reais contra as classificações preditas, em cada classe Os resultados são sumarizados em uma matriz de duas dimensões Classes verdadeiras x Classes preditas Matriz de confusão M (C i ,C j ) h x C j yT y C x , : i Matriz de confusão Número de predições corretas: diagonal da matriz Outros elementos correspondem números de erros Matriz de confusão Por simplicidade, sejam duas classes: + e - n = TP + TN + FP + FN Matriz de confusão Várias medidas de desempenho podem ser obtidas da matriz de confusão: TP TN Taxa de acerto Ac n TP Sensibilidade ou revocação (recall) Sen TP FN TN Especificidade (precision) Esp FP TN F-measure Novos dados Abrir dados soybean Classificação de Doenças de Soja A partir de sintomas das soja 19 classes e 683 instancias Conjunto de dados Problema: Classificação de câncer a partir do perfil de expressão dos pacientes http://www.cin.ufpe.br/~igcf/weka_format/ golub-1999-v1.arff Conjunto de dados já foi pré-processado para extrair genes mais informativos Originalmente mais de 10.000 Genes