Python para enfermeiras 23 Seguimos com o estudo da linguagem Python. Experimentando um modelo de Machine Learning, segundo Data Science Academy. Nosso dataset ou conjunto de dados: Conjunto de Dados do Repositório de Machine Learning da UCI / Kaggle https://www.kaggle.com/uciml/pima-indians-diabetes-database/dataO dataset (df) tem 768 linhas (observações ou registro de pacientes) e 10 colunas (variáveis)Os índices (posições) em Python começam em 0 (zero) e representam os(as) pacientes Nas colunas temos as variáveis preditoras e a variável alvo (diabetes). Por exemplo, no índice 0, a pessoa tem atributos e desenvolveu diabetes (True). Por sua vez, no índice 1, a pessoa tem também muitos atributos, mas não desenvolveu diabetes (False).Neste conjunto de dados não há valores nulos. Se houvesse um tratamento do banco de dados seria necessário com outras técnicas e funções.Em diagonal e amarelo vemos a correlação de cada variável com ela mesma (-1 a 1). Aqui no exemplo, não há valores nulos (vazios) ou faltando. Mas, o 0(zero) em algumas variáveis representa justamente a falta do valor informado por quem coleta (é como a variável "ignorado" incluída arbitrariamente no quesito cor). É preciso corrigir isso para alimentar corretamente o modelo de ML buscando os valores 0(zero) no dataset (poderia se buscando "ignorado"). Isso é um valor missing oculto. E há técnicas para corrigir isso também. Substituindo os valores iguais a zero, pela média dos dadosA fase exploratória e de tratamento dos dados é indispensável!!! De cada 100 previsões o modelo acerta 75. FP ou erro tipo I = 33; FN ou erro tipo II = 28 Amentou a precisão ou acurácia do modelo!!!Pouca alteração no teste Para nossa escolha de algoritmo no teste # Modelo usando algoritmo Naive Bayes = 0.7359 # Modelo usando algoritmo Random Forest = 0.7400 # Modelo usando algoritmo Regressão Logística = 0.7446O algoritmo de regressão logística mostrou maior acurácia no teste (modelo v3) Ainda não dá para analisar. Por enquanto só ver se funciona...No dataset Teste, a pessoa na posição 15 não tem diabetes e a pessoa na posição 18 tem diabetesPara o momento deu para ter uma ideia rápida da amplitude do trabalho de análise de dados, ms igualmente dos recursos digitais disponíveis. Vamos estudando e até a próxima postagem!!

Apontamentos

  • Não há apontamentos.


BNN - ISSN 1676-4893 

Boletim do Núcleo de Estudos e Pesquisas sobre as Atividades de Enfermagem (NEPAE)e do Núcleo de Estudos sobre Saúde e Etnia Negra (NESEN).