Notícia
Trabalho “Aprendizado estatístico não supervisionado aplicado aos indicadores obstétricos dos municípios do Brasil”
21/03/2022
Notícia
- Autores:
- Mariana Machado Matheus ,
Resumo
O aprendizado estatístico não supervisionado se refere a técnicas estatísticas de análise de dados não rotulados, de forma que não temos um gabarito para verificar a efetividade do método utilizado. Essas técnicas se fazem úteis quando se deseja criar ou avaliar a existência de subgrupos em relação a um conjunto de variáveis da população. Os métodos de agrupamento se baseiam em medidas de dissimilaridade, que quantificam a diferença entre observações, para realizar a partição dos dados, de forma que objetos contidos em um grupo sejam similares entre si e distintos dos demais. Técnicas mais tradicionais utilizam medidas de distância para essa partição, porém não é necessário que sejam limitadas a isso, existindo métodos mais recentes que trazem propostas diferentes de abordagem na temática de agrupamento. Tivemos como intuito, então, utilizar de diferentes técnicas de agrupamento para criar grupos de municípios brasileiros que se assemelham quanto a indicadores obstétricos obtidos através do Sistema de Informações sobre Nascidos Vivos (SINASC). Ao considerar a dimensão do Brasil, é natural que seus mais de 5.500 municípios apresentem características diversas em relação às mais variadas taxas, dentre elas, os indicadores obstétricos, que são importantes ferramentas para conhecimento e entendimento da qualidade da gestão da saúde materno-infantil de um município. Nesse trabalho foram discutidos diferentes métodos de agrupamento de dados, desde o clássico k-médias até alguns mais recentes, considerando outros métodos de particionamento, hierárquicos, de densidade e de agrupamento espectral. Foram discutidas, também, técnicas de validação e avaliação dos grupos formados a partir desses métodos. Alguns métodos apresentaram uma tendência a agrupar municípios com valores discrepantes, o que foi observado com mais intensidade nos hierárquicos aglomerativos, com exceção do método de Ward. Esse comportamento se refletiu nas medidas de avaliação, em que três das quatro métricas estudadas atribuíram a agrupamentos com esse problema os melhores índices. Foi utilizado, então, o índice de Calinski-Harabasz para selecionar o melhor agrupamento, que se mostrou mais apropriado aos dados do estudo, atribuindo melhores valores a agrupamentos que não apenas separavam outliers. Por esse índice o agrupamento feito pelo K-médias foi selecionado. Com o resultado do agrupamento, foi observado um grupo mais concentrado na região norte do país, que apresenta piores indicadores de acesso a serviço de saúde além de, analisando dados socioeconômicos do Censo brasileiro de 2010, ter apresentado piores indicadores de renda per capita e índice de desenvolvimento humano. Foi, ainda, realizado um estudo de simulação para melhor entendimento dos métodos estudados, avaliando a qualidade do agrupamento utilizando dados já rotulados, além de observar o comportamento das medidas de validação nesse cenário. Como resultado foi observado um comportamento que confirmava a adequação do K-médias utilizando como métricas de avaliação as medidas estudadas.
Esse Trabalho de Conclusão de Curso completo pode ser acessado clicando no botão abaixo.