Apresentação do trabalho “Análise de incompletude em dados públicos da área de saúde materna no Brasil”

04/10/2021

Notícia

Olá, pessoal. Hoje estou aqui para contar para vocês um pouco sobre meu trabalho de análise dos dados de prematuridade (ou seja, dos partos que ocorrem antes de 37 semanas de gestação), do SINASC, o Sistema de Informações sobre de Nascidos Vivos. O foco principal do trabalho é a questão da incompletude a respeito da idade gestacional no momento do parto, que nada mais é do que a proporção de dados faltantes/informação ignorada. Mas o que isso quer dizer?

Bom, isso significa que nem todos os partos que acontecem no Brasil são registrados de maneira correta. A Declaração de Nascido Vivo (DN) é o documento padronizado para a coleta dos dados do SINASC. Ela é composta por 52 campos, dentre os quais podemos destacar: informações da mãe (idade, raça/cor, estado civil, escolaridade, ocupação, número de filhos vivos e mortos, município de residência etc), informações sobre o recém-nascido (peso, raça/cor, apgar no primeiro e no quinto minuto, anomalias congênitas etc), informações sobre a gestação (número de consultas de pré-natal, idade gestacional, tipo de gravidez, tipo de parto, data do nascimento etc), e informações sobre o local de ocorrência do parto. A partir do momento que alguns campos da DN não são preenchidos, surge um novo problema: os dados faltantes.

Isso é um problema porque deixamos de conhecer o cenário com precisão, e isso torna ainda mais difícil pensar em políticas públicas que sejam eficazes para a solução do problema. No entanto, antes de fazer qualquer tipo de tratamento nos dados faltantes, é preciso tentar entender o motivo pelo qual eles surgiram, assim como avaliar a qualidade dos dados em questão a partir de indicadores de qualidade de dados, como, por exemplo, a incompletude.

Para esse trabalho, tivemos o interesse em estudar a incompletude da idade gestacional do parto (IGP) com relação aos indicadores socioeconômicos por meio de um modelo de regressão. Como a proporção desses dados está limitada no intervalo (0, 1), o modelo de regressão beta pode ser considerado. A hipótese considerada foi sobre a existência de associação entre a incompletude para prematuridade e os indicadores socioeconômicos. Em outras palavras, queremos avaliar se estados e municípios com altos valores de incompletude de IGP também são aqueles com os piores indicadores socioeconômicos.

Os indicadores socioeconômicos considerados foram: o Índice de Desenvolvimento Humano Municipal (IDHM) e suas três vertentes (Educação, Longevidade e Renda), o Índice de Gini, a Taxa de Analfabetismo, a Taxa de Água (percentual da população urbana residente em domicílios ligados à rede de abastecimento de água), a Taxa de Esgoto (percentual da população urbana residente em domicílios ligados à rede de esgotamento sanitário) e Esperança de vida.

O modelo de regressão beta possui uma estrutura de regressão para modelar a média da resposta (Y) junto com um parâmetro de precisão. Neste caso, o interesse é modelar a média (valor esperado da incompletude para prematuridade) em função das variáveis explicativas, tais como IDHM, Índice de Gini, Taxa de Água etc. O modelo de regressão beta inflacionado em zero é uma mistura de distribuições: uma discreta degenerada em zero que permite valores iguais a zero e uma distribuição contínua (distribuição Beta) para o restante das observações, que estão limitadas no intervalo (0, 1).

Para os dados estaduais, a incompletude para prematuridade estava limitada no intervalo (0, 1), ou seja, não permite valores iguais a 0 e 1 e por isso os modelos de regressão beta com dispersão fixa e com dispersão variável foram considerados. Para os dados municipais seguimos a mesma lógica do que foi feito para os estados, porém 35,04% dos municípios (1204 observações) tiveram incompletude para prematuridade igual a zero, ou seja as observações estavam limitadas no intervalo [0, 1). Sendo assim, os modelos de regressão beta com dispersão fixa e com dispersão variável não se ajustaram bem aos dados (isso nos mostra o quanto é importante usar a abordagem certa para cada caso) e, por esse motivo, o modelo de regressão beta inflacionado em zero foi considerado.

No modelo final do ajuste para estados, observamos que apenas as variáveis IDHM e Água foram significantes para o modelo. As duas variáveis apresentam relação negativa com a incompletude esperada e foi possível perceber que, independentemente do valor da Água, para os menores valores do IDHM (< 0,18, aproximadamente), a incompletude esperada é bem próxima de 1. Em contrapartida, também independente do valor da Água, para os maiores valores do IDHM (> 0,7), a incompletude esperada é muito próxima de zero, principalmente para valores da Água maiores que 40%. Para valores de IDHM entre 0,18 e 0,7, aproximadamente, os valores da incompletude esperada variam entre 0,4 e 0,7, a depender do valor da Água.

Para a incompletude para prematuridade em nível municipal, foram significativas as variáveis IDHM Longevidade, IDHM Renda, Água/esgoto e Nascimentos para a probabilidade de incompletude ser igual a zero, em que as variáveis de IDHM apresentam uma relação positiva com a probabilidade de incompletude zero e as demais variáveis significativas apresentam uma relação inversa. Já as variáveis IDHM Educação, IDHM Renda e Nascimentos foram significativas para a incompletude esperada condicional a estar no intervalo (0, 1), em que todas elas apresentam relação negativa com a incompletude esperada.


Veja a apresentação deste trabalho no vídeo abaixo:

Link do acesso ao trabalho completo