Covid Data Analytics: Repositório de Dados Provenientes de Múltiplas Fontes sobre a Pandemia de COVID-19 no Brasil

Main Authors: Pedro Victor Xavier Moreira, Ramon Adrian Salinas Franco, Rodrigo Machado Fonseca, Alan Cabral Trindade Prado, Luvison Leal, Gabriel Nunes Mendes, Turi Andrade Vasconcelos Rezende
Format: info dataset Journal
Bahasa: por
Terbitan: , 2021
Subjects:
Online Access: https://zenodo.org/record/6245130
Daftar Isi:
  • Uma estratégia para melhor compreender as diversas facetas e possíveis impactos da pandemia de COVID-19 na sociedade consiste na extração de informação e conhecimento a partir de dados provenientes de diversas fontes oficiais e não oficiais. A importância desse tema fomentou a publicação de diversos artigos científicos que investigam aspectos relacionados à pandemia de COVID-19 no Brasil por meio de análises de dados. Alguns trabalhos, por exemplo, fornecem caracterizações e descrições da evolução da doença no país~\cite{ranzani2021characterisation}, considerando, inclusive, a subnotificação de casos pelas agências oficiais. Outros modelam e preveem a evolução da COVID-19, utilizando dados referentes aos primeiros meses da pandemia e empregando diferentes métodos ou mesmo utilizando dados de geolocalização e de dinâmica populacional. Nesse contexto, é importante que, sempre que possível, os dados utilizados para as pesquisas sejam disponibilizados à comunidade científica, seja para fins de replicabilidade dos resultados encontrados, seja para a promoção de novas investigações. Os dados disponibilizados no repositório CDA se referem ao período entre 23 de fevereiro de 2020 e 8 de maio de 2021. Esse repositório agrega 1.508 arquivos, classificados em dois tipos principais: (i) bases de dados e tabelas extraídas das fontes descritas anteriormente; e (ii) artigos, relatórios, mapas e gráficos produzidos pelos integrantes do projeto a partir da análise dos dados coletados Dados de Fontes Externas Estes arquivos representam 8\% do total de arquivos que compõem o repositório e estão distribuídos da seguinte maneira: Séries temporais com indicadores econômicos das Unidades Federativas do Brasil e da União em formato .csv, com aproximadamente 18.400 registros; 7 scripts de tratamento de dados em formato .py. 5 arquivos com a contagem do número de tweets e retweets coletados semanalmente utilizando 13 palavras-chave (“corona”, “covid”, “coronavirus”, “covid19”, “quarentena”,“hidroxicloroquina”, “cloroquina”, “confinamento”, “distanciamento social”, “aglomeração”, “aglomerações”, “sars” e “covid-19”) formato .csv 3 arquivos do Google Trends no formato .csv com 249 registros contendo 124 termos pré-selecionados que têm relação com a pandemia e o percentual relativo de buscas na web nos níveis regional e nacional. %\ana{de novo, o que tem nestes csvs?}. 7 arquivos como dados anonimizados do Instagram no formato .csv com 90.787 hashtags contendo os termos \#demito, \#demitida, \#desempregada, \#desempregado, \#desemprego, \#falido, \#reduçãodejornada. Análises e Relatórios Os arquivos com as análises e relatórios representam 92\% do total de arquivos do repositório. Além de documentos de texto, também foram disponibilizados materiais visuais, como mapas e gráficos, em diversos formatos. Os arquivos estão distribuídos da seguinte maneira. 23 gráficos comparativos de indicadores sociais e econômicos, análises descritivas dos ocupados em atividades essenciais e não essências por regiões em formato .svg; 409 gráficos de novos casos e óbitos (02 a 09 de setembro) em formato .png; 522 mapas e gráficos de linhas e barras acerca dos casos e óbitos acumulados de COVID-19 em todo o país entre as semanas epidemiológicas 9 e 32 de 2020 (23/02/2020 a 08/08/2020) em formato .png; 15 arquivos de medidas provisórias em formato .pdf; 1 gráfico interativo gerado a partir do cálculo da mortalidade (óbitos acumulados por 100 mil habitantes) no Brasil em formato .html; 25 animações mostrando a evolução da letalidade (mortes acumuladas / casos acumulados) em \% em todos estados do Brasil a cada semana epidemiológica da 9a à 31a em formato .gif; 1 relatório sobre análises das informações disponíveis para coleta na ferramenta Google Trends em formato .pdf; 4 relatórios sobre análises das informações disponíveis dos grupos de pesquisa em formato .pdf; Limitações nas Bases de Dados Disponibilizadas Devido a questões de privacidade, algumas bases de dados, obtidas através da extração de informações das redes sociais online não foram integralmente disponibilizadas no repositório. Nestes casos, disponibilizamos análises extraídas a partir destas bases, realizadas com o propósito de responder algumas das perguntas de pesquisa do projeto. As análises realizadas durante o projeto estão disponíveis em \url{https://covid.dcc.ufmg.br/}. A disponibilização dos dados ocorreu por meio do padrão Open Data Standards e, a partir dele, foram criados e organizados os arquivos, de acordo com o respectivo formato e tipo de informação. Eles foram integrados ao drive do grupo tecnológico por intermédio de um formulário, e utilizaram-se de um script para transformar os dados do formulário em um arquivo XML. Como resultado, pôde-se modelar e preencher o banco de dados a partir do arquivo XML e, por fim, integrá-lo a um buscador criado em Wordpress, que fica disponível para download no portal do projeto CDA maiores informações: https://covid.dcc.ufmg.br/linhas/dados/