covid19pt-data

by dssg-pt

😷️🇵🇹 Dados relativos à pandemia COVID-19 em Portugal

270 Stars 85 Forks Last release: Not found GNU General Public License v3.0 651 Commits 0 Releases

Available items

No Items, yet!

The developer of this repository has not created any items for sale yet. Need a bug fixed? Help with integration? A different license? Create a request here:

😷️🇵🇹 Dados relativos à pandemia COVID-19 em Portugal

📅️ Última actualização: 6 de Outubro de 2020, 16:26

ℹ️ Fonte dos dados: Direcção Geral de Saúde - Ministério da Saúde Português, através do dashboard do COVID-19 (aqui) e da base de dados da ESRI Portugal aqui, desde 03/03/2020.

👁️ Utilizaste estes dados para análises/plataformas/notícias?: Deixa-nos detalhes aqui.

✉️ Carta Aberta à Direcção Geral de Saúde: Escrevemos um relatório em formato de Carta Aberta que contém tudo o que aprendemos acerca da estratégia de dados da DGS a respeito do COVID-19. Nesta carta fazemos várias sugestões no sentido de criar uma verdadeira cultura de dados abertos no seio desta organização. Se fazes parte de uma organização que partilha estes valores, a carta pode ser assinada aqui

🤔 Contexto

Embora a comunicação e partilha de dados por parte do Ministério de Saúde Português tenha melhorado consideravelmente ao longo da crise do COVID-19, ainda está longe de ideal (havendo a destacar o exemplo do repositório da Protecção Civil Italiana no GitHub).

A informação disponibilizada pela Direcção Geral de Saúde (DGS), para além de não ter o nível de granularidade da das autoridades italianas, também não é disponibilizada em formatos abertos e facilmente inspeccionáveis/manipuláveis. Ficam assim dificultadas tarefas de análise, modelação e visualização por parte da comunidade (quer mais informal, quer mais académica/industrial) disposta a colaborar no combate à pandemia com as ferramentas que conhece: as de análise de dados.

❗ O compromisso deste repositório é justamente esse: todos os dias enquanto esta pandemia durar, o ficheiro

data.csv
será actualizado com a informação mais recente disponibilizada pela Direcção Geral de Saúde. Esta informação será extraída das fontes de dados da dashboard assim que disponbilizada (por vezes algumas horas depois do lançamento do relatório).

A estrutura base deste ficheiro, desenhada para fácil manipulação em Excel/Python/R não mudará, podendo a comunidade analítica considerá-lo um alvo imutável (em termos de localização e estrutura) para, por exemplo, alimentar plataformas de visualização/modelação. De notar que, mediante a evolução do formato dos relatórios de situação, poderão ser adicionadas novas colunas, mantendo-se claro a retrocompatibilidade. Fontes adicionais de dados poderão também ser adicionadas.

Porque tudo começa com bons dados.

👁️ Aplicações deste repositório

🧱 Estrutura

O repositório está organizado da seguinte forma: +

data.csv
: o Pastel de Nata. Dados extraídos do boletim diário da DGS. +
amostras.csv
: contém dados diários relativos às amostras, extraídos do dashboard da DGS. +
data_concelhos.csv
: contém dados diários acumulados relativos aos confirmados por concelho, extraídos do dashboard da DGS (e por isso sujeito às mesmas limitações relativamente a abrangência e protecção de dados). Esta série de dados tem início a 24-03-2020. +
archive/
: arquivo de todos os relatórios de situação disponibilizados pela DGS, em formato
.pdf
. Os relatórios são disponibilizados diariamente, desde o dia 03-03-2020. +
notebooks/
: contém um notebook Python com um exemplo simples de como carregar e visualizar os dados. +
extra/
: contém fontes de dados extras que podem ser usadas para complementar as análises dos restantes dados. As descrições dessas fontes de dados encontram-se dentro de um README nessa pasta.

📡 API Rest para os dados portugueses e mundiais

Em conjunto com a VOST Portugal, desenvolvemos uma API disponível a todos com os dados disponibilizados deste repositório, numa tentativa de dar uma ferramenta mais acessível a todos os que querem analisar os dados. Podem aceder e consultar a documentação aqui: https://covid19-api.vost.pt

(Versão anterior, desatualizada) Autor: Carlos Matos | Grupo IFT

Dados em versão API com resposta JSON, atualização diária conforme esta base de dados e dados da OMS para o endpoint dos dados mundiais por país. Acesso via RapidApi, com exemplos de requisição e resposta, exemplos de clients e SDK.

📔 Dicionário dos dados

Uma explicação do conteúdo em

data.csv
.

📝 ARS: Administração Regional de Saúde

| Nome da coluna | Significado | Possíveis valores | | ------------- |:-------------:| -----:| |

data
| Data da publicação dos dados. | DD-MM-YYYY | |
data_dados
| Data e hora da recolha dos dados apresentados (quando omitida nos relatórios, assume-se como sendo a data da publicação dos dados). Geralmente, os dados são reportados até às 24h do dia anterior à
data
(equivalentes às 00h do dia de
data
, sendo este último o formato utilizado).
| DD-MM-YYYY HH:MM| |
confirmados
| Casos confirmados | Inteiro >= 0 | |
confirmados_arsnorte
| Casos confirmados na ARS Norte | Inteiro >= 0 | |
confirmados_arscentro
| Casos confirmados na ARS Centro | Inteiro >= 0 | |
confirmados_arslvt
| Casos confirmados na ARS Lisboa e Vale do Tejo | Inteiro >= 0 | |
confirmados_arsalentejo
| Casos confirmados na ARS Alentejo | Inteiro >= 0 | |
confirmados_arsalgarve
| Casos confirmados na ARS Algarve | Inteiro >= 0 | |
confirmados_acores
| Casos confirmados na Região Autónoma dos Açores | Inteiro >= 0 | |
confirmados_madeira
| Casos confirmados na Região Autónoma da Madeira | Inteiro >= 0 | |
confirmados_estrangeiro
| Casos confirmados no estrangeiro | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador. A partir de 28-03-2020, este indicador deixou de ser reportados e os respectivos casos imputados às ARS/Regiões de origem. | |
confirmados_novos
| Número de novos casos confirmados comparativamente ao dia anterior. É uma coluna calculada a partir da diferença nos casos
confirmados
entre dias consecutivos. | Inteiro >= 0 | |
recuperados
| Total de casos recuperados | Inteiro >= 0 | |
obitos
| Total de óbitos | Inteiro >= 0 | |
internados
| Número de pacientes COVID-19 internados | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
internados_uci
| Número de pacientes COVID-19 internados em Unidades de Cuidados Intensivos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
lab
| Número de casos suspeitos a aguardar resultados laboratoriais | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
suspeitos
| Total de casos suspeitos (tendo a definição sido actualizada a 29/02/2020) desde 01/01/2020 | Inteiro >= 0 | |
vigilancia
| Número de casos sob vigilância pelas autoridades de saúde | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
n_confirmados
| Número de casos cuja suspeita de infecção não se confirmou | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
cadeias_transmissao
| Número de cadeias de transmissão do SARS-CoV-2 activas | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
transmissao_importada
| Número de casos confirmados com transmissão por via de infectados de outros países | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_0_9_f
| Número de casos confirmados do sexo feminino na faixa etária 0-9 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_0_9_m
| Número de casos confirmados do sexo masculino na faixa etária 0-9 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_10_19_f
| Número de casos confirmados do sexo feminino na faixa etária 10-19 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_10_19_m
| Número de casos confirmados do sexo masculino na faixa etária 10-19 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_20_29_f
| Número de casos confirmados do sexo feminino na faixa etária 20-29 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_20_29_m
| Número de casos confirmados do sexo masculino na faixa etária 20-29 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_30_39_f
| Número de casos confirmados do sexo feminino na faixa etária 30-39 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_30_39_m
| Número de casos confirmados do sexo masculino na faixa etária 30-39 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_40_49_f
| Número de casos confirmados do sexo feminino na faixa etária 40-49 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_40_49_m
| Número de casos confirmados do sexo masculino na faixa etária 40-49 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_50_59_f
| Número de casos confirmados do sexo feminino na faixa etária 50-59 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_50_59_m
| Número de casos confirmados do sexo masculino na faixa etária 50-59 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_60_69_f
| Número de casos confirmados do sexo feminino na faixa etária 60-69 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_60_69_m
| Número de casos confirmados do sexo masculino na faixa etária 60-69 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_70_79_f
| Número de casos confirmados do sexo feminino na faixa etária 70-79 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_70_79_m
| Número de casos confirmados do sexo masculino na faixa etária 70-79 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_80_plus_f
| Número de casos confirmados do sexo feminino na faixa etária 80+ anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_80_plus_m
| Número de casos confirmados do sexo masculino na faixa etária 80+ anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
sintomas_tosse
| Percentagem de casos infetados que reportaram o sintoma de tosse. Conforme informa a DGS, estes dados são relativos apenas a uma %, não-especificada e variável, dos infectados. | fracção entre [0, 1] ou vazio para os dias em que a DGS não reportava este indicador | |
sintomas_febre
| Percentagem de casos infetados que reportaram o sintoma de febre. Conforme informa a DGS, estes dados são relativos apenas a uma %, não-especificada e variável, dos infectados. | fracção entre [0, 1] ou vazio para os dias em que a DGS não reportava este indicador | |
sintomas_dificuldade_respiratoria
| Percentagem de casos infetados que reportaram o sintoma de dificuldades respiratórias. Conforme informa a DGS, estes dados são relativos apenas a uma %, não-especificada e variável, dos infectados. | fracção entre [0, 1] ou vazio para os dias em que a DGS não reportava este indicador | |
sintomas_cefaleia
| Percentagem de casos infetados que reportaram o sintoma de cefaleias. Conforme informa a DGS, estes dados são relativos apenas a uma %, não-especificada e variável, dos infectados. | fracção entre [0, 1] ou vazio para os dias em que a DGS não reportava este indicador | |
sintomas_dores_musculares
| Percentagem de casos infetados que reportaram o sintoma de dores musculares. Conforme informa a DGS, estes dados são relativos apenas a uma %, não-especificada e variável, dos infectados. | fracção entre [0, 1] ou vazio para os dias em que a DGS não reportava este indicador | |
sintomas_fraqueza_generalizada
| Percentagem de casos infetados que reportaram o sintoma de fraqueza generalizada. Conforme informa a DGS, estes dados são relativos apenas a uma %, não-especificada e variável, dos infectados. | fracção entre [0, 1] ou vazio para os dias em que a DGS não reportava este indicador | |
confirmados_f
| Número total de confirmados do sexo feminino | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava directamente este indicador | |
confirmados_m
| Número total de confirmados do sexo masculino | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava directamente este indicador | |
obitos_arsnorte
| Total de óbitos na ARS Norte | Inteiro >= 0 | |
obitos_arscentro
| Total de óbitos na ARS Centro | Inteiro >= 0 | |
obitos_arslvt
| Total de óbitos na ARS Lisboa e Vale do Tejo | Inteiro >= 0 | |
obitos_arsalentejo
| Total de óbitos na ARS Alentejo | Inteiro >= 0 | |
obitos_arsalgarve
| Total de óbitos na ARS Algarve | Inteiro >= 0 | |
obitos_acores
| Total de óbitos na Região Autónoma dos Açores | Inteiro >= 0 | |
obitos_madeira
| Total de óbitos na Região Autónoma da Madeira | Inteiro >= 0 | |
obitos_estrangeiro
| Total de óbitos no estrangeiro | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador. A partir de 28-03-2020, este indicador deixou de ser reportados e os respectivos casos imputados às ARS/Regiões de origem. | |
recuperados_arsnorte
| Total de pacientes recuperados na ARS Norte | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
recuperados_arscentro
| Total de pacientes recuperados na ARS Centro | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
recuperados_arslvt
| Total de pacientes recuperados na ARS Lisboa e Vale do Tejo | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
recuperados_arsalentejo
| Total de pacientes recuperados na ARS Alentejo | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
recuperados_arsalgarve
| Total de pacientes recuperados na ARS Algarve | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
recuperados_acores
| Total de pacientes recuperados na Região Autónoma dos Açores | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
recuperados_madeira
| Total de pacientes recuperados na Região Autónoma da Madeira | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
recuperados_estrangeiro
| Total de pacientes recuperados no estrangeiro | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador. A partir de 28-03-2020, este indicador deixou de ser reportados e os respectivos casos imputados às ARS/Regiões de origem. | |
obitos_0_9_f
| Número total de óbitos de pacientes do sexo feminino na faixa etária 0-9 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_0_9_m
| Número total de óbitos de pacientes do sexo masculino na faixa etária 0-9 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_10_19_f
| Número total de óbitos de pacientes do sexo feminino na faixa etária 10-19 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_10_19_m
| Número total de óbitos de pacientes do sexo masculino na faixa etária 10-19 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_20_29_f
| Número total de óbitos de pacientes do sexo feminino na faixa etária 20-29 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_20_29_m
| Número total de óbitos de pacientes do sexo masculino na faixa etária 20-29 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_30_39_f
| Número total de óbitos de pacientes do sexo feminino na faixa etária 30-39 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_30_39_m
| Número total de óbitos de pacientes do sexo masculino na faixa etária 30-39 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_40_49_f
| Número total de óbitos de pacientes do sexo feminino na faixa etária 40-49 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_40_49_m
| Número total de óbitos de pacientes do sexo masculino na faixa etária 40-49 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_50_59_f
| Número total de óbitos de pacientes do sexo feminino na faixa etária 50-59 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_50_59_m
| Número total de óbitos de pacientes do sexo masculino na faixa etária 50-59 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_60_69_f
| Número total de óbitos de pacientes do sexo feminino na faixa etária 60-69 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_60_69_m
| Número total de óbitos de pacientes do sexo masculino na faixa etária 60-69 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_70_79_f
| Número total de óbitos de pacientes do sexo feminino na faixa etária 70-79 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_70_79_m
| Número total de óbitos de pacientes do sexo masculino na faixa etária 70-79 anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_80_plus_f
| Número total de óbitos de pacientes do sexo feminino na faixa etária 80+ anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_80_plus_m
| Número total de óbitos de pacientes do sexo masculino na faixa etária 80+ anos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador | |
obitos_f
| Número total de óbitos de pacientes do sexo feminino | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava directamente este indicador | |
obitos_m
| Número total de óbitos de pacientes do sexo masculino | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava directamente este indicador |
confirmados_desconhecidos_m
| Número de casos confirmados do sexo masculino com idade desconhecida | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador |
confirmados_desconhecidos_f
| Número de casos confirmados do sexo masculino com idade desconhecida | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador |
ativos
| Número de casos ativos | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava este indicador

Definições exactas de alguns destes termos constam do glossário do Plano Nacional de Preparação e Resposta à Doença por novo coronavírus (COVID-19) (página 65 em diante). A 26/03/2020, a soma do número de pacientes recuperados por ARS/Região Autónoma nem sempre é igual ao número total de recuperados. A DGS reportou os dados desta forma, indicando que o diferencial correspondia a "21 casos recuperados laboratorialmente" e a "aguardar mais informação."

Uma outra métrica com potencial interesse científico, o número de casos com base na data de início de sintomas, é também reportada pela DGS. No entanto, é apenas disponibilizado um gráfico de eixos esparsos, o que pode introduzir erros de aproximação na transcrição e comprometer a factualidade dos dados. Por essa razão, esta informação é propositadamente excluída.

Relativamente ao conteúdo em

amostras.csv
:

| Nome da coluna | Significado | Possíveis valores | | ------------- |:-------------:| -----:| |

data
| Data a que se referem os dados. | DD-MM-YYYY | |
amostras
| Número total de amostras processadas | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava directamente este indicador |
amostras_novas
| Número diário de novas amostras processadas | Inteiro >= 0 ou vazio para os dias em que a DGS não reportava directamente este indicador

Relativamente a estes dados, o dashboard da DGS dá conta de que "correspondem ao número de amostras processadas para diagnóstico de SARS-CoV-2 em laboratórios públicos e privados desde o dia 1 de março." Dizem ainda que "Os dados diários após 2 de abril de 2020 ainda estão a ser recolhidos, pelo que os valores no gráfico poderão sofrer alterações." De facto, há a possibilidade de, a cada dia, dados referentes a dias anteriores serem alterados, provavelmente pelo facto de a informação relativa ao processamento de amostras ser recebida pela DGS com alguns dias de desfasamento.

Relativamente ao ficheiro

data_concelhos.csv
:

| Nome da coluna | Significado | Possíveis valores | | ------------- |:-------------:| -----:| |

data
| Data a que se referem os dados. | DD-MM-YYYY | |
[nome_concelho]
| Número total de casos acumulados | Inteiro >= 0 ou vazio para os dias em que este indicador não é reportado neste concelho.

Estes dados são extraídos do serviço da ESRI de ArcGIS e podem ter algumas diferenças em relação ao boletim oficial (isto é, concelhos que deixam de aparecer no boletim continuam a aparecer no serviço). A partir de 31/03, estes casos passaram a ser reportados pelas Administrações Regionais de Saúde e Regiões Autónomas, sendo que qualquer conclusão com base nos dias anteriores deve ser tomada com cuidado.

💡 Problemas, inconsistências e melhorias

Quaisquer sugestões de dados complementares (provenientes de fontes oficiais), inconsistências nos dados ou melhorias genéricas, à vontade ➡️ Issues ou Pull Requests.

🌍 Sobre a Data Science for Social Good Portugal

A Data Science for Social Good Portugal é uma comunidade aberta de cientistas de dados, amantes de dados e entusiastas de dados que querem atacar problemas que importam verdadeiramente. Acreditamos no poder dos dados para transformar a nossa sociedade para o melhor e para todos.

@dssgPT | fb.com/DSSGPortugal | Instagram @dssg_pt | LinkedIn

We use cookies. If you continue to browse the site, you agree to the use of cookies. For more information on our use of cookies please see our Privacy Policy.