O GovBR News Scraper é uma ferramenta experimental desenvolvida pelo Ministério da Gestão e Inovação em Serviços Públicos (MGI) para coletar e organizar notícias de sites de agências governamentais no domínio gov.br. O objetivo é facilitar o monitoramento e a análise dessas publicações, extraindo metadados relevantes (título, data, categoria, conteúdo, etc.) e disponibilizando-os em formato estruturado. A raspagem é atualizada diariamente, tornando o serviço útil para pesquisadores, jornalistas e desenvolvedores que buscam acompanhar as últimas notícias governamentais.
Os dados extraídos são publicados diariamente no Hugging Face Hub, em dois formatos: dataset estruturado (compatível com a biblioteca datasets
) e arquivos CSV.
Para carregar o dataset diretamente no Python utilizando a biblioteca datasets
:
-
Instale a Biblioteca
datasets
:pip install datasets
-
Carregue o Dataset em Seu Código Python:
from datasets import load_dataset dataset = load_dataset("nitaibezerra/govbrnews")
-
Explore o Dataset:
O dataset inclui os seguintes campos:
unique_id
: Identificador único de cada notícia.agency
: Agência governamental que publicou a notícia.published_at
: Data de publicação da notícia.title
: Título da notícia.url
: URL da notícia original.image
: Link para a imagem principal da notícia.category
: Categoria da notícia (se disponível).tags
: Lista de tags associadas à notícia (se disponíveis).content
: Conteúdo completo da notícia em formato Markdown.extracted_at
: Data e hora em que a notícia foi extraída.
Além do dataset estruturado, os dados estão disponíveis em arquivos CSV para facilitar o uso em ferramentas como Excel, Google Sheets, ou scripts personalizados:
-
Arquivo Global CSV:
- Um único arquivo contendo todas as notícias disponíveis.
- Acesse aqui: govbr_news_dataset.csv
-
Arquivos CSV por Agência (Órgão):
- Dados separados por agência governamental.
- Acesse os arquivos por agência nesta pasta: Agências
-
Arquivos CSV por Ano:
- Dados separados por ano de publicação.
- Acesse os arquivos por ano nesta pasta: Anos
Para facilitar a exploração dos dados, disponibilizamos um dashboard interativo que permite a visualização e análise básica das notícias coletadas. Este recurso é útil para obter insights rápidos e compreender tendências nas publicações governamentais. Você pode acessar o dashboard através do seguinte link: Dashboard Interativo
O repositório está configurado com uma GitHub Action que automaticamente raspa as notícias do dia anterior. O scraper é executado diariamente, garantindo que o dataset publicado no Hugging Face esteja sempre atualizado com as últimas notícias.
Todos os dias, o agendamento realiza as seguintes tarefas:
- Raspa os artigos de notícias publicados ontem de todas as agências gov.br listadas.
- Atualiza o dataset no Hugging Face com as novas notícias.
Essa configuração assegura que os dados permaneçam atualizados e acessíveis para todos os que utilizam o dataset.
Contribuições para melhorar o GovBR News Scraper são muito bem-vindas! Caso encontre bugs, tenha sugestões de melhorias ou queira adicionar novas funcionalidades, sinta-se à vontade para abrir uma issue ou enviar um pull request.
Estamos sempre abertos a contribuições que possam melhorar o projeto!