GovBR News Scraper

Introdução

O GovBR News Scraper é uma ferramenta experimental desenvolvida pelo Ministério da Gestão e Inovação em Serviços Públicos (MGI) para coletar e organizar notícias de sites de agências governamentais no domínio gov.br. O objetivo é facilitar o monitoramento e a análise dessas publicações, extraindo metadados relevantes (título, data, categoria, conteúdo, etc.) e disponibilizando-os em formato estruturado. A raspagem é atualizada diariamente, tornando o serviço útil para pesquisadores, jornalistas e desenvolvedores que buscam acompanhar as últimas notícias governamentais.

Dados Disponíveis

Os dados extraídos são publicados diariamente no Hugging Face Hub, em dois formatos: dataset estruturado (compatível com a biblioteca datasets) e arquivos CSV.

Dataset Estruturado no Hugging Face

Para carregar o dataset diretamente no Python utilizando a biblioteca datasets:

Instale a Biblioteca datasets:
```
pip install datasets
```

Carregue o Dataset em Seu Código Python:

from datasets import load_dataset

dataset = load_dataset("nitaibezerra/govbrnews")

Explore o Dataset:

O dataset inclui os seguintes campos:
- unique_id: Identificador único de cada notícia.
- agency: Agência governamental que publicou a notícia.
- published_at: Data de publicação da notícia.
- title: Título da notícia.
- url: URL da notícia original.
- image: Link para a imagem principal da notícia.
- category: Categoria da notícia (se disponível).
- tags: Lista de tags associadas à notícia (se disponíveis).
- content: Conteúdo completo da notícia em formato Markdown.
- extracted_at: Data e hora em que a notícia foi extraída.

Dados Disponíveis em CSV

Além do dataset estruturado, os dados estão disponíveis em arquivos CSV para facilitar o uso em ferramentas como Excel, Google Sheets, ou scripts personalizados:

Arquivo Global CSV:
- Um único arquivo contendo todas as notícias disponíveis.
- Acesse aqui: govbr_news_dataset.csv
Arquivos CSV por Agência (Órgão):
- Dados separados por agência governamental.
- Acesse os arquivos por agência nesta pasta: Agências
Arquivos CSV por Ano:
- Dados separados por ano de publicação.
- Acesse os arquivos por ano nesta pasta: Anos

Dashboard Interativo

Para facilitar a exploração dos dados, disponibilizamos um dashboard interativo que permite a visualização e análise básica das notícias coletadas. Este recurso é útil para obter insights rápidos e compreender tendências nas publicações governamentais. Você pode acessar o dashboard através do seguinte link: Dashboard Interativo

Agendamento de Raspagem Automatizada

O repositório está configurado com uma GitHub Action que automaticamente raspa as notícias do dia anterior. O scraper é executado diariamente, garantindo que o dataset publicado no Hugging Face esteja sempre atualizado com as últimas notícias.

Todos os dias, o agendamento realiza as seguintes tarefas:

Raspa os artigos de notícias publicados ontem de todas as agências gov.br listadas.
Atualiza o dataset no Hugging Face com as novas notícias.

Essa configuração assegura que os dados permaneçam atualizados e acessíveis para todos os que utilizam o dataset.

Contribuições

Contribuições para melhorar o GovBR News Scraper são muito bem-vindas! Caso encontre bugs, tenha sugestões de melhorias ou queira adicionar novas funcionalidades, sinta-se à vontade para abrir uma issue ou enviar um pull request.

Estamos sempre abertos a contribuições que possam melhorar o projeto!

Name		Name	Last commit message	Last commit date
Latest commit History 147 Commits
.github/workflows		.github/workflows
src		src
tests		tests
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GovBR News Scraper

Introdução

Dados Disponíveis

Dataset Estruturado no Hugging Face

Dados Disponíveis em CSV

Dashboard Interativo

Agendamento de Raspagem Automatizada

Contribuições

About

Languages

nitaibezerra/govbrnews-scraper

Folders and files

Latest commit

History

Repository files navigation

GovBR News Scraper

Introdução

Dados Disponíveis

Dataset Estruturado no Hugging Face

Dados Disponíveis em CSV

Dashboard Interativo

Agendamento de Raspagem Automatizada

Contribuições

About

Topics

Resources

Stars

Watchers

Forks

Languages