Scrapy

Este guia fornece instruções passo a passo para configurar e executar um spider Scrapy em uma máquina Linux, desde a instalação do Python até a execução de um spider.

Pré-requisitos

Python 3
pip (gerenciador de pacotes para Python)
venv (ferramenta para criar ambientes virtuais isolados)

Passo 1: Instalação do Python

Verifique se o Python está instalado em seu sistema com o seguinte comando:

python3 --version

Se não estiver instalado, você pode instalá-lo usando:

sudo apt update
sudo apt install python3 python3-pip

Passo 2: Instalação do Virtual Environment

Instale o pacote venv para gerenciar ambientes virtuais:

sudo apt install python3-venv

Passo 3: Criação de um Ambiente Virtual

Recomenda-se criar na raíz do projeto para melhor administração. Exemplo:

python3 -m venv venv

Passo 4: Ativação do Ambiente Virtual

Ative o ambiente virtual:

source venv/bin/activate

O prompt de comando deve mostrar (venv) indicando que o ambiente está ativado.

Passo 5: Instalação do Scrapy

Com o ambiente virtual ativo, instale o Scrapy:

pip install scrapy

Passo 6: Executar o Spider Scrapy

Navegue até o diretório do scrapy e execute o spider com:

cd webscrapy/minas_de_cultura_scrapy

Execução do crawler: Os valores de ano foram definidos para funcionar entre 2022 até 2024 e os meses se iniciam sendo 01 até o 12.

scrapy crawl juiz_de_fora

passando os parâmetros no final o resultado será armazenado como json em um arquivo nomeado resultado.

Passo 7: Resultado da busca

Para vizualizar o resultado basta dar o comando:

cat despesas.json

Passo 8: Desativação do Ambiente Virtual

Quando terminar, desative o ambiente virtual:

deactivate