Fala pessoal, nesse post vou tentar repassar um pouco do que aprendi estudando Scrapy (Python) nos últimos dias.
O post vai descrever um spider básico que lista em um JSON todos os tópicos criados nas duas primeiras páginas do site guj.com.br.
Ambiente:
- Ubuntu 14.04
- Sublime text
Ferramentas utilizadas:
- Scrapy
- Python
- virtualenv
# Instalando e criando ambiente virutalenv
Para quem não conhece, virtualenv é uma ferramenta que isola seu ambiente. Muito útil para quem trabalha com mais de um projeto na mesma máquina ou para resolver problemas de permissões.
* Instalando virtualenv
$sudo pip install virtualenv
* Criando um novo ambiente
$virtualenv NomeDoAmbiente
* Ativando ambiente
$source ./NomeDoAmbiente/bin/activate