quarta-feira, 11 de março de 2015

Rodando Scrapy com Docker

Olá, Hoje irei falar sobre um Dockerfile criado para rodar um Docker do spider/Scrapy criado nesse post (link)

A ideia do post não é explicar como funciona ou o que é o Docker, pois há inumeros tutorias e conteúdos na internet explicando muito bem o que é o Docker. Sendo assim, para rodar o Dockerfile apresentado abaixo em sua máquina, será preciso ter o Docker instalado previamente em seu ambiente.

Dockerfile

FROM ubuntu:14.04
MAINTAINER likang
#instalando python e scrapy
RUN apt-get update
RUN apt-get install -y python python-pip python-dev libxml2-dev libxslt-dev libffi-dev libssl-dev
RUN pip install lxml && pip install pyopenssl && pip install Scrapy && pip install service_identity
#instalando o git
RUN apt-get install -y git
#criando uma pasta para o projeto scrapy
RUN mkdir /scrapyguj
#clonando projeto
RUN cd /scrapyguj; git clone https://github.com/LeoCBS/guj.git
#rodando scrapy
WORKDIR /scrapyguj/guj
CMD ["scrapy", "crawl", "java", "-o items.json"]
view raw Dockerfile hosted with ❤ by GitHub

sexta-feira, 27 de fevereiro de 2015

Tutorial Scrapy

Fala pessoal, nesse post vou tentar repassar um pouco do que aprendi estudando Scrapy (Python) nos últimos dias.

O post vai descrever um spider básico que lista em um JSON todos os tópicos criados nas duas primeiras páginas do site guj.com.br.

Ambiente:

- Ubuntu 14.04
- Sublime text

Ferramentas utilizadas:
- Scrapy
- Python
- virtualenv


# Instalando e criando ambiente virutalenv

Para quem não conhece, virtualenv é uma ferramenta que isola seu ambiente. Muito útil para quem trabalha com mais de um projeto na mesma máquina ou para resolver problemas de permissões.

* Instalando virtualenv
$sudo pip install virtualenv

* Criando um novo ambiente
$virtualenv NomeDoAmbiente

* Ativando ambiente
$source ./NomeDoAmbiente/bin/activate


quinta-feira, 29 de janeiro de 2015

Acesso SSH com Keys

Acesso SSH com Keys

Abaixo será descrito como acessar um servidor remoto com par de chaves privada/publica. Além de não precisar inserir a senha a cada acesso, acessar um servidor através de chaves torna o acesso mais seguro.

1 - Criando RSA Key Pair

ssh-keygen -t rsa


Você pode optar por deixar o passphrase vazio.

2 - para copiar chave pública para o servidor remoto vamos utilizar o ssh-copy-id;

ssh-copy-id -i ~/.ssh/id_rsa.pub "user@192.168.0.2"