Alexander A. E.Django developer

Etiqueta: webscraping

Webscraping en 6 líneas de código

Hace unos días leí un post sobre cómo realizar web scraping con 6 líneas de código para generar sentencias INSERT de SQL y de ese modo contar con información de prueba para algún proyecto personal. Este post se basa en aquel, pero con otros ejemplos.

Jun
07

Webscraping básico con Python - III

En esta ocasión, siguiendo el ejemplo del post anterior, realizaré la misma tarea pero utilizando Scrapy, un framework especializado en la tarea de realizar webscraping.

Nuestro objetivo es el mismo: descargar la lista de libros y precios de Books to scrape.

Requisitos

Necesitamos instalar scrapy:

pip install scrapy

Comenzando

Nuestro script, según el ejemplo de la documentación de scrapy, toma la siguiente forma:

import scrapy

url = 'http://books.toscrape.com'


class BooksSpider(scrapy.Spider):
    name = 'books'
    start_urls = [
        url,
    ]

    def parse …
Dec
04

Webscraping básico con Python - II

Continuando con un post realizado hace unos meses sobre los fundamentos del webscraping: Webscraping básico con Python - I, en esta ocasión presento otro ejemplo práctico para obtener información de un website.

Para nuestra pruebas utilizaremos Books to scrape, una página que simula ser una librería, creada con fines educativos por ScrapingHub1.

Dicha web cuenta con:

  • 1000 items en total
  • Paginación
  • 20 items por página
  • No requiere javascript para leer el contenido

Requisitos

Necesitamos tener instaladas los siguientes paquetes:

  • beautifulsoup4 …
Dec
01

Webscraping básico con Python - I

¿Qué es el web scraping?

Es una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación.1

Entre algunos tipos de contenidos que podríamos necesitar extraer tenemos a:

  • listados de noticias o empleos
  • lista de productos, sus imágenes y precios
  • relación de libros
  • otros

A modo de ejemplo, extraeré …

Feb
13

1