Alexander A. E. Full Stack Developer

Etiqueta: python

Webscraping básico con Python - II

Continuando con un post realizado hace unos meses sobre los fundamentos del webscraping: Webscraping básico con Python - I, en esta ocasión presento otro ejemplo práctico para obtener información de un website.

Para nuestra pruebas utilizaremos Books to scrape, una página que simula ser una librería, creada con fines educativos por ScrapingHub1.

Dicha web cuenta con:

  • 1000 items en total
  • Paginación
  • 20 items por página
  • No requiere javascript para leer el contenido

Requisitos

Necesitamos tener instaladas los siguientes paquetes:

  • beautifulsoup4 …
Dec
01

¿Cómo encontrar imágenes similares con Python?

El problema: imágenes que no coinciden (y deberían coincidir)

Una de las tareas en Librera implica recopilar la información de un libro en base a su ISBN, para lo cual en algunos casos se recurre al webscraping.

En algunos casos, al obtener la portada de un libro desde algún servicio externo como Google Books API, Goodreads API o scrapeando alguna web verificábamos que obteníamos una portada incorrecta.

Nuestro proceso para obtener la portada de un libro implicaba:

  1. Consultar varias fuentes …
Nov
24

Webscraping básico con Python - I

¿Qué es el web scraping?

Es una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación.1

Entre algunos tipos de contenidos que podríamos necesitar extraer tenemos a:

  • listados de noticias o empleos
  • lista de productos, sus imágenes y precios
  • relación de libros
  • otros

A modo de ejemplo, extraeré …

Feb
13

Awesome Django

Si tuviera que enumerar los motivos por los que utilizo django, serían: python, su filosofía y su comunidad.

En este post plasmo una pequeña recopilación de aplicaciones y proyectos de terceros que me han facilitado el programar con django, esperando que a alguién más le sea de utilidad.

Aunque tal vez me olvide de uno que otro, aquí va mi lista:


1. Django debug toolbar

https://github.com/django-debug-toolbar/django-debug-toolbar

Conjunto de paneles configurables que muestran información que ayuda al …

Jan
24

Python: match vs findall vs search

En el último par de semanas tuve que desarrollar un sistema web que interactuase con dispositivos GPS 1.

Uno de los módulos que implementé consistía en una función que tenia que parsear2 los SMS recibidos, ya que estos eran el medio por el que el dispositivo retornaba los resultados.

De manera resumida, el proceso que seguía era:

  1. Recibir el SMS
  2. Comprobar si el SMS coincide con alguna de las expresiones regulares almacenadas
  3. Si se encuentra alguna coincidencia, se debe …
Jan
26

PyFPDF

PyFPDF es una librería1 que genera documentos PDF mediante python. Es un port de FPDF, el cual está escrito en PHP.

Mientras revisaba el código de este paquete (el cual no es muy complicado de entender, al menos en parte) hice un ejemplo en el que se hace uso del:

  • encabezado y pie de página
  • propiedades del documento (autor, título)
  • manejo de tipografías (tamaño de texto y estilos incluidos)
  • una tabla con contenidos de productos, cantidades y precios (similar …
Nov
03

1 2 3