Saltar al contenido
PROYECTO OPEN SOURCE

La solución profesional de Web Scraping para E-commerce de Moda

Un sistema distribuido, escalable y robusto diseñado para la extracción masiva de datos, impulsando el ecosistema de IA de Stylos.

Conocer más

¿Qué es Stylos Scraper?

Stylos Scraper es una solución profesional de web scraping distribuida, diseñada específicamente para la extracción masiva de datos de sitios de e-commerce de moda. Utiliza tecnologías avanzadas para crear un sistema escalable y robusto capaz de manejar múltiples sitios web simultáneamente.

Características Principales

Listo para producción: escalable, observable y fácil de extender.

Soporte Multi‑País/Multi‑Idioma

Extracción internacional de Zara con parámetros dinámicos.

Sistema Multi‑Moneda Automático

Detección automática de moneda por país (USD, EUR, COP, ...).

Extractors Modulares

Arquitectura pluggable para añadir nuevos retailers rápidamente.

Completamente Dockerizado

Arquitectura cloud‑native con orquestación por Docker Compose.

Scraping Distribuido

Automatización de navegadores en paralelo usando Selenium Grid.

CLI Avanzada

Agenda, lanza y monitorea trabajos desde la terminal.

Monitoreo con Sentry

Trazabilidad de errores y performance de extremo a extremo.

Middlewares Avanzados

Gestión inteligente de requests y anti‑detección mejorada.

Inicio rápido

Levanta la arquitectura distribuida en minutos.

1 Paso 1

Clona el repositorio

git clone https://github.com/builker-col/stylos-scrapers.git
cd stylos-scrapers
2 Paso 2

Crea tu archivo .env

# Copia el ejemplo: cp .env.example .env
# O crea uno nuevo con el siguiente contenido
Ejemplo de .env
# MongoDB Configuration (use host.docker.internal to connect from a container to the host)
MONGO_URI=mongodb://host.docker.internal:27017
MONGO_DATABASE=stylos_scrapers
MONGO_COLLECTION=products

# Selenium Grid Configuration
SELENIUM_MODE=remote
SELENIUM_HUB_URL=http://selenium-hub:4444/wd/hub

# Scrapyd Configuration
SCRAPYD_URL=http://scrapyd:6800
PROJECT_NAME=stylos

# Monitoring (Optional)
SENTRY_DSN=
SCRAPY_ENV=development
3 Paso 3

Lanza la arquitectura

docker-compose up --build -d

Uso básico

Zara (por defecto Colombia)
python control_scraper.py --spider zara
Zara USA en inglés
python control_scraper.py --spider zara --country us --lang en
Producto único (prueba)
python control_scraper.py --spider zara --country us --lang en --url "https://www.zara.com/us/en/your-product-url.html"
Mango (completo)
python control_scraper.py --spider mango

Tips

  • La CLI muestra estado en tiempo real, IDs de job y logs detallados.
  • Puedes escalar Chrome para más paralelismo: docker-compose up --scale chrome=3 -d
  • Ejecuta comandos dentro de contenedores: docker-compose exec api ...

Tecnologías Avanzadas

Construido sobre un stack tecnológico moderno y potente para garantizar el máximo rendimiento y escalabilidad.

🧪

Selenium Grid

Para la ejecución de pruebas y scraping en paralelo a través de múltiples máquinas y navegadores.

🕷️

Scrapyd

Servicio para desplegar y ejecutar spiders de Scrapy, gestionando los procesos de scraping.

FastAPI

Framework de alto rendimiento para construir la API que controla y monitorea los trabajos de scraping.

🐳

Docker

Para la contenerización de toda la aplicación, asegurando un despliegue fácil y consistente.

PARTE DE ALGO MÁS GRANDE

El Ecosistema Stylos

Este proyecto forma parte del ecosistema Stylos, una plataforma de inteligencia artificial que analiza tendencias de moda y genera recomendaciones personalizadas.

Los datos extraídos por Stylos Scraper son el combustible que alimenta nuestros modelos de IA para identificar estilos como Old Money, Formal, Streetwear, y muchos más.

¿Listo para contribuir o usar el proyecto?

El código es completamente abierto. Explora el repositorio, reporta issues o haz tu primer pull request.

Ir al Repositorio
fade-in-observer