La solución profesional de Web Scraping para E-commerce de Moda
Un sistema distribuido, escalable y robusto diseñado para la extracción masiva de datos, impulsando el ecosistema de IA de Stylos.
Conocer más¿Qué es Stylos Scraper?
Stylos Scraper es una solución profesional de web scraping distribuida, diseñada específicamente para la extracción masiva de datos de sitios de e-commerce de moda. Utiliza tecnologías avanzadas para crear un sistema escalable y robusto capaz de manejar múltiples sitios web simultáneamente.
Características Principales
Listo para producción: escalable, observable y fácil de extender.
Soporte Multi‑País/Multi‑Idioma
Extracción internacional de Zara con parámetros dinámicos.
Sistema Multi‑Moneda Automático
Detección automática de moneda por país (USD, EUR, COP, ...).
Extractors Modulares
Arquitectura pluggable para añadir nuevos retailers rápidamente.
Completamente Dockerizado
Arquitectura cloud‑native con orquestación por Docker Compose.
Scraping Distribuido
Automatización de navegadores en paralelo usando Selenium Grid.
CLI Avanzada
Agenda, lanza y monitorea trabajos desde la terminal.
Monitoreo con Sentry
Trazabilidad de errores y performance de extremo a extremo.
Middlewares Avanzados
Gestión inteligente de requests y anti‑detección mejorada.
Scrapers disponibles
Por sitio web
Inicio rápido
Levanta la arquitectura distribuida en minutos.
Clona el repositorio
git clone https://github.com/builker-col/stylos-scrapers.git
cd stylos-scrapers
Crea tu archivo .env
# Copia el ejemplo: cp .env.example .env
# O crea uno nuevo con el siguiente contenido
Ejemplo de .env
# MongoDB Configuration (use host.docker.internal to connect from a container to the host)
MONGO_URI=mongodb://host.docker.internal:27017
MONGO_DATABASE=stylos_scrapers
MONGO_COLLECTION=products
# Selenium Grid Configuration
SELENIUM_MODE=remote
SELENIUM_HUB_URL=http://selenium-hub:4444/wd/hub
# Scrapyd Configuration
SCRAPYD_URL=http://scrapyd:6800
PROJECT_NAME=stylos
# Monitoring (Optional)
SENTRY_DSN=
SCRAPY_ENV=development
Lanza la arquitectura
docker-compose up --build -d
Servicios iniciados
Uso básico
python control_scraper.py --spider zara
python control_scraper.py --spider zara --country us --lang en
python control_scraper.py --spider zara --country us --lang en --url "https://www.zara.com/us/en/your-product-url.html"
python control_scraper.py --spider mango
Tips
- La CLI muestra estado en tiempo real, IDs de job y logs detallados.
- Puedes escalar Chrome para más paralelismo:
docker-compose up --scale chrome=3 -d
- Ejecuta comandos dentro de contenedores:
docker-compose exec api ...
Tecnologías Avanzadas
Construido sobre un stack tecnológico moderno y potente para garantizar el máximo rendimiento y escalabilidad.
Selenium Grid
Para la ejecución de pruebas y scraping en paralelo a través de múltiples máquinas y navegadores.
Scrapyd
Servicio para desplegar y ejecutar spiders de Scrapy, gestionando los procesos de scraping.
FastAPI
Framework de alto rendimiento para construir la API que controla y monitorea los trabajos de scraping.
Docker
Para la contenerización de toda la aplicación, asegurando un despliegue fácil y consistente.
Docs
Documentación detallada para instalación, uso, contribución y licenciamiento.
Uso
Cómo configurar parámetros, ejecutar extractors y exportar resultados.
Contribución
Guía de estilo, flujo de ramas y cómo proponer nuevos extractors.
Licencia
Modelo de licenciamiento y consideraciones legales para scraping.
Docs detallados
Arquitectura, middlewares, monitoreo y mejores prácticas de escalado.
El Ecosistema Stylos
Este proyecto forma parte del ecosistema Stylos, una plataforma de inteligencia artificial que analiza tendencias de moda y genera recomendaciones personalizadas.
Los datos extraídos por Stylos Scraper son el combustible que alimenta nuestros modelos de IA para identificar estilos como Old Money, Formal, Streetwear, y muchos más.
¿Listo para contribuir o usar el proyecto?
El código es completamente abierto. Explora el repositorio, reporta issues o haz tu primer pull request.
Ir al Repositorio