Entradas por Jean-Pierre Chauvel
Desarrollando un Bot de Scraping Evasivo
- 02 junio 2024
En el mundo del scraping, enfrentamos constantemente la batalla contra mecanismos de defensa diseñados para detectar y bloquear nuestros bots. Hoy, quiero compartirles un proyecto personal que busca no solo sortear estas defensas, sino hacerlo de manera eficiente y escalable.
Al intentar extraer datos de un sitio web que utiliza Radware, un servicio avanzado contra bots de scraping, me vi en la necesidad de crear una solución que pudiera superar estos obstáculos. Aquí les presento cómo logré desarrollar un bot de scraping que no solo logra su cometido sino que evita ser detectado por mecanismos de anti-bots.
Explorando el Desafío de Mil Millón de Filas en Python
- 15 abril 2024
El desafío de procesar mil millón de filas de datos es una tarea intimidante que pone a prueba la capacidad de cualquier lenguaje de programación, incluido Python. En este artículo, exploraremos cómo Python, con su naturaleza interpretada, se compara ante este reto colossal, adoptando estrategias ingeniosas y aprovechando la potencia de las librerías disponibles para manejar una tarea de procesamiento de datos de tal magnitud.
Este recorrido comienza con una implementación simple en Python puro, utilizando diccionarios para agrupar mediciones por ciudad y calcular valores mínimos, máximos y promedios de temperatura. Esta aproximación tomó 9 minutos y 28 segundos para ejecutarse en un archivo de texto de 13GB, una diferencia notable frente a la implementación base en Java que corre en 3 minutos y 12 segundos.
Cómo Hacer Fork y Pull Request en el Blog de Python Perú
- 14 abril 2024
Bienvenidos a la comunidad de Python Perú y a este Blog que marca el inicio de una nueva etapa de la comunidad.
Explorando JupyterLite e integrándolo en tu blog de Sphinx
- 08 abril 2024
Como desarrollador y entusiasta de data, siempre me encuentro explorando nuevas tecnologías y herramientas para mejorar mis proyectos y documentación. Recientemente, mi curiosidad me llevó a descubrir JupyterLite, una implementación ligera de JupyterLab que se ejecuta completamente en el navegador sin necesidad de un servidor. Intrigado por sus capacidades, decidí experimentar con la integración de JupyterLite en mi blog de Sphinx utilizando la extensión jupyterlite-sphinx. En esta publicación, compartiré mi experiencia de integrar JupyterLite en mi documentación y los pasos que tomé para hacer que funcione sin problemas con mi blog construido con Sphinx.
Cómo Redactar Posts en el Blog de Python Perú y no Morir en el Intento
- 04 abril 2024
Debo iniciar las líneas de este post dándoles la bienvenida a la comunidad de Python Perú y a este Blog que marca el inicio de una nueva etapa de la comunidad.
Un Generador de Artículos para Blogs con formato Markdown usando GPT-4 Turbo
- 03 abril 2024
Hace poco se me ocurrió, en vista a que Ider Delzo y yo decidimos crear este blog, crear un script en Python para que autogenere un review de un video en YouTube usando nada menos que el API de GPT-4 Turbo de OpenAI.
Mojo: El Nuevo Lenguaje de Programación que Promete Revolucionar Python
- 02 abril 2024
Es 4 de mayo de 2023 y los desarrolladores en todo el mundo están a punto de experimentar una revolución en la programación productiva con la llegada de Mojo. Concebido como una superposición de Python, este nuevo lenguaje promete ser hasta 35,000 veces más rápido, un hito significativo considerando la pervivencia de Python como el lenguaje dominante en inteligencia artificial.
Sin embargo, es bien sabido que Python, a pesar de su popularidad, batalla con la velocidad de ejecución. Situación que ha dado ventaja a lenguajes como Rust y C++ en tareas que demandan un alto rendimiento. Pero ¿Qué hace a Mojo tan especial y cómo logra estas impresionantes cifras de rendimiento?