Blog de Jerolba

Integración de Spring Batch con Parquet

Creado el 8/12/2025

Spring Batch es una de las pocas herramientas existentes en el ecosistema Java Enterprise para construir procesos batch o pipelines de datos. Sin embargo, sus componentes (ItemReader/ItemWriter) están orientados principalmente a bases de datos relacionales, CSV, XML o JSON. En un mundo donde los Data Lakes y los formatos columnares... [Leer más]

La funcionalidad de Carpet que nadie usará

Creado el 11/5/2025

Esta semana he publicado una nueva versión de Carpet, la librería de Java para trabajar con ficheros Parquet. En esta versión he añadido una funcionalidad que creo que nunca nadie va a usar: la capacidad de leer y escribir columnas de tipo BSON. [Leer más]

Las dos versiones de Parquet

Creado el 9/2/2025

Hace pocos días los creadores de DuckDB escribieron el artículo: Query Engines: Gatekeepers of the Parquet File Format, donde explicaban que los engines que procesan ficheros Parquet como tablas SQL están bloqueando la evolución del formato. Esto es debido a que no terminan de soportar la última especificación, y sin... [Leer más]

Algoritmos de compresión en Parquet

Creado el 13/1/2025

Apache Parquet es un formato de almacenamiento columnar optimizado para cargas de trabajo analíticas, aunque también se puede utilizar para almacenar cualquier tipo de datos estructurados con múltiples casos de uso. Una de sus características más destacadas es la capacidad de comprimir datos de manera eficiente usando diferentes técnicas de... [Leer más]

5 años en Clarity AI

Creado el 2/9/2024

Hoy (2 de septiembre de 2024) hace 5 años que me incorporé al equipo de Clarity AI, y me ha parecido una buena oportunidad para hacer retrospectiva de este lustro y resumir mi experiencia de estos años. [Leer más]