Blog de Jerolba

La funcionalidad de Carpet que nadie usará

Creado el 11/5/2025

Esta semana he publicado una nueva versión de Carpet, la librería de Java para trabajar con ficheros Parquet. En esta versión he añadido una funcionalidad que creo que nunca nadie va a usar: la capacidad de leer y escribir columnas de tipo BSON. [Leer más]

Las dos versiones de Parquet

Creado el 9/2/2025

Hace pocos días los creadores de DuckDB escribieron el artículo: Query Engines: Gatekeepers of the Parquet File Format, donde explicaban que los engines que procesan ficheros Parquet como tablas SQL están bloqueando la evolución del formato. Esto es debido a que no terminan de soportar la última especificación, y sin... [Leer más]

Algoritmos de compresión en Parquet

Creado el 13/1/2025

Apache Parquet es un formato de almacenamiento columnar optimizado para cargas de trabajo analíticas, aunque también se puede utilizar para almacenar cualquier tipo de datos estructurados con múltiples casos de uso. Una de sus características más destacadas es la capacidad de comprimir datos de manera eficiente usando diferentes técnicas de... [Leer más]

5 años en Clarity AI

Creado el 2/9/2024

Hoy (2 de septiembre de 2024) hace 5 años que me incorporé al equipo de Clarity AI, y me ha parecido una buena oportunidad para hacer retrospectiva de este lustro y resumir mi experiencia de estos años. [Leer más]

Trabajando con ficheros Parquet en Java usando Carpet

Creado el 17/12/2023

TL;DR - He creado una librería para trabajar con ficheros Parquet en Java llamada Carpet. Tras un tiempo trabajando con ficheros Parquet en Java mediante la librería de Parquet Avro, y estudiando cómo funcionaba, llegué a la conclusión de que a pesar de ser muy útil en múltiples casos de... [Leer más]