Blog de Jerolba


Tecnología, Bases de Datos, Java y JVM
  • Las dos versiones de Parquet

    Hace pocos días los creadores de DuckDB escribieron el artículo: Query Engines: Gatekeepers of the Parquet File Format, donde explicaban que los engines que procesan ficheros Parquet como tablas SQL están bloqueando la evolución del formato. Esto es debido a que no terminan de soportar la última especificación, y sin... [Leer más]
  • Algoritmos de compresión en Parquet

    Apache Parquet es un formato de almacenamiento columnar optimizado para cargas de trabajo analíticas, aunque también se puede utilizar para almacenar cualquier tipo de datos estructurados con múltiples casos de uso. Una de sus características más destacadas es la capacidad de comprimir datos de manera eficiente usando diferentes técnicas de... [Leer más]
  • 5 años en Clarity AI

    Hoy (2 de septiembre de 2024) hace 5 años que me incorporé al equipo de Clarity AI, y me ha parecido una buena oportunidad para hacer retrospectiva de este lustro y resumir mi experiencia de estos años. [Leer más]
  • Trabajando con ficheros Parquet en Java usando Carpet

    TL;DR - He creado una librería para trabajar con ficheros Parquet en Java llamada Carpet. Tras un tiempo trabajando con ficheros Parquet en Java mediante la librería de Parquet Avro, y estudiando cómo funcionaba, llegué a la conclusión de que a pesar de ser muy útil en múltiples casos de... [Leer más]
  • Trabajando con ficheros Parquet en Java usando Protocol Buffers

    Este post continúa la serie de artículos acerca del trabajo con ficheros Parquet en Java. Esta vez explicaré cómo hacerlo a través de la librería de Protocol Buffers (PB). Si encontrar ejemplos y documentación sobre cómo usar Parquet con Avro es complicado, con Protocol Buffers es más complicado todavía. [Leer más]