Blog de Jerolba


Parquet, Bases de Datos, Java y JVM
  • La funcionalidad de Carpet que nadie usará

    Esta semana he publicado una nueva versión de Carpet, la librería de Java para trabajar con ficheros Parquet. En esta versión he añadido una funcionalidad que creo que nunca nadie va a usar: la capacidad de leer y escribir columnas de tipo BSON. [Leer más]
  • Las dos versiones de Parquet

    Hace pocos días los creadores de DuckDB escribieron el artículo: Query Engines: Gatekeepers of the Parquet File Format, donde explicaban que los engines que procesan ficheros Parquet como tablas SQL están bloqueando la evolución del formato. Esto es debido a que no terminan de soportar la última especificación, y sin... [Leer más]
  • Algoritmos de compresión en Parquet

    Apache Parquet es un formato de almacenamiento columnar optimizado para cargas de trabajo analíticas, aunque también se puede utilizar para almacenar cualquier tipo de datos estructurados con múltiples casos de uso. Una de sus características más destacadas es la capacidad de comprimir datos de manera eficiente usando diferentes técnicas de... [Leer más]
  • 5 años en Clarity AI

    Hoy (2 de septiembre de 2024) hace 5 años que me incorporé al equipo de Clarity AI, y me ha parecido una buena oportunidad para hacer retrospectiva de este lustro y resumir mi experiencia de estos años. [Leer más]
  • Trabajando con ficheros Parquet en Java usando Carpet

    TL;DR - He creado una librería para trabajar con ficheros Parquet en Java llamada Carpet. Tras un tiempo trabajando con ficheros Parquet en Java mediante la librería de Parquet Avro, y estudiando cómo funcionaba, llegué a la conclusión de que a pesar de ser muy útil en múltiples casos de... [Leer más]