Blog de Jerolba


Parquet, Bases de Datos, Java y JVM
  • Integración de Spring Batch con Parquet

    Spring Batch es una de las pocas herramientas existentes en el ecosistema Java Enterprise para construir procesos batch o pipelines de datos. Sin embargo, sus componentes (ItemReader/ItemWriter) están orientados principalmente a bases de datos relacionales, CSV, XML o JSON. En un mundo donde los Data Lakes y los formatos columnares... [Leer más]
  • La funcionalidad de Carpet que nadie usará

    Esta semana he publicado una nueva versión de Carpet, la librería de Java para trabajar con ficheros Parquet. En esta versión he añadido una funcionalidad que creo que nunca nadie va a usar: la capacidad de leer y escribir columnas de tipo BSON. [Leer más]
  • Las dos versiones de Parquet

    Hace pocos días los creadores de DuckDB escribieron el artículo: Query Engines: Gatekeepers of the Parquet File Format, donde explicaban que los engines que procesan ficheros Parquet como tablas SQL están bloqueando la evolución del formato. Esto es debido a que no terminan de soportar la última especificación, y sin... [Leer más]
  • Algoritmos de compresión en Parquet

    Apache Parquet es un formato de almacenamiento columnar optimizado para cargas de trabajo analíticas, aunque también se puede utilizar para almacenar cualquier tipo de datos estructurados con múltiples casos de uso. Una de sus características más destacadas es la capacidad de comprimir datos de manera eficiente usando diferentes técnicas de... [Leer más]
  • 5 años en Clarity AI

    Hoy (2 de septiembre de 2024) hace 5 años que me incorporé al equipo de Clarity AI, y me ha parecido una buena oportunidad para hacer retrospectiva de este lustro y resumir mi experiencia de estos años. [Leer más]