Mapas con clave compuesta

En mi último post hablé de los problemas de usar una función hash incorrecta cuando guardas un objeto con clave compuesta en un HashMap de Java, pero me quedé con la duda: ¿qué estructura de datos es mejor a la hora de indexar esos objetos?

Siguiendo con el mismo ejemplo hablaré de productos y tiendas, y usaré sus identificadores para formar la clave del mapa. Las estructuras de datos propuestas son:

Un único mapa con una clave que contenga sus índices: HashMap<Tuple<Integer, Integer>, MyObject>, al que llamaré TupleMap.
Un mapa anidado: HashMap<Integer, HashMap<Integer, MyObject>>, al que llamaré DoubleMap.

Para salir de dudas y sacar conclusiones mediré:

La memoria consumida al indexar una colección de objetos
El tiempo necesario para guardar de forma aleatoria esa colección de objetos
El tiempo necesario para recuperar, también de forma aleatoria, todos los elementos de la colección

TL;DR: este post es más aburrido, así que os ahorraré el trabajo de leerlo entero:

DoubleMap es más eficiente en memoria y consume un 30% menos que TupleMap
En colecciones grandes, DoubleMap es un 30% más rápido indexando, mientras que en colecciones pequeñas es bastante más rápido
En colecciones grandes, DoubleMap y TupleMap tienen un rendimiento parecido consultando, mientras que en colecciones pequeñas DoubleMap es sensiblemente más rápido

Todo el código fuente necesario para reproducir las pruebas está en este repositorio de GitHub: https://github.com/jerolba/hashcode-map.

En este caso aplicaré la función hash que genera menor número de colisiones y minimiza el consumo de memoria, por lo que no me tendré que preocupar de esa parte en mis benchmarks y estaré en un caso optimo (y optimista) en la versión de TupleMap de no tener que lidiar con las colisiones.

Consumo de memoria

Si usamos un objeto como clave primaria, ¿cuánta memoria consumirán esas instancias de la clave primaria? Si usamos HashMaps anidados, ¿penalizará el overhead de esos objetos?

Si rellenamos de forma aleatoria un mapa con 10.000 productos y 500 tiendas, obtenemos la siguiente gráfica de consumo de memoria, teniendo en cuenta sólo las clases involucradas en los mapas:

De media, el mapa con un objeto clave (Tuple) consume un 50% más de memoria, ocupando finalmente 299 MB frente a los 193 MB del DoubleMap.

Mirando el histograma de los objetos en memoria vemos que las instancias de la clase Tuple están ocupando 114 MB y no se están produciendo colisiones al no aparecer instancias del tipo TreeMap:

Class	instances	size
java.util.HashMap$Node	5.000.000	160.000.000
com.jerolba.bikey.Tuple	5.000.000	120.000.000
java.util.HashMap$Node[]	1	33.554.448
java.util.HashMap	1	48
com.jerolba.bikey.TupleMap	1	16

mientras que en la versión de DoubleMap las instancias de HashMap extra están ocupando apenas medio megabyte, y la mayor diferencia radica en el espacio empleado en los arrays de nodos:

Class	instances	size
java.util.HashMap$Node	5.010.000	160.320.000
java.util.HashMap$Node[]	10.001	41.185.552
java.util.HashMap	10.001	480.048
com.jerolba.bikey.DoubleMap	1	16

Por tanto, si al usar este tipo de mapas necesitas crear nuevas instancias del objeto que representa la clave primaria, yo optaría por usar una estructura de datos del tipo HashMap<A, HashMap<B, MyObject>>.

Rendimiento en indexación

¿Cuánto se tarda en crear una colección grande en cada caso? ¿Influye mucho el número de elementos de cada tipo?

Para no aburriros con los detalles del benchmark lo resumo en una única gráfica donde se muestra el tiempo (en milisegundos) necesario para insertar una colección aleatoria de productos y tiendas según diferentes números totales de productos y tiendas:

De media, mantener toda la información en un único mapa tiene una penalización de al menos un 40% de tiempo.

Aunque no muestre gráficas (tienes los datos al final del post), el aumento del número de datos en cualquiera de las dos variables (productos o tiendas) aumenta el tiempo de ejecución de forma lineal.

Rendimiento en consulta

¿Cuánto se tarda en acceder al valor asociado a una clave compuesta? ¿Penalizará el tener que consultar en dos mapas? En la versión de TupleMap, ¿Se tarda más si por cada consulta tengo que instanciar un objeto Tuple?

Al igual que antes, resumiré en una única gráfica el benchmark de consultar en una colección grande todos sus valores de forma aleatoria, según diferentes números totales de productos y tiendas:

Aunque el tiempo de ejecución de DoubleMap está siempre ligeramente por debajo de el de TupleMap podemos considerar que tienen un rendimiento muy similar, y por tanto el tiempo de acceso no debería condicionarnos la elección de una estructura de datos u otra.

Sorprendentemente tener que crear una instancia de Tuple por cada consulta no penaliza en el rendimiento, e incluso lo mejora ligeramente en colecciones grandes (las optimizaciones de la JVM son inescrutables)

Colecciones pequeñas

Los problemas a los que me enfrento normalmente usan colecciones grandes, pero en los resultados de los benchmarks podemos ver que en colecciones pequeñas la implementación de DoubleMap tiene bastante mejor rendimiento.

Indexación

Para visualizarlo mejor mostraré dos gráficas: cuando la colección tiene 1.000 productos y cuando tiene 2.000.

Los tiempos de la versión TupleMap son entre 2 y 6 veces peores. Sin haber analizado el comportamiento interno de la JVM/CPU/Memoria, intuyo que el menor tamaño en datos influye en la localidad de la información y dará menos problema con las línea de caché.

Consulta

Igualmente lo analizamos viendo dos gráficas para distinto número de productos:

Los tiempos de la versión TupleMap son entre un 50% y un 150% peores. Tampoco me atrevo a asegurar a qué se debe, pero sigo creyendo que los tiros van por problemas con la caché.

Conclusiones

A pesar de los resultados obtenidos, en este caso considero que es difícil sacar unas conclusiones claras realizando microbenchmarking. El comportamiento de las estructuras de datos pueden variar entre el código de producción y el del benchmark.

En código de producción, entre acceso y acceso al mapa, tu aplicación puede hacer muchas cosas que influyan en la disponibilidad de la información en las cachés, generando un patrón de acceso complentamente distinto al del benchmark.

Personalmente me quedo con la idea de consumir menos memoria no instanciando la clase Tuple y usar directamente HashMaps anidados. Para evitar el código feo de tanto generico, puedes abstraer y encapsular ese código en una clase.

Tener que insertar/consultar en dos HashMaps parece que no supone un problema de rendimiento, e incluso es más rápido, sobre todo en colecciones relativamente pequeñas.

Usando DoubleMap nos olvidamos del problema de tener que elegir una función hash que minimice las colisiones, ya que la clave estaría distribuida entre los dos niveles de HashMaps.

Resultados de los benchmarks

El código fuente para ejecutar los benchmarks están en el repositorio de GitHub, pero para que podáis ver los datos de las gráficas en crudo os copio los resultados. Así además podéis hacer vuestros análisis y sacar vuestras conclusiones.

Indexación

Nº Productos	Nº Tiendas	Total	TupleMap (ms)	DoubleMap (ms)
1.000	100	100.000	33,1	5,61
2.500	100	250.000	103,38	24,78
5.000	100	500.000	177,71	116,43
7.500	100	750.000	272,02	160,95
10.000	100	1.000.000	314,94	241,86
1.000	250	250.000	129,18	19,82
2.500	250	625.000	292,97	114,85
5.000	250	1.250.000	644,29	421,45
7.500	250	1.875.000	1.061,19	631,18
10.000	250	2.500.000	1.432,11	1.102,94
1.000	500	500.000	326,49	55,98
2.500	500	1.250.000	805,16	368,4
5.000	500	2.500.000	1.503,63	994,39
7.500	500	3.750.000	2.601,49	1.687,45
10.000	500	5.000.000	3.158,44	2.601,42
1.000	750	750.000	450,98	82,68
2.500	750	1.875.000	1.427,11	569,73
5.000	750	3.750.000	2.531,31	1.347,68
7.500	750	5.625.000	3.730,37	2.436,08
10.000	750	7.500.000	5.108,52	3.753,73
1.000	1.000	1.000.000	790,76	272,73
2.500	1.000	2.500.000	1.833,54	905,38
5.000	1.000	5.000.000	3.487,37	2.360,07
7.500	1.000	7.500.000	5.550,26	3.886,36
10.000	1.000	10.000.000	7.763,96	5.728,61

Consulta

Nº Productos	Nº Tiendas	Total	TupleMap (ms)	Tuple new (ms)	DoubleMap (ms)
1.000	100	100.000	12,08	12,55	3,81
2.500	100	250.000	37,11	38,21	14,35
5.000	100	500.000	77,40	77,39	46,84
7.500	100	750.000	125,96	126,35	68,53
10.000	100	1.000.000	148,55	141,47	163,37
1.000	250	250.000	48,96	50,41	18,30
2.500	250	625.000	140,25	144,70	70,04
5.000	250	1.250.000	332,23	344,52	242,27
7.500	250	1.875.000	533,58	498,65	428,10
10.000	250	2.500.000	689,37	656,38	640,08
1.000	500	500.000	112,44	115,91	67,37
2.500	500	1.250.000	426,38	436,60	236,71
5.000	500	2.500.000	838,11	827,97	721,81
7.500	500	3.750.000	1.092,23	1.032,17	1.146,23
10.000	500	5.000.000	1.659,28	1.671,45	1.445,54
1.000	750	750.000	220,95	228,46	104,46
2.500	750	1.875.000	690,21	694,86	493,78
5.000	750	3.750.000	1.224,58	1.185,30	1.052,61
7.500	750	5.625.000	1.950,89	2.206,49	1.735,02
10.000	750	7.500.000	2.750,52	2.567,10	2.750,77
1.000	1.000	1.000.000	342,89	351,78	216,07
2.500	1.000	2.500.000	973,66	1.019,16	677,97
5.000	1.000	5.000.000	1.838,45	1.968,09	1.618,03
7.500	1.000	7.500.000	2.789,49	2.598,46	2.448,23
10.000	1.000	10.000.000	4.468,78	4.318,66	3.970,30