Maldición de la dimensionalidad en LLMs

La maldición de la dimensionalidad suele aparecer/preocupar cuando trabajamos con espacios de muchas dimensiones, pero entonces, si los embeddings de lenguaje tienen son vectores de cientos o miles de dimensiones, ¿por qué no aparece de la misma forma que en otros problemas?

¿Qué es la maldición de dimensionalidad?

Antes de nada: la maldición de la dimensionalidad de Bellman se refiere a varios fenómenos que ocurren cuando trabajamos en espacios de alta dimensión, que no ocurren en otros de baja dimensión:

¿Por qué no aparece en embeddings de LLMs?

Hay varias razones clave por las que los embeddings (vectores numéricos que representan el significa semántico de unidades de lenguaje como palabras o frases) de los modelos de lenguaje no sufren tanto este problema porque:

[!TIP] La magnitud puede introducir ruido en el espacio de embeddings, porque esta puede variar por razones irrelevantes (e.g. frecuencia de palabras, escala que aplique el modelo, etc.) y no siempre captura significado semántico puro.

No solo esto, sino que aún más dimensiones pueden ayudar. Esto es porque en representaciones semánticas, más dimensiones permiten codificar muchas propiedades a la vez. Sin embargo, cada dimensión no tiene un significado propio, sino que el significado está distribuido entre muchas dimensiones (Distributed Representation). Así, propiedades como “diferenciado” o “agraviado” no están en un solo eje, sino en patrones del vector completo.

[!TIP] Más dimensiones == más capacidad para representar combinaciones complejas, no “más etiquetas individuales”.

Además, el entrenamiento regulariza el espacio. Esto significa que los embeddings se aprenden con millones o miles de millones de ejemplos y durante ese proceso se evita que los vectores se vuelvan arbitrarios, pues aparecen estructuras geométricas útiles de manera natural; algo observado en trabajos con modelos de aprendizaje de representaciones en espacios vectoriales como Word2Vec, GloVe y otros modelos modernos de embeddings.

El espacio aprendido tiene estructura que mitiga los problemas típicos de alta dimensión.

Un ejemplo famoso

\[\text{vector("rey")} - \text{vector("hombre")} + \text{vector("mujer")} \approx \text{vector("reina")}\]

Esto muestra que el espacio aprendido tiene estructura algebraica; no es aleatorio.

Lo que sí aparece es concentración de distancias. En alta dimensión ocurre un fenómeno relacionado, y es que muchas distancias se vuelven similares; algo llamado como concentration of measure.

Por eso en sistemas reales se usan técnicas como normalización (para estabilizar las distancias), reducción de dimensión (PCA) (para reducir a dimensiones más manejables) o índices ANN (Approximate Nearest Neighbor) (para búsqueda eficiente en alta dimensión).

[!NOTE] Visualización conceptual Imagínese un espacio de 4096 dimensiones como una habitación enorme. La maldición de dimensionalidad diría que los datos están dispersos aleatoriamente por toda la habitación.

Pero en embeddings de LLMs:

  • Los datos están organizados en regiones (palabras similares cerca).
  • Ocupan un subespacio de menor dimensión (como una superficie de un objeto, o en las zonas de calor de la habitación).
  • Las métricas usadas (e.g. cosine similarity) son estables en este espacio estructurado.

Un acercamiento al tema algo menos básico: Lecture 4 “Curse of Dimensionality / Perceptron” - Cornell CS4780 SP17.