Etiqueta: sne

  • SNE vs t-SNE: por que las colas pesadas ganan

    SNE vs t-SNE: por que las colas pesadas ganan

    Cuando trabajas con datos de reduccion de dimensionalidad para visualizacion, la eleccion entre SNE y t-SNE cambia por completo lo que ves en pantalla. Ambos algoritmos comparten la misma idea: convertir distancias entre puntos en un espacio de muchas dimensiones en probabilidades y reproducir esas relaciones en un mapa 2D o 3D. Pero un detalle matematico, la distribucion que usan en el espacio de baja dimension, marca la diferencia entre un grafico donde todo se apelmaza y otro donde los grupos se separan con claridad. Aqui desmenuzamos por que.

    Que separa a SNE de t-SNE y por que importa

    SNE (Stochastic Neighbor Embedding) modela las relaciones entre puntos como probabilidades condicionales. En el espacio original de alta dimension, calcula la probabilidad de que un punto elija a otro como vecino usando una distribucion gaussiana. En el espacio reducido hace lo mismo, tambien con una gaussiana, y ajusta las posiciones para que ambas distribuciones se parezcan lo maximo posible minimizando la divergencia de Kullback-Leibler. El problema es que SNE sufre el llamado crowding: al comprimir muchas dimensiones en dos, no hay suficiente espacio para acomodar todos los puntos que estaban moderadamente alejados, y estos acaban amontonados en el centro del mapa.

    Este fenomeno de reduccion de dimensionalidad para visualizacion no es un fallo de implementacion, sino una consecuencia geometrica: el volumen disponible en 2D crece mucho mas despacio que en un espacio de decenas o cientos de dimensiones. t-SNE aborda justo ese punto. En lugar de una gaussiana en el espacio reducido, emplea una distribucion t de Student con un grado de libertad, cuyas colas mas pesadas dan mas margen a los puntos medianamente distantes para separarse sin violar las restricciones probabilisticas del modelo.

    Como la distribucion t de Student resuelve el crowding

    La clave tecnica esta en las colas de la distribucion. Una gaussiana decae muy rapido: puntos que estan a distancia media reciben una probabilidad casi nula, lo que empuja a t-SNE a colocarlos demasiado juntos para compensar. La t de Student, en cambio, asigna probabilidades mayores a esas distancias intermedias gracias a sus colas pesadas. El resultado practico es que en el mapa de baja dimension los cumulos de puntos pueden alejarse entre si sin penalizar la funcion de coste, y la estructura de grupos emerge de forma mucho mas legible.

    Desde el punto de vista de la implementacion desde cero, la reduccion de dimensionalidad para visualizacion con t-SNE mantiene la formulacion probabilistica de SNE pero cambia dos piezas: simetriza las probabilidades condicionales en una distribucion conjunta y sustituye el kernel gaussiano del espacio reducido por el kernel t de Student. El gradiente resultante tiene una forma cerrada que se puede programar directamente, iterando por descenso de gradiente. Entender esta derivacion importa porque explica el comportamiento del algoritmo: por que es sensible al parametro de perplejidad, por que las distancias globales entre cumulos no son fiables y por que ejecuciones distintas producen mapas distintos aunque conserven la estructura local.

    Cuando y para quien es relevante dominar t-SNE

    Este conocimiento es relevante hoy, no en un horizonte futuro, para cualquier equipo de datos que trabaje con embeddings, resultados de clustering o salidas de modelos de deep learning. Los primeros en beneficiarse son perfiles de data science y machine learning que necesitan inspeccionar visualmente si sus representaciones agrupan bien las clases antes de tomar decisiones. Tambien es util para quien evalua modelos de lenguaje o vision: proyectar embeddings a 2D con t-SNE ayuda a detectar solapamientos o clases mal separadas.

    Dicho esto, conviene ser realista sobre sus limites. t-SNE es una herramienta exploratoria, no analitica: las distancias entre cumulos y el tamano de estos no deben interpretarse literalmente. Para conjuntos muy grandes, alternativas como UMAP suelen escalar mejor, aunque comparten la misma familia conceptual. Entender la reduccion de dimensionalidad para visualizacion a nivel de formulacion, y no solo llamar a una libreria, es lo que permite elegir el parametro adecuado, interpretar el resultado sin enganarse y saber cuando el mapa que ves refleja la realidad de los datos y cuando es un artefacto del propio algoritmo.

    Analisis Blixel

    Hay una tentacion muy extendida de tratar estas visualizaciones como si fueran mapas fieles del terreno, y ahi es donde se cometen los errores mas caros. Un grafico bonito con cumulos bien separados transmite una confianza que el algoritmo no garantiza: t-SNE preserva la vecindad local pero deforma sin piedad la estructura global. Quien no conoce la matematica detras acaba sacando conclusiones sobre distancias que el metodo nunca prometio conservar. Por eso defendemos que estudiar la formulacion, aunque cueste, no es un ejercicio academico sino una inversion en criterio. Saber que la distribucion t de Student aparece para combatir el crowding te dice inmediatamente por que no debes leer los espacios vacios del mapa como si fueran significativos. En un momento en que casi todo se resuelve importando una funcion y ajustando parametros por prueba y error, entender por que un kernel gaussiano falla donde uno de colas pesadas funciona separa al profesional que interpreta con rigor del que decora informes. El valor no esta en programar el algoritmo desde cero para produccion, que rara vez tiene sentido, sino en que ese ejercicio construye la intuicion necesaria para usar bien las herramientas ya optimizadas. Para equipos que evaluan modelos con embeddings, esa intuicion evita decisiones basadas en artefactos visuales. La formacion tecnica solida sigue siendo la mejor defensa contra las conclusiones equivocadas.

    Quieres aplicar esto en tu empresa? En Blixel.ai te ayudamos a integrar IA con sentido comun. Hablemos.