Etiqueta: mira murati

  • Murati reaparece con los interaction models de su lab

    Murati reaparece con los interaction models de su lab

    Despues de 18 meses de silencio publico, Mira Murati ha vuelto a escena para presentar los interaction models de Thinking Machines Lab, una arquitectura que procesa audio, texto y video en intervalos de 200 milisegundos. La ex-CTO de OpenAI, hoy al frente de su propia empresa, plantea un cambio de fondo: dejar atras el rigido formato de pregunta y respuesta para construir modelos que detecten interrupciones y correcciones humanas mientras la conversacion sucede. La compania tambien mostro su producto Tinker. Aqui te contamos que hay de tecnico y que hay de relato corporativo.

    Que ha presentado Murati y por que importa

    La entrevista de Mira Murati es su primera aparicion importante en 18 meses, un periodo en el que Thinking Machines Lab ha trabajado con un perfil bajo poco habitual en el sector. El anuncio central son los interaction models de Thinking Machines Lab, que procesan audio, texto y video en ventanas de 200 milisegundos. Esa cifra no es decorativa: 200 ms es aproximadamente el umbral en el que una persona percibe una respuesta como inmediata, y por debajo del cual una maquina puede reaccionar a una interrupcion antes de terminar su propio turno.

    La diferencia con el modelo dominante es clara. Los asistentes actuales funcionan por turnos: el usuario habla o escribe, el sistema procesa y responde. Los interaction models buscan romper esa secuencia para captar correcciones a mitad de frase, igual que ocurre en una conversacion humana real. Junto a esto, Murati presento Tinker, el producto de la empresa. Tambien aprovecho para reabrir un capitulo personal: su papel como CEO interina de OpenAI durante la crisis de noviembre de 2023, cuando fue despedido Sam Altman. Murati afirma que la compania habria implosionado sin su intervencion en aquellos cinco dias.

    Implicaciones tecnicas de procesar en tiempo real

    El reto de los interaction models de Thinking Machines Lab no es trivial. Trabajar en ventanas de 200 milisegundos sobre tres modalidades simultaneas (audio, texto y video) exige una infraestructura de inferencia muy optimizada y una latencia bajisima de extremo a extremo. No basta con un modelo potente: hace falta que el pipeline completo, desde la captura hasta la respuesta, quepa en ese margen temporal. Es un problema tanto de modelado como de ingenieria de sistemas.

    La propuesta tambien cambia la nocion de contexto. En un esquema de pregunta-respuesta, el modelo asume que su turno es completo y autonomo. En un esquema de interaccion continua, debe mantener un estado que se actualiza constantemente y estar preparado para descartar o reescribir su salida si el interlocutor interviene. Esto acerca el comportamiento del sistema al de un interprete simultaneo mas que al de un buscador. Por ahora se trata de una presentacion, no de un producto desplegado a escala, y no hay benchmarks publicos ni datos de coste de inferencia que permitan comparar con alternativas existentes. El concepto es solido; la validacion en condiciones reales es lo que queda por ver.

    Cuando y para quien sera relevante esto

    Los interaction models de Thinking Machines Lab apuntan primero a casos donde la conversacion fluida importa mas que la precision de un unico turno: atencion telefonica, asistentes de voz, tutoria, copilotos que acompanan tareas en directo. Son escenarios en los que la capacidad de interrumpir y corregir aporta valor inmediato frente a un modelo que solo responde cuando le toca. Pero conviene situar el horizonte con realismo: pasar de una demo y una arquitectura descrita a un servicio estable, asequible y con garantias de latencia consistente es un camino de meses, no de semanas.

    Para una PYME espanola, hoy esto es informacion para vigilar, no para integrar. No hay API publica conocida ni precios. El interes practico llega cuando aparezcan accesos reales y resultados medibles frente a soluciones de voz ya disponibles. Quien deberia prestar atencion ahora son los equipos tecnicos que ya trabajan con IA conversacional y quieren anticipar hacia donde se mueve el estandar de interaccion. Para el resto, lo sensato es esperar a que la propuesta deje de ser una presentacion y se convierta en algo que se pueda probar y comparar con datos.

    Analisis Blixel

    Hay dos cosas mezcladas en esta reaparicion y conviene separarlas. Una es una idea tecnica con fundamento: el formato de turnos rigidos es una limitacion real de los asistentes actuales, y procesar la interaccion de forma continua resuelve un problema que cualquiera nota al hablar con un sistema de voz que no te deja interrumpir. Ahi la apuesta tiene sentido y merece seguimiento. La otra es el relato. Que una fundadora aproveche su primera entrevista en ano y medio para subrayar que su antigua empresa habria implosionado sin ella dice tanto del producto como del momento de posicionamiento personal y de captacion de talento e inversion. No es reprochable, pero conviene leerlo con esa clave. El sector vive una fase en la que la narrativa de los fundadores pesa casi tanto como las cifras de rendimiento, y eso obliga a ser mas esceptico, no menos. La pregunta que importa no es si el concepto suena bien, sino si los 200 milisegundos se sostienen fuera de una demo controlada, a que coste de inferencia y con que fiabilidad cuando hay tres modalidades en juego y mil usuarios concurrentes. Sin benchmarks ni acceso, todo lo demas es promesa. La trayectoria de Murati le da credibilidad para que valga la pena prestar atencion. Pero credibilidad no es producto, y lo segundo todavia no esta sobre la mesa para que nadie lo evalue.

    Quieres aplicar esto en tu empresa? En Blixel.ai te ayudamos a integrar IA con sentido comun. Hablemos.