TGI de Hugging Face vuelve a ser de código abierto
En este episodio hablaremos sobre algunos de los cambios de licenciamiento más recientes en TGI, Redis y algunos de los modelos de LLM más populares
En este episodio hablaremos sobre algunos de los cambios de licenciamiento más recientes en TGI, Redis y algunos de los modelos de LLM más populares
Se acaba de publicar una publicación académica titulada “Re-Evaluating GPT-4’s bar exam performance” donde se cuestiona el rendimiento del modelo a la hora de superar el examen de abogacía de EEUU
El enlace a la publicación: link.springer.com/article/1… El enlace al modelo Olmo: allenai.org/olmo
Justine Tunney anuncia en blog una serie de mejoras para ejecutar modelos LLM localmente en CPU de forma mucho más eficiente.
Enlace de referencia: justine.lol/matmul/
DBRX, de Databricks, es un modelo con arquitectura MoE con licencia pseudo abierta propia. El modelo tiene 132B de parámetros, de los cuales 36B están activos simultáneamente durante la inferencia. El modelo se ha entrenado con 12T de tokens utilizando 3072 GPU H100 durante 2 meses, con un coste estimado de 10 millones de dólares.
El rendimiento de este modelo supera GPT-3.5, se acerca a GPT-4 y mejora al resto de modelos abiertos previos incluyendo Llama-2 y Mixtral.
La creación del modelo ha venido de la mano del equipo de Mosaic, una startup que fue adquirida por Databricks por 1.3B de dólares.
El punto más negativo del modelo es la licencia utilizada, una licencia propia llamada Databricks Open Model. Esta licencia abre el modelo en si mismo, pero impide que se utilice la salida de este modelo para mejorar otros modelos que no sean si mismo o sus derivadas. Así que cualquier persona que quiera mejorar sus modelos abiertos o contribuir generando datasets, deberá abstenerse de usar este modelo, optando por soluciones más abiertas y permisivas como Mixtral 8x7B.