Databricks anuncia un nuevo modelo abierto, DBRX, que mejora el rendimiento respecto al resto de modelos existentes

DBRX, de Databricks, es un modelo con arquitectura MoE con licencia pseudo abierta propia. El modelo tiene 132B de parámetros, de los cuales 36B están activos simultáneamente durante la inferencia. El modelo se ha entrenado con 12T de tokens utilizando 3072 GPU H100 durante 2 meses, con un coste estimado de 10 millones de dólares.

El rendimiento de este modelo supera GPT-3.5, se acerca a GPT-4 y mejora al resto de modelos abiertos previos incluyendo Llama-2 y Mixtral.

La creación del modelo ha venido de la mano del equipo de Mosaic, una startup que fue adquirida por Databricks por 1.3B de dólares.

El punto más negativo del modelo es la licencia utilizada, una licencia propia llamada Databricks Open Model. Esta licencia abre el modelo en si mismo, pero impide que se utilice la salida de este modelo para mejorar otros modelos que no sean si mismo o sus derivadas. Así que cualquier persona que quiera mejorar sus modelos abiertos o contribuir generando datasets, deberá abstenerse de usar este modelo, optando por soluciones más abiertas y permisivas como Mixtral 8x7B.

www.databricks.com/blog/intr…

Cesar Garcia @elsatch