← Home About Archive Photos Also on Micro.blog
  • TGI de Hugging Face vuelve a ser de código abierto

    En este episodio hablaremos sobre algunos de los cambios de licenciamiento más recientes en TGI, Redis y algunos de los modelos de LLM más populares

    Transcript

    → 3:38 PM, Apr 9
  • Los abogados pueden dormir más tranquilos respecto al Impacto inmediato de la IA en sus trabajos

    Se acaba de publicar una publicación académica titulada “Re-Evaluating GPT-4’s bar exam performance” donde se cuestiona el rendimiento del modelo a la hora de superar el examen de abogacía de EEUU

    El enlace a la publicación: link.springer.com/article/1… El enlace al modelo Olmo: allenai.org/olmo

    Transcript

    → 11:55 PM, Apr 2
  • Anuncian mejoras sustanciales de rendimiento de Llama file en CPU

    Justine Tunney anuncia en blog una serie de mejoras para ejecutar modelos LLM localmente en CPU de forma mucho más eficiente.

    Enlace de referencia: justine.lol/matmul/

    Transcript

    → 6:09 PM, Apr 1
  • Databricks anuncia un nuevo modelo abierto, DBRX, que mejora el rendimiento respecto al resto de modelos existentes

    DBRX, de Databricks, es un modelo con arquitectura MoE con licencia pseudo abierta propia. El modelo tiene 132B de parámetros, de los cuales 36B están activos simultáneamente durante la inferencia. El modelo se ha entrenado con 12T de tokens utilizando 3072 GPU H100 durante 2 meses, con un coste estimado de 10 millones de dólares.

    El rendimiento de este modelo supera GPT-3.5, se acerca a GPT-4 y mejora al resto de modelos abiertos previos incluyendo Llama-2 y Mixtral.

    La creación del modelo ha venido de la mano del equipo de Mosaic, una startup que fue adquirida por Databricks por 1.3B de dólares.

    El punto más negativo del modelo es la licencia utilizada, una licencia propia llamada Databricks Open Model. Esta licencia abre el modelo en si mismo, pero impide que se utilice la salida de este modelo para mejorar otros modelos que no sean si mismo o sus derivadas. Así que cualquier persona que quiera mejorar sus modelos abiertos o contribuir generando datasets, deberá abstenerse de usar este modelo, optando por soluciones más abiertas y permisivas como Mixtral 8x7B.

    www.databricks.com/blog/intr…

    → 9:56 AM, Mar 28
  • RSS
  • JSON Feed
  • Micro.blog