Inteligencia Artificial Abierta - TGI de Hugging Face vuelve a ser de código abierto

Bienvenidos a un episodio nuevo de IA en Abierto.

Hoy os traemos una buena noticia relacionada con el relicenciamiento de uno de los software más populares de inferencia de inteligencia artificial.

Se trata de TGI.

Este software es el que se utiliza en Hugging Face para la generación de texto y es utilizado por muchas empresas ya que es escalable y nos da un muy buen rendimiento a la hora de generar texto para aplicaciones de tipo chat o aplicaciones de tipo completitud de texto.

El caso es que hace ocho meses Hugging Face cambió la licencia de este software buscando sacar algún tipo de crédito comercial con una licencia de tipo código disponible en la que se ofrece el código de forma permisiva pero que en determinados casos de uso requería un licenciamiento específico por parte de los usuarios.

Lo que han detectado en Hugging Face es que esta nueva licencia específica realmente pues no les ha generado ese retorno económico que esperaban y por el feedback de sus clientes veían que el hecho de utilizar una licencia no estándar podía perjudicar en los despliegues que tenían actualmente.

Así que Hugging Face ayer ha anunciado que este software vuelve a estar licenciado con licencia Apache 2.0, una licencia de código abierto estándar.

Esta noticia complementa a otra que no es tan positiva la semana pasada Redis que es una base de datos en memoria que nos permite utilizar normalmente como caché para acelerar las operaciones pues cambiaba su licenciamiento y dejaba de ser open source porque decía que no le cuadraba los números que muchísima gente estaba utilizando y distribuyendo su base de datos y que no estaban sacando ningún tipo de retorno y esto hacía muy difícil sostener las operaciones de la empresa.

El caso es que Redis sobre todo en la parte que afecta a los usuarios pues cuando se ofrece desde proveedores de cloud como puede ser Azure o como puede ser Amazon como puede ser Google la gente que quiera redesplegar Redis a partir de la versión actual va a tener que llegar a un acuerdo con la empresa Redis que es la que está soportando el software para poderlo desplegar.

La verdad es que todo este mundo de la propiedad intelectual de las licencias y el código abierto es súper interesante y tiene también mucho que ver con todo lo que está pasando con los modelos con pesos abiertos o modelos que permiten a la gente descargar los pesos en ocasiones limitando los usos que pueden hacer de ellos por ejemplo no permitiendo que la gente utilice un modelo de código abierto para mejorar otros modelos de la competencia u otros modelos que no sean el mismo o sus descendientes.

Esto realmente va un poco en contra de todos los principios de la colaboración en abierto o del código abierto porque al final genera toda una serie de casos y problemáticas que no tienen fácil solución y lo que está pasando ahora mismo es que todo el mundo está utilizando los modelos más o menos como quieren es decir OpenAI por ejemplo en que el modelo de OpenAI no es libre en sus cláusulas de uso también dice que no se puede utilizar este modelo para entregar modelos de la competencia de hecho ha habido cuentas canceladas dentro de OpenAI como la de ByteDance la empresa que está detrás de TikTok que detectaron desde OpenAI que podían estar entregando un modelo que hiciera competencia GPT y cancelaron el acceso.

Todo esto realmente lo que genera es un campo de minas porque hay muchos investigadores muchos grupos que están utilizando GPT4 o Cloud 3 ahora mismo para generar datasets sintéticos y a partir de estos datasets sintéticos entrenar modelos y mejorar y hacer una un aprendizaje a través de transfer learning o digamos pasando las características de estos modelos muy caros y muy complejos a modelos más pequeños a través de esta generación de conjuntos de pruebas y de conjuntos de entrenamiento específicos.

En muchos casos las condiciones de uso lo impiden y esto puede hacer que la cuenta se anule pero lo que realmente está generando es un mundo en el que muchas veces se generan datasets sintéticos se pierde el origen tampoco está muy claro cuáles son las fuentes originales del modelo base y esto hace que cuando se llega al modelo final pues hay mucha información que se desconoce en cuanto a los datos que se han utilizado.

Esperemos que esto se resuelva de alguna forma también con la próxima ley de inteligencia artificial y me gustaría escuchar vuestros comentarios respecto a todos estos temas por cualquiera de las redes sociales.

Nos vemos aquí en el próximo de la IA en abierto.