Los abogados pueden dormir más tranquilos respecto al Impacto inmediato de la IA en sus trabajos

bienvenidos a este segundo episodio de inteligencia artificial en abierto hoy os quiero acercar una reciente publicación en la que se reevalúa el rendimiento de gpt4 con respecto a un tema que ha sido muy controvertido que es el rendimiento de este modelo para superar determinados exámenes de acceso a determinadas profesiones o a exámenes concretos como en este caso un examen llamado uniform bar exam que es el examen de acceso que se hace para acceder a la abogacía en eeuu un examen riguroso y que obviamente pues si de repente un modelo como gpt4 es capaz de conseguir una puntuación cerca del 90% top de todos los estimados pues esto significa que bueno pues que las capacidades del modelo para realizar determinadas tareas relacionadas con el mundo de la abogacía y el derecho pues debían ser totalmente excepcionales en el lanzamiento se anunció concretamente que las capacidades cero shot es decir sin darle ningún contexto a ninguna ley ningún añadido daban un rendimiento del 90% bien pues justo se ha publicado un paper en abierto un paper open access que está disponible dentro de la revista de artificial intelligence al law se ha publicado el 30 de marzo súper recientemente su autor es eric martínez y el artículo básicamente viene a cuestionar el rendimiento del examen hay varias cosas que son interesantes a la hora de pensar cómo se ha aproximado a la evaluación de este de esta nota porque porque como siempre como siempre desde que sacaron gpt 3.5 open y hay no ha compartido datos de bueno ha compartido un montón de publicaciones pero pues por ejemplo detalles de cómo funciona gpt 4 cuáles han sido los datos de entrenamiento han ido surgiendo filtraciones pero realmente hay poco de abierto en los modelos más recientes de de open y hay de las lenguas modelos la cuestión es que si veamos el rendimiento de los distintos exámenes y esta es una de las primeras cosas que indica eric pues es un poco raro que se obtuviera un rendimiento más del 95% porque parte del examen son preguntas tipo test pero otra parte del examen son preguntas de escribir ensayos es decir de preparar ensayos y sin embargo si sumamos estas dos notas pues o digamos dividimos estas dos notas en dos partes en la parte de los ensayos se veía que los modelos de redacción y de preparación de ensayos las mejoras habían sido relativamente mínimas en comparación con gpt 3.5 es decir el modelo de gpt 3.5 rendía un poquito peor que el de gpt 4 en redacción en inglés entonces era inexplicable cómo un modelo que había dado un rendimiento muy malo como la gpt 3.5 en este examen bar de repente pasa a estar en la parte bajísima de rendimiento a reportar un rendimiento del 90% esto es lo que lo que primeramente le llamó la atención pero bueno por resumir básicamente el paper os voy a dejar el enlace a esta publicación directamente aquí en el post y decir que según las investigaciones de intentando replicar este este dato con gpt 4 el rendimiento en lugar de estar en torno a un 90% se estima que cae a un 48 o sea el percentil 48 es decir estamos hablando de que en vez de llegar la mejora hasta el 90 llega sólo hasta el 48% en total pero que si encima nos centramos en la parte de los ensayos es decir la preparación lo que serían de textos más largos argumentativos relacionados con la abogacía baja hasta el 15% es decir se anuncia un 90% llegamos al 15% bien una cuestión muy interesante es si esto se puede deber a que el autor no ha replicado ciertos pro no ha replicado una serie de cuestiones pero se nos indica al final que ajustando parámetros como la temperatura o cuestiones como añadir varios ejemplos lo que se conoce como fuso o aplicando prompts de tipo chain of thought o cadena de pensamiento en teoría deberían producir mejoras pero realmente estas mejoras no son realmente significativas es decir aunque apliquemos todas estas mejoras el rendimiento no se dispara tal y como se anunciaba en la publicación original del modelo de gpt4 así que bueno pues un resultado interesante sorprendente que llega justo en el momento en el que gpt4 parece que se acaba de desbancar como el modelo lm más potente dando paso a cloud 3 opus de antropic también cerrado y en cualquier caso una cuestión importante ahora que estamos hablando del abierto es la importancia de la apertura de estos modelos la apertura de los benchmark la apertura de las evaluaciones y cuando miremos ver si hay alguna publicación donde explica de forma clara transparente científica replicable cómo se ha entrenado el modelo cómo sea con qué datos alimentado puede ser que los datos que se han alimentado sean los mismos que en los test y por eso de un valor tan alto si no lo sabemos no vamos a poder hacer realmente este tipo de análisis así que os recomiendo también que miréis un modelo que se ha publicado para mí ahora mismo el más abierto posible que se llama olmo que obviamente es de un tamaño ínfimo comparado con gpt4 pero que puede marcar el camino del futuro de los lm en abiertos y como siempre cuando se dan este tipo de afirmaciones hiperbólicas es importante tener en cuenta quién las da porque las da y pedir los datos dónde están estos datos hasta aquí este episodio un pequeño más largo pero creo que interesante ya me vais contando por aquí por micro blog o por redes sociales como crees un saludo y hasta mañana

Cesar Garcia @elsatch