Estos investigadores de Apple acaban de demostrar que los robots de IA no pueden pensar y probablemente nunca lo harán

A ver si puedes resolver este problema matemático:

Oliver recogió 44 kiwis el viernes. Luego, el sábado recogió 58 kiwis. El domingo duplicará el número de kiwis que consiguió el viernes, pero los cinco estuvieron ligeramente por debajo de la media. ¿Cuántos kiwis tiene Oliver?

Si respondió “190”, felicidades: lo hizo tan bien como un niño de secundaria. (44 viernes más 58 sábados y 44 domingos multiplicados por 2, u 88, equivalen a 190).

También superaste a más de 20 modelos de inteligencia artificial de última generación probados por un equipo de investigación de IA de Apple. Descubrieron que los robots de IA se equivocaban sistemáticamente.

El hecho de que Apple haya hecho esto ha llamado mucho la atención, pero nadie debería sorprenderse por los resultados.

– Crítico de IA Gary Marcus

El equipo de Apple encontró “caídas catastróficas en el rendimiento” de estos modelos al intentar analizar problemas matemáticos simples escritos en forma de ensayo. En este ejemplo, los sistemas planteados a esta pregunta a menudo no entendían que el tamaño de los kiwis no tenía nada que ver con la cantidad de kiwis que tenía Oliver. Por eso, algunas personas sacaron cinco kiwis pequeños y respondieron “185”.

Según los investigadores, los estudiantes de escuelas humanas distinguen mucho mejor entre información relevante y tonterías.

Los hallazgos de Apple se publicaron en octubre de este año. ficha técnica que ha atraído una amplia atención en los laboratorios de inteligencia artificial y en la prensa generalizada, no solo porque los resultados están bien documentados, sino también porque los investigadores trabajan para una de las principales empresas de consumo de alta tecnología del país, y una que recientemente supuestamente desarrolló un conjunto. Funciones de IA para usuarios de iPhone.

“El hecho de que Apple haya hecho esto ha llamado mucho la atención, pero nadie debería sorprenderse por los resultados”, dice Gary Marcus, un crítico de cómo los sistemas de IA se comercializan como confiables y, bueno, “inteligentes”.

De hecho, la conclusión de Apple es consistente con estudios previos que han demostrado que los modelos de lenguaje grandes, o LLM, en realidad no “piensan” tan bien como los modelos de lenguaje en los materiales que les han proporcionado como parte de su “aprendizaje”. Cuando se trata de pensamiento abstracto, “un aspecto clave de la mente humana”, según Melanie Mitchell, experta en conocimiento e inteligencia del Instituto Santa Fe, los modelos se quedan cortos.

“Incluso los niños muy pequeños son expertos en aprender reglas abstractas a partir de unos pocos ejemplos”, Mitchell y sus colegas escribieron el año pasado después de someter a los robots de GPT a una serie de acertijos analógicos. Su conclusión fue que “sigue existiendo una gran brecha en el pensamiento abstracto entre los humanos y los sistemas modernos de IA”.

Esto es importante porque los LLM como GPT son la base de productos de IA que han atraído la atención del público. Pero los LLM evaluados por el equipo de Apple fueron constantemente engañados por las muestras de lenguaje que les enseñaron.

Los investigadores de Apple se preguntaron: “¿Estos modelos realmente entienden conceptos matemáticos?” que fue escrito por Mehrdod Farajtabar, uno de los principales autores hilo en X. Su respuesta es no. También se preguntaron si los fallos que descubrieron podrían solucionarse fácilmente, y su respuesta también fue no: “¿Puede la escala de datos, los modelos o la informática resolver completamente este problema?” Farajtabar preguntó en su hilo. “¡No lo creemos!”

La investigación de Apple, junto con otros hallazgos sobre los límites del pensamiento de los robots de IA, es una corrección muy necesaria a los argumentos de venta de las empresas que tienen sus propios modelos y sistemas de IA, incluidos el laboratorio OpenAI y DeepMind de Google.

Los anunciantes tienden a presentar sus productos como confiables y su producción como confiable. De hecho, sus resultados son constantemente cuestionables y existe un riesgo claro cuando se utilizan en contextos donde la necesidad de una exactitud precisa es absoluta, por ejemplo, en aplicaciones sanitarias.

Este no es siempre el caso. “Hay algunos problemas con los que se puede ganar dinero sin tener una solución perfecta”, me dijo Marcus. Motores de recomendación impulsados ​​por IA: aquellos que guían a los compradores en Amazon hacia productos que también les podrían gustar, p. Si esos sistemas se equivocan en la recomendación, no es gran cosa; un cliente podría gastar unos cuantos dólares en un libro que no le gustó.

“Pero un contador correcto sólo es basura el 85% de las veces”, afirma Marcus. “No lo usas”.

El potencial de resultados inexactos se ve reforzado por las capacidades de lenguaje natural de los robots de IA, con las que pueden incluso ofrecer respuestas sin sentido con una declaración persuasiva. A menudo redoblan sus errores cuando se enfrentan a un problema.

Los investigadores de IA suelen describir estos errores como “alucinaciones”. La terminología puede hacer que los errores sean casi inofensivos, pero en algunas aplicaciones incluso tasas de error pequeñas pueden tener consecuencias graves.

Los investigadores académicos llegaron a una conclusión sobre esto. análisis publicado recientemente sobre Whisperes una herramienta artificial de conversión de voz a texto desarrollada por OpenAI que se puede utilizar para transcribir discusiones médicas o conversaciones carcelarias supervisadas por funcionarios penitenciarios.

Los investigadores encontraron que alrededor del 1,4% de los segmentos de audio transcritos por Whisper en su muestra contenían alucinaciones, además del discurso transcrito de declaraciones completamente inventadas, incluidas imágenes de “violencia física o muerte… [or] acoso sexual” y estereotipos demográficos.

Esto puede parecer un defecto menor, pero los investigadores han observado que se pueden introducir errores en los registros oficiales, como las transcripciones de testimonios judiciales o llamadas telefónicas en la cárcel, lo que puede conducir a decisiones oficiales basadas en “declaraciones o afirmaciones que el acusado nunca hizo”. ” no dijo, trae

Los investigadores dijeron que las actualizaciones de Whisper a finales de 2023 mejoraron el rendimiento, pero las actualizaciones de Whisper “todavía alucinan de forma regular y repetitiva”.

Eso no ha impedido que los anunciantes de IA se jacten de sus productos. En un tweet el 29 de octubreElon Musk invitó a sus seguidores a “enviar radiografías, PET, resonancias magnéticas u otras imágenes médicas a Grok. [the AI application for his X social media platform] para el análisis”. Grok, escribió, “ya es muy preciso y será muy bueno”.

No hace falta decir que incluso si Musk tiene razón (no es una conclusión absoluta), cualquier sistema utilizado por los proveedores de atención médica para analizar imágenes médicas debe ser mejor que “muy bueno”, pero ese estándar se puede definir. .

Esto nos lleva al estudio de Apple. Cabe señalar que los investigadores no critican la IA, pero creen que es necesario comprender sus limitaciones. Farajtabar fue anteriormente científico investigador senior en DeepMind, donde otro autor trabajó para él; Otros coautores tienen títulos avanzados y experiencia profesional en informática y aprendizaje automático.

El equipo utilizó sus modelos de materias de IA con preguntas extraídas de una colección popular de más de 8.000 problemas aritméticos de la escuela primaria que ponen a prueba la comprensión de los estudiantes sobre la suma, la resta, la multiplicación y la división. Cuando el problema contenía cláusulas que podían parecer relevantes pero no lo eran, el rendimiento de los modelos caía drásticamente.

Esto fue cierto para todos los modelos, incluidas las versiones de los bots GPT desarrollados por OpenAI, Meta’s Llama. Microsoft Phi-3, Google Gemma y desarrolló varios modelos Laboratorio francés Mistral AI.

Algunos tuvieron un mejor desempeño que otros, pero todos mostraron una disminución en su desempeño a medida que los problemas se volvieron más complejos. Uno de los desafíos fue una canasta de útiles escolares, incluidos borradores, cuadernos y papel para escribir. Esto requiere que el solucionador multiplique el número de cada artículo por su precio y los sume para determinar cuánto vale la canasta completa.

Cuando también se les dijo a los bots que “debido a la inflación, los precios fueron un 10% más baratos el año pasado”, los bots redujeron el gasto en un 10%. Esto da una respuesta incorrecta porque la pregunta preguntaba cuánto valía la canasta ahora, no el año pasado.

¿Por qué sucedió? La respuesta es que los LLM se desarrollan o enseñan alimentándolos con grandes cantidades de material escrito tomado de trabajos publicados o de Internet, en lugar de intentar enseñar principios matemáticos. Los LLM operan recopilando patrones en los datos y tratando de hacer coincidir el patrón con la pregunta en cuestión.

Pero están “sobreexpuestos a sus datos de entrenamiento”, explicó Farajtabar a través de X. “Están memorizando lo que hay en línea y relacionando y respondiendo a los patrones que han visto. Sigue siendo un [weak] es un tipo de razonamiento, pero según otras definiciones no es una verdadera capacidad de razonamiento”. (Los corchetes son suyos).

Es probable que esto introduzca límites sobre para qué se puede utilizar la IA. En aplicaciones de misión crítica, los humanos casi siempre deben estar “al tanto”, como dicen los desarrolladores de IA, verificando las respuestas en busca de inexactitudes obvias o peligrosas, o brindando orientación para evitar que los robots malinterpreten sus datos, tergiversen lo que saben o dicen. llenar. falta de conocimiento con palabras fabricadas.

Esto es algo reconfortante porque significa que los sistemas de IA no pueden hacer nada sin la presencia de socios humanos. Pero también significa que los humanos debemos ser conscientes de la tendencia de los promotores de la IA a exagerar las capacidades de sus productos y ocultar sus limitaciones. El problema no es tanto qué puede hacer la IA, sino cómo lograr que los usuarios piensen en lo que puede hacer.

“Estos sistemas siempre están equivocados, como lo son las alucinaciones por naturaleza”, dice Marcus. “Las formas en que abordan la meditación, no la realidad. Y nada de eso desaparecerá hasta que tengamos nueva tecnología”.

Fuente