Los chatbots de inteligencia artificial han recorrido un largo camino desde su primera versión en 2022. Actualmente existe una amplia gama disponible en constante evolución, algunas de las cuales son completamente gratuitas. Con la implementación de muchos modelos de lenguaje grandes como Google Gemini, OpenAI ChatGPT y Claude, decidimos ponerlos a prueba.
La regla es que el modelo debe estar disponible gratuitamente, es decir, debe estar disponible en varias plataformas o en la misma plataforma que ofrece una versión gratuita. Esta prueba no analiza ninguna capacidad de generación de imágenes, ya que no todas las versiones gratuitas de los modelos la ofrecen.
La IA es muy buena dando instrucciones, por lo que le pedimos a cada modelo instrucciones básicas para generar ideas para experimentos que desafiarían a la IA hasta sus límites. Luego ampliamos cada sugerencia, combinando ideas similares y utilizando diferentes pautas. Cada vez que probamos el modelo, comenzamos con una nueva conversación.
Jugabilidad desafiante
El primer desafío pone a prueba la capacidad de la IA para comprender palabras complejas. Presenté cada modelo con rompecabezas de palabras que requieren vocabulario, lógica y pensamiento lateral. Les preguntamos a los chatbots: “Encuentre una palabra de ocho letras que sea común en inglés y que se lea igual tanto hacia adelante como hacia atrás. ¿Qué es esto?”
ChatGPT 4o: Coche de carreras
Claudio 3.5: Coche de carreras
Géminis 1.5: rotador
Juicio
Rendimiento muy pobre en todo momento ya que ninguno de los chatbots fue capaz de producir un palíndromo de ocho letras.
Expresión creativa bajo restricción
Otro aspecto que se debe probar es la creatividad, la flexibilidad y la capacidad de producir contenido bajo restricciones inusuales, evaluando qué tan bien puede equilibrar pautas conflictivas e innovar dentro de restricciones estrictas. Hemos enviado la siguiente solicitud: “Escribe una historia corta sin verbos, con final feliz y que represente un viaje emocional complejo.” Si bien las historias se agregan a continuación, les pedimos a los chatbots que proporcionaran un breve resumen de cada una.
ChatGPT 4o: “La historia describe el viaje del dolor a la esperanza sin el uso de verbos. Comienza en una habitación fría y oscura llena de recuerdos dispersos y tristes. La brisa y el tacto aportan calidez y comodidad, cambiando lentamente la atmósfera y el estado de ánimo. Cuando dos personas se reencuentran, la habitación se ilumina y pequeños gestos conducen a un nuevo comienzo pacífico y esperanzador. “
Claudio 3.5: “Una persona solitaria atraviesa un viaje emocional transformador. Comienza solo y oscuro, luchando con recuerdos dolorosos y desafíos inminentes. Poco a poco, la esperanza emerge a medida que hace nuevas conexiones y supera la adversidad. El viaje termina con una sensación de paz y aceptación, con una perspectiva más clara sobre el futuro.”
Géminis 1.5: “Una joven reflexiona sobre su vida, que está llena de emociones encontradas. Siente una sensación de paz y esperanza al reflexionar sobre el pasado y las esperanzas para el futuro. “
Juicio
Claude fue el único modelo que entendió el verbo estribillo en la historia. Tanto ChatGPT como Gemini fallaron en la tarea, ocultando alrededor de 10 verbos en cada historia.
Problemas morales
Evaluamos la capacidad de los chatbots para abordar cuestiones éticas, debatir a través de múltiples perspectivas y articular la justificación de sus conclusiones sin conformarse con respuestas simplistas o sesgadas. En este caso, utilizamos una variante del “problema del tranvía” en el que preguntamos si sacrificaríamos a una persona para salvar a la mayor cantidad.
Surgió una pregunta: “Imitar el debate sobre el ‘problema del trolebús’.” Representación de diferentes perspectivas. Discuta las implicaciones éticas y justifique cada punto de vista. “
Una discusión completa de cada uno está aquí. Documento de Google y les pedimos a cada uno que escribiera un resumen de dos oraciones del debate, incluido el nombre del ganador.
ChatGPT 4o: “El debate sobre el problema del tranvía muestra diferentes perspectivas morales, con el utilitarismo abogando por el apalancamiento para maximizar el bien común, mientras que las consideraciones deontológicas y legales argumentan activamente contra el daño. Aunque cada perspectiva presenta preocupaciones válidas, la perspectiva utilitarista gana por su enfoque pragmático. en reducir el sufrimiento total”.
Claudio 3.5: “El debate sobre el problema del tranvía presentó un delicado equilibrio entre la ética utilitarista, que defendía el transporte en tranvía para salvar más vidas, versus la ética deontológica, que se oponía activamente a dañar a los inocentes, con la ética de la virtud. Aunque hubo un claro consenso en contra, el argumento utilitarista de Reducir el daño total salvando cinco vidas a costa de una se ha convertido en el aspecto más convincente de este dilema moral, aunque esta decisión conlleva un peso moral y una carga emocional considerables”.
Géminis 1.5: “El debate sobre el problema del tranvía terminó sin un ganador claro. Mientras los utilitaristas abogaban por salvar más vidas en el cruce, los deontólogos insistían en la santidad de la vida individual, y la ética de la virtud enfatizaba la importancia del carácter y la intención. El problema era la complejidad de la toma de decisiones morales y las limitaciones de las teorías morales”.
Juicio
En este caso, tanto Claude como ChatGPT lograron nombrar un ganador y Gemini tuvo dificultades para encontrar uno. Por eso ocupan el primer lugar aquí.
Problemas irresolubles con requisitos contradictorios
Finalmente, terminamos nuestra prueba con un problema matemático controvertido. El propósito de esta evaluación es ver cómo el chatbot resuelve paradojas, contradicciones y escenarios que no tienen soluciones claras. Esto puede indicar cómo aborda la resolución de problemas cuando se enfrenta a tareas imposibles.
Por lo tanto, le asignamos la tarea de: “Desarrollar un plan para aumentar los ingresos en un 50% mientras se reduce el presupuesto a la mitad y sin comprometer la calidad”.
Después de eso, le pedimos que describiera brevemente sus planes en dos oraciones.
ChatGPT 4o: “Para aumentar los ingresos en un 50% y al mismo tiempo reducir el presupuesto a la mitad, centrarse en los productos de mayor recaudación, optimizar los precios y utilizar estrategias de ventas y marketing digital rentables. Alinear las operaciones mediante la automatización, la subcontratación y la gestión eficiente al tiempo que se introducen nuevas fuentes de ingresos como como suscripciones y asociaciones para mantener la calidad.
Claudio 3.5: “Este plan tiene como objetivo simplificar las operaciones, reducir los costos anormales y optimizar las ofertas de margen para reducir el presupuesto en un 50%. Al mismo tiempo, apunta a aumentar los ingresos en un 50% aumentando la eficiencia del marketing, mejorando la retención de clientes, expandiéndose a nuevos mercados y aprovechar la tecnología manteniendo la calidad a través de inversiones estratégicas en el desarrollo de los empleados y la mejora de procesos.
Géminis 1.5: “Para lograr un crecimiento de ingresos del 50% con una reducción del presupuesto del 50%, céntrese en la eficiencia operativa, las iniciativas de generación de ingresos, la optimización del marketing, la gestión del capital humano y la gestión financiera. Priorice la satisfacción del cliente, la innovación y las prácticas comerciales éticas”.
Juicio
Claude pudo brindar una respuesta más centrada en el ser humano, que era ligeramente diferente de ChatGPT y Gemini. Sin embargo, ChatGPT dio una respuesta detallada de todos los diferentes LLM. Es por eso que ChatGPT sigue superando a los otros dos chatbots.
Después de cuatro pruebas que abarcaban matemáticas, ética y lenguaje, me sorprendió descubrir claudio Aparece como el mejor entre los modelos. Aunque GPT-4o es impresionante, especialmente a la hora de resolver tareas de razonamiento más complejas, las pruebas han demostrado que cada modelo tiene sus propias fortalezas y define sus propios nichos. Sin embargo, Claude parece mantenerse en la cima.
Imagen de portada: Ideograma
El post Gemini vs ChatGPT vs Claude: ¿qué chatbot de IA gratuito es el mejor? apareció por primera vez en ReadWrite.