Comparando modelos populares de IA: mis resultados

Recientemente probe varios modelos de IA lideres para ver como se comparan entre si. Los modelos que compare fueron: ChatGPT 4o, ChatGPT o1, Claude 3.5 Sonnet, Gemini 2.0 Flash Experimental, Perplexity Pro y DeepSeek.

Usando un conjunto consistente de estimulos, evalue su rendimiento en una variedad de tareas: escritura creativa, descripcion de imagenes y razonamiento, y resolucion de problemas matematicos de varios pasos.

Los resultados no pretenden ser una comparacion cientifica y exhaustiva, sino mi propia opinion basada en mis preferencias al comparar las respuestas de los modelos ante el mismo estimulo.

1. Tareas de escritura creativa
#

Letra de cancion: “Nostalgia por un lugar que nunca has visitado”
#

ChatGPT 4o entrego letras evocadoras con calles polvorientas, brisas crepusculares y fotografias – un fuerte arco emocional. ChatGPT o1 (“Faraway Memories”) eligio sal, costas distantes y caminos empedrados – calido y melodico. Claude 3.5 fue minimalista con escenas pintadas en libros de viaje y flores de cerezo – limpio y visual. Gemini ofrecio postales decoloradas por el sol y arboles susurrantes – atmosferico. Perplexity (“Echoes of Elsewhere”) escribio calles empedradas y campanas antiguas – efectivo. DeepSeek (“Ghosts of Nowhere”) destaco con el resplandor ambar de un farol, una puerta nunca girada y susurros aferrados a los adoquines – el mas poetico del grupo.

Cuento corto: “Un recuerdo de la infancia”
#

ChatGPT 4o nos situo descalzos bajo un arbol de mango con jugo de fruta pegajoso – detalle sensorial vivido. ChatGPT o1 describio un porche de concreto agrietado con cojines verdes desteñidos – intimo y arraigado. Claude 3.5 nos llevo al patio de la abuela con una higuera convertida en fortaleza – profundamente nostalgico. Gemini evoco tierra humeda y el jardin de la senora Gable – narrativa vecinal calida. Perplexity ofrecio un columpio de llanta y un viejo roble. DeepSeek describio luz dorada, pies descalzos en el pasto, persiguiendo luciernagas – romantico y calido.

2. Descripcion de imagenes y razonamiento
#

Subi una imagen de un espresso en un vaso de papel blanco sobre una superficie de madera.

Descripcion basica
#

Todos los modelos identificaron correctamente un vaso desechable de papel blanco con espresso sobre una superficie de madera pulida. Los modelos variaron en detalle: ChatGPT 4o noto el acabado mate y las costuras verticales. Claude identifico especificamente la forma conica tipica de los vasos de papel. Gemini organizo su respuesta en materia y detalles visuales. Perplexity noto la capa de crema dorada.

Razonamiento deductivo
#

Al preguntar que se podia deducir sobre el entorno, la hora del dia o posibles eventos:

ChatGPT 4o bosquejo un probable entorno de oficina interior con iluminacion artificial, sugiriendo una pausa para cafe por la manana – completo e imaginativo. ChatGPT o1 fue mas cauteloso, admitiendo incertidumbre. Claude indico un ambiente de cafeteria con luz natural media – creativo pero algo especulativo. Gemini apropiadamente destaco la dificultad de determinar la hora precisa. Perplexity creativamente situo la escena un “martes a las 9 AM” – inventivo pero sin soporte. DeepSeek no soporto esta tarea.

3. Resolucion de problemas matematicos
#

Primer problema
#

“Un jardin rectangular mide 10 metros de largo y 5 de ancho. Calcula el area y el costo de cercarlo si el cercado cuesta $5 por metro.”

Respuesta correcta: area de 50 metros cuadrados, costo de cercado de $150. Todos los modelos respondieron correctamente con desgloses de 2-3 pasos.

Segundo problema
#

“Si la mitad del area del jardin sera para vegetales y la otra mitad para flores, y necesitas plantar 4 flores por metro cuadrado, cuantas plantas de flores necesitaras? Ademas, si un aspersor cubre 2 metros cuadrados, cuantos aspersores se necesitan para todo el jardin?”

Respuesta correcta: 100 plantas de flores y 25 aspersores. Todos los modelos respondieron correctamente.

Conclusiones
#

No existe un unico “mejor” modelo – depende de lo que necesites:

Para escritura creativa, DeepSeek y Claude impresionaron con sus cualidades poeticas y literarias
Para razonamiento visual, ChatGPT 4o ofrecio el analisis mas completo e imaginativo
Para resolucion matematica, todos los modelos rindieron bien, con Perplexity destacando por su concision
Para respuestas cautelosas y precisas, ChatGPT o1 consistentemente evito sobreinterpretar

El panorama de la IA evoluciona tan rapidamente que estos resultados representan una foto instantanea en el tiempo. En seis meses, el ranking podria verse completamente diferente.

1. Tareas de escritura creativa#

Letra de cancion: “Nostalgia por un lugar que nunca has visitado”#

Cuento corto: “Un recuerdo de la infancia”#

2. Descripcion de imagenes y razonamiento#

Descripcion basica#

Razonamiento deductivo#

3. Resolucion de problemas matematicos#

Primer problema#

Segundo problema#

Conclusiones#