01/09/2024
Por qué la IA no va a hacer arte
Para crear una novela o un cuadro, un artista toma decisiones que son fundamentalmente ajenas a la inteligencia artificial.
Por Ted Chiang
https://www.newyorker.com/culture/the-weekend-essay/why-ai-isnt-going-to-make-art
n 1953, Roald Dahl publicó “El gran gramaticalizador automático,” una historia corta sobre un ingeniero eléctrico que secretamente desea ser escritor. Un día, después de completar la construcción de la máquina calculadora más rápida del mundo, el ingeniero se da cuenta de que "la gramática inglesa se rige por reglas que son casi matemáticas en su rigor". Construye una máquina de escribir ficción que puede producir un cuento de cinco mil palabras en treinta segundos; una novela dura quince minutos y requiere que el operador manipule manijas y pedales, como si estuviera conduciendo un automóvil o tocando un órgano, para regular los niveles de humor y patetismo. Las novelas resultantes son tan populares que, al cabo de un año, la mitad de la ficción publicada en inglés es producto de la invención del ingeniero..
¿Hay algo en el arte que nos haga pensar que no se puede crear presionando un botón, como en la imaginación de Dahl? En este momento, la ficción generada por grandes modelos lingüísticos como ChatGPT Es terrible, pero podemos imaginar que este tipo de programas podrían mejorar en el futuro. ¿Qué tan buenos podrían llegar a ser? ¿Podrían ser mejores que los humanos escribiendo ficción (o haciendo pinturas o películas) de la misma manera que las calculadoras son mejores sumando y restando??
A diario
Nuestro boletín principal destaca lo mejor de The New Yorker, incluidas las principales historias, ficción, humor y podcasts..
Inscribirse
Al registrarte, aceptas nuestra Acuerdo del Usuario y Política de privacidad y declaración de cookies. Este sitio está protegido por reCAPTCHA y Google política de privacidad y Términos de servicio Aplicar.
El arte es notoriamente difícil de definir, al igual que las diferencias entre el buen arte y el mal arte. Pero permítanme ofrecer una generalización: el arte es algo que resulta de tomar muchas decisiones. Esto podría ser más fácil de explicar si utilizamos la escritura de ficción como ejemplo. Cuando escribes ficción, consciente o inconscientemente estás eligiendo casi cada palabra que escribes; Para simplificar demasiado, podemos imaginar que una historia corta de diez mil palabras requiere algo del orden de diez mil opciones. Cuando le das una indicación a un programa de IA generativa, estás tomando muy pocas decisiones; Si proporciona un mensaje de cien palabras, habrá realizado del orden de cien opciones..
Si una IA genera una historia de diez mil palabras basada en tu mensaje, tiene que completar todas las elecciones que no estás tomando. Hay varias maneras en que puede hacer esto. Una es tomar un promedio de las decisiones que han tomado otros escritores, representadas por textos encontrados en Internet; ese promedio equivale a las opciones menos interesantes posibles, razón por la cual el texto generado por IA suele ser realmente insulso. Otra es instruir al programa para que adopte una imitación de estilo, emulando las elecciones realizadas por un escritor específico, lo que produce una historia muy derivada. En ninguno de los casos se trata de crear arte interesante..
Creo que el mismo principio subyacente se aplica al arte visual, aunque es más difícil cuantificar las decisiones que podría tomar un pintor. Los cuadros reales llevan la marca de una enorme cantidad de decisiones. En comparación, una persona que utiliza un programa de conversión de texto a imagen como DARLE ingresa un mensaje como “Un caballero con armadura lucha contra un dragón que escupe fuego” y deja que el programa haga el resto. (La versión más nueva de DARLE acepta indicaciones de hasta cuatro mil caracteres (cientos de palabras, pero no suficientes para describir cada detalle de una escena). La mayoría de las opciones en la imagen resultante deben tomarse prestadas de pinturas similares que se encuentran en línea; La imagen puede estar exquisitamente renderizada, pero la persona que ingresa el mensaje no puede reclamar crédito por eso..
Algunos comentaristas imaginan que los generadores de imágenes afectarán la cultura visual tanto como lo hizo alguna vez la llegada de la fotografía. Aunque esto pueda parecer superficialmente plausible, la idea de que la fotografía es similar a la IA generativa merece un examen más detenido. Cuando se desarrolló la fotografía por primera vez, sospecho que no parecía un medio artístico porque no era evidente que hubiera muchas opciones que tomar; simplemente configura la cámara y comienza la exposición. Pero con el tiempo la gente se dio cuenta de que había una gran cantidad de cosas que se podían hacer con las cámaras, y el arte radica en las muchas elecciones que hace un fotógrafo. Puede que no siempre sea fácil articular cuáles son las opciones, pero cuando comparas las fotografías de un aficionado con las de un profesional, puedes ver la diferencia. Entonces la pregunta es: ¿Existe una oportunidad similar de tomar una gran cantidad de opciones utilizando un generador de texto a imagen? Creo que la respuesta es no. Un artista, ya sea que trabaje digitalmente o con pintura, implícitamente toma muchas más decisiones durante el proceso de creación de una pintura de las que cabrían en un texto de unos pocos cientos de palabras..
Podemos imaginar un generador de texto a imagen que, en el transcurso de muchas sesiones, le permita ingresar decenas de miles de palabras en su cuadro de texto para permitir un control extremadamente detallado sobre la imagen que está produciendo; esto sería algo análogo a Photoshop con una interfaz puramente textual. Yo diría que una persona podría utilizar un programa así y aun así merecer ser llamado artista. El director de cine Bennett Miller ha utilizado DARLE 2 generar unas imágenes muy llamativas que han sido expuestas en la galería Gagosian; Para crearlos, elaboró indicaciones de texto detalladas y luego instruyó DARLE revisar y manipular las imágenes generadas una y otra vez. Generó más de cien mil imágenes para llegar a las veinte imágenes de la exposición. Pero ha dicho que no ha podido obtener resultados comparables en versiones posteriores de DARLE. Sospecho que esto podría deberse a que Miller estaba usando DARLE para algo que no está destinado a hacer; es como si hubiera pirateado Microsoft Paint para que se comportara como Photoshop, pero tan pronto como se lanzó una nueva versión de Paint, sus hacks dejaron de funcionar. Probablemente OpenAI no esté intentando crear un producto para servir a usuarios como Miller, porque un producto que requiere que un usuario trabaje durante meses para crear una imagen no es atractivo para una audiencia amplia. La empresa quiere ofrecer un producto que genere imágenes con poco esfuerzo.
Es más difícil imaginar un programa que, tras muchas sesiones, te ayude a escribir una buena novela. Este programa de escritura hipotético podría requerir que ingreses cien mil palabras de indicaciones para generar cien mil palabras completamente diferentes que compongan la novela que estás imaginando. No tengo claro cómo sería un programa así. En teoría, si existiera tal programa, el usuario quizás podría merecer ser llamado autor. Pero, repito, no creo que empresas como OpenAI quieran crear versiones de ChatGPT que requieran tanto esfuerzo por parte de los usuarios como escribir una novela desde cero. El punto de venta de la IA generativa es que estos programas generan mucho más de lo que se les dedica, y eso es precisamente lo que les impide ser herramientas efectivas para los artistas..
Las empresas que promueven programas de IA generativa afirman que darán rienda suelta a la creatividad. En esencia, dicen que el arte puede ser todo inspiración y nada de transpiración, pero estas cosas no se pueden separar fácilmente. No digo que el arte tenga que implicar tedio. Lo que digo es que el arte requiere tomar decisiones en todas las escalas; Las innumerables decisiones a pequeña escala tomadas durante la implementación son tan importantes para el producto final como las pocas decisiones a gran escala tomadas durante la concepción. Es un error equiparar “a gran escala” con “importante” cuando se trata de las decisiones que se toman al crear arte; la interrelación entre la gran escala y la pequeña escala es donde radica el arte.
Sospecho que creer que la inspiración pesa más que todo lo demás es una señal de que alguien no está familiarizado con el medio. Sostengo que esto es cierto incluso si el objetivo de uno es crear entretenimiento en lugar de arte elevado. La gente suele subestimar el esfuerzo necesario para entretener; Es posible que una novela de suspense no esté a la altura del libro ideal de Kafka (un “hacha para el mar helado que llevamos dentro”), pero aun así puede estar tan finamente elaborada como un reloj suizo. Y un thriller eficaz es más que su premisa o su argumento. Dudo que puedas reemplazar cada frase de un thriller por una que sea semánticamente equivalente y que la novela resultante sea igual de entretenida. Esto significa que sus frases (y las elecciones a pequeña escala que representan) ayudan a determinar la eficacia del thriller..
Vídeo del neoyorquino
Justicia rápida: un tribunal talibán en sesión
Muchos novelistas han tenido la experiencia de ser abordados por alguien convencido de que tienen una gran idea para una novela, que están dispuestos a compartir a cambio de una división al cincuenta por ciento de las ganancias. Una persona así, sin darse cuenta, revela que cree que formular oraciones es una molestia más que una parte fundamental de la narración en prosa. La IA generativa atrae a personas que creen que pueden expresarse en un medio sin trabajar realmente en ese medio. Pero los creadores de novelas, pinturas y películas tradicionales se sienten atraídos por esas formas de arte porque ven el potencial expresivo único que ofrece cada medio. Es su afán por aprovechar al máximo esas potencialidades lo que hace que su trabajo sea satisfactorio, ya sea como entretenimiento o como arte..
Por supuesto, la mayoría de los escritos, ya sean artículos, informes o correos electrónicos, no incluyen la expectativa de incluir miles de opciones. En tales casos, ¿hay algún inconveniente en automatizar la tarea? Permítanme ofrecer otra generalización: cualquier escrito que merezca su atención como lector es el resultado del esfuerzo realizado por la persona que lo escribió. El esfuerzo durante el proceso de escritura no garantiza que valga la pena leer el producto final, pero no se puede realizar un trabajo que valga la pena sin él. El tipo de atención que se presta al leer un correo electrónico personal es diferente del tipo que se presta al leer un informe comercial, pero en ambos casos sólo se justifica cuando el autor lo piensa un poco..
Recientemente, Google emitió un comercial durante los Juegos Olímpicos de París para Gemini, su competidor de GPT de OpenAI-4. El anuncio muestra a un padre usando a Géminis para redactar una carta de admirador, que su hija enviará a un atleta olímpico que la inspira. Google retiró el comercial después de una reacción generalizada de los espectadores; un profesor de medios lo llamó "uno de los comerciales más inquietantes que he visto en mi vida". Es notable que la gente reaccionara de esta manera, aunque la creatividad artística no fue el atributo que fue suplantado. Nadie espera que la carta de un fanático de un niño a un atleta sea extraordinaria; Si la joven hubiera escrito la carta ella misma, probablemente no se habría distinguido de muchas otras. La importancia de la carta de un fanático de un niño, tanto para el niño que la escribe como para el atleta que la recibe, proviene de que sea sincera más que de su elocuencia..
Muchos de nosotros hemos enviado tarjetas de felicitación compradas en tiendas, sabiendo que al destinatario le quedará claro que no escribimos las palabras nosotros mismos. No copiamos las palabras de una tarjeta Hallmark con nuestra propia letra porque sería deshonesto. El programador Simon Willison ha descrito el entrenamiento para grandes modelos de lenguaje como “lavado de dinero para datos protegidos por derechos de autor”, lo cual me parece una manera útil de pensar en el atractivo de los programas de IA generativa: te permiten involucrarte en algo parecido al plagio, pero no hay culpa asociada con ello porque ni siquiera para ti está claro que estás copiando.
Algunos han afirmado que los grandes modelos lingüísticos no blanquean los textos en los que han sido entrenados, sino que más bien aprenden de ellos, del mismo modo que los escritores humanos aprenden de los libros que han leído. Pero un gran modelo lingüístico no es un escritor; ni siquiera es un usuario del lenguaje. El lenguaje es, por definición, un sistema de comunicación y requiere una intención de comunicar. La función de autocompletar de tu teléfono puede ofrecer sugerencias buenas o malas, pero en ningún caso intenta decirte nada a ti o a la persona a la que estás enviando mensajes de texto. El hecho de que ChatGPT pueda generar oraciones coherentes nos invita a imaginar que entiende el lenguaje de una manera que el sistema de autocompletar de su teléfono no lo hace, pero que ya no tiene intención de comunicarse..
Es muy fácil conseguir que ChatGPT emita una serie de palabras como “Me alegro de verte”. Hay muchas cosas que no entendemos sobre cómo funcionan los modelos de lenguaje grandes, pero una cosa de la que podemos estar seguros es que ChatGPT no está feliz de verlo. Un perro puede comunicar que está feliz de verte, al igual que un niño prelingüístico, aunque ambos carezcan de la capacidad de utilizar palabras. ChatGPT no siente nada ni desea nada, y esta falta de intención es la razón por la que ChatGPT en realidad no utiliza el lenguaje. Lo que hace que las palabras “Me alegro de verte” sean una expresión lingüística no es que la secuencia de elementos de texto que la componen esté bien formada; Lo que lo convierte en un enunciado lingüístico es la intención de comunicar algo..
Debido a que el lenguaje nos resulta tan fácil, es fácil olvidar que se encuentra por encima de estas otras experiencias de sentimiento subjetivo y de querer comunicar ese sentimiento. Nos sentimos tentados a proyectar esas experiencias en un modelo de lenguaje grande cuando éste emite oraciones coherentes, pero hacerlo es caer presa de la imitación; Es el mismo fenómeno que ocurre cuando las mariposas desarrollan grandes manchas oscuras en sus alas que pueden engañar a los pájaros haciéndoles creer que son depredadores con ojos grandes. Hay un contexto en el que las manchas oscuras son suficientes; Es menos probable que los pájaros se coman una mariposa que los tenga, y a la mariposa realmente no le importa por qué no se la comen, siempre y cuando pueda vivir. Pero hay una gran diferencia entre una mariposa y un depredador que representa una amenaza para un pájaro..
Una persona que utiliza IA generativa para ayudarse a escribir podría afirmar que se está inspirando en los textos en los que se entrenó el modelo, pero yo diría nuevamente que esto difiere de lo que normalmente queremos decir cuando decimos que un escritor se inspira en otro. Consideremos un estudiante universitario que entrega un trabajo que consiste únicamente en una cita de cinco páginas de un libro, afirmando que esta cita transmite exactamente lo que quería decir, mejor de lo que podría decirlo ella misma. Incluso si el estudiante es completamente sincero con el instructor acerca de lo que ha hecho, no es exacto decir que se está inspirando en el libro que está citando. El hecho de que un modelo de lenguaje grande pueda reformular la cita lo suficiente como para que la fuente no sea identificable no cambia la naturaleza fundamental de lo que está sucediendo..
Como ha señalado la lingüista Emily M. Bender, los profesores no piden a los estudiantes que escriban ensayos porque el mundo necesita más ensayos de los estudiantes. El objetivo de escribir ensayos es fortalecer las habilidades de pensamiento crítico de los estudiantes; De la misma manera que levantar pesas es útil sin importar qué deporte practique un atleta, escribir ensayos desarrolla las habilidades necesarias para cualquier trabajo que eventualmente consiga un estudiante universitario. Usar ChatGPT para completar tareas es como llevar un montacargas a la sala de pesas; Nunca mejorarás tu aptitud cognitiva de esa manera..
No toda la escritura tiene que ser creativa, sincera o incluso particularmente buena; a veces simplemente necesita existir. Dichos escritos podrían respaldar otros objetivos, como atraer visitas para publicidad o satisfacer requisitos burocráticos. Cuando se exige a las personas que produzcan ese tipo de texto, difícilmente podemos culparlas por utilizar cualquier herramienta disponible para acelerar el proceso. Pero, ¿está mejor el mundo con más documentos en los que se haya invertido un mínimo de esfuerzo en ellos? No sería realista afirmar que si nos negamos a utilizar modelos lingüísticos de gran tamaño, desaparecerán los requisitos para crear texto de baja calidad. Sin embargo, creo que es inevitable que cuanto más utilicemos grandes modelos de lenguaje para cumplir esos requisitos, mayores serán eventualmente. Estamos entrando en una era en la que alguien podría usar un modelo de lenguaje grande para generar un documento a partir de una lista con viñetas y enviárselo a una persona que usará un modelo de lenguaje grande para condensar ese documento en una lista con viñetas. ¿Alguien puede argumentar seriamente que esto es una mejora??
No es imposible que algún día tengamos programas informáticos que puedan hacer cualquier cosa que un ser humano pueda hacer, pero, contrariamente a lo que afirman las empresas que promueven la IA, eso no es algo que veremos en los próximos años. Incluso en dominios que no tienen absolutamente nada que ver con la creatividad, los programas actuales de IA tienen profundas limitaciones que nos dan razones legítimas para preguntarnos si merecen ser llamados inteligentes..
El informático François Chollet ha propuesto la siguiente distinción: la habilidad es qué tan bien se desempeña en una tarea, mientras que la inteligencia es la eficiencia con la que se adquieren nuevas habilidades. Creo que esto refleja bastante bien nuestras intuiciones sobre los seres humanos. La mayoría de las personas pueden aprender una nueva habilidad con suficiente práctica, pero cuanto más rápido la adquiere la persona, más inteligente pensamos que es. Lo interesante de esta definición es que, a diferencia de las pruebas de coeficiente intelectual, también es aplicable a entidades no humanas; Cuando un perro aprende rápidamente un nuevo truco, lo consideramos un signo de inteligencia..
En 2019, los investigadores realizaron un experimento en el que enseñaron a ratas a conducir. Pusieron las ratas en pequeños recipientes de plástico con tres barras de alambre de cobre; Cuando los ratones pusieron sus patas sobre una de estas barras, el contenedor avanzaba, giraba a la izquierda o a la derecha. Las ratas pudieron ver un plato de comida al otro lado de la habitación e intentaron que sus vehículos se dirigieran hacia él. Los investigadores entrenaron a las ratas durante cinco minutos a la vez y, después de veinticuatro sesiones de práctica, las ratas adquirieron destreza en la conducción. Veinticuatro pruebas fueron suficientes para dominar una tarea que probablemente ninguna rata había enfrentado antes en la historia evolutiva de la especie. Creo que es una buena demostración de inteligencia..
Consideremos ahora los programas de IA actuales que son ampliamente aclamados por su desempeño. AlphaZero, un programa desarrollado por DeepMind de Google, juega al ajedrez mejor que cualquier jugador humano, pero durante su entrenamiento jugó cuarenta y cuatro millones de partidas, muchas más de las que cualquier humano puede jugar en su vida. Para dominar un juego nuevo, tendrá que someterse a una cantidad igualmente enorme de entrenamiento. Según la definición de Chollet, programas como AlphaZero son altamente calificados, pero no son particularmente inteligentes porque no son eficientes para adquirir nuevas habilidades. Actualmente es imposible escribir un programa de computadora capaz de aprender incluso una tarea simple en sólo veinticuatro intentos, si el programador no recibe información sobre la tarea de antemano..
Los automóviles autónomos entrenados en millones de millas de conducción aún pueden chocar contra un camión con remolque volcado, porque tales cosas no se encuentran comúnmente en sus datos de entrenamiento, mientras que los humanos que toman su primera clase de conducción sabrán que deben detenerse. Más que nuestra capacidad para resolver ecuaciones algebraicas, nuestra capacidad para afrontar situaciones desconocidas es una parte fundamental de por qué consideramos inteligentes a los humanos. Las computadoras no podrán reemplazar a los humanos hasta que adquieran ese tipo de competencia, y para eso todavía queda un largo camino por recorrer; Por el momento, solo estamos buscando trabajos que se puedan realizar con el autocompletado turboalimentado..
A pesar de años de exageraciones, la capacidad de la IA generativa para aumentar drásticamente la productividad económica sigue siendo teórica. (A principios de este año, Goldman Sachs publicó un informe titulado “Gen AI: ¿Demasiado gasto, muy poco beneficio?”) La tarea en la que la IA generativa ha tenido más éxito es reducir nuestras expectativas, tanto de las cosas que leemos como de nosotros mismos cuando escribimos cualquier cosa para que otros lo lean. Es una tecnología fundamentalmente deshumanizante porque nos trata como menos de lo que somos: creadores y captadores de significado. Reduce la cantidad de intención en el mundo..
Algunas personas han defendido los grandes modelos lingüísticos diciendo que la mayor parte de lo que los seres humanos dicen o escriben no es particularmente original. Eso es cierto, pero también es irrelevante. Cuando alguien te dice “lo siento”, no importa que otras personas hayan pedido perdón en el pasado; No importa que “lo siento” sea una cadena de texto que estadísticamente no tiene nada de especial. Si alguien está siendo sincero, su disculpa es valiosa y significativa, aunque ya se haya disculpado previamente. Del mismo modo, cuando le dices a alguien que estás feliz de verlo, estás diciendo algo significativo, incluso si carece de novedad..
Algo similar ocurre con el arte. Ya sea que esté creando una novela, una pintura o una película, está participando en un acto de comunicación entre usted y su audiencia. Lo que creas no tiene que ser completamente diferente a cualquier obra de arte anterior en la historia de la humanidad para ser valioso; el hecho de que seas tú quien lo diga, el hecho de que derive de tu experiencia vital única y llegue en un momento particular de la vida de quien está viendo tu obra, es lo que la hace nueva. Todos somos producto de lo que nos precedió, pero es viviendo nuestras vidas en interacción con los demás que le damos significado al mundo. Eso es algo que un algoritmo de autocompletar nunca podrá hacer, y no dejes que nadie te diga lo contrario.. ♦