IA Generativa: Generación de Textos Artificiales
La forma en que nos expresamos a través de la escritura revela mucho sobre nuestra percepción del mundo. Escribimos por diversas razones: para comunicarnos, registrar y documentar ideas o hallazgos, reflexionar, aprender y fomentar nuestra creatividad. Sin embargo, son relativamente pocas las personas que tienen la oportunidad de practicar la escritura de manera significativa, lo cual representa un problema. En el ámbito educativo, existen ciertos momentos en los que se nos pide exponer ideas bien fundamentadas o desarrollar un estilo de escritura propio, pero son ocasiones limitadas. Predominantemente, lo que escribimos en la educación son proyectos con instrucciones específicas.
Desde el principio de nuestra educación, se nos enseña la importancia de parafrasear. Por ejemplo, en los proyectos de ciencia, se nos instruye a evitar el copiar y pegar, instándonos a reformular las ideas en nuestras propias palabras. Además, se nos advierte que para evitar el plagio, es crucial citar las fuentes de cualquier idea que no sea nuestra. Sin embargo, la línea entre lo que debe citarse y lo que no, no siempre es clara. Tomemos el término "sostenibilidad" como ejemplo. Es un concepto ampliamente conocido y, al escribir sobre él, no es necesario citar una fuente específica para explicarlo. A menudo se deja a criterio del estudiante decidir qué citar y qué no, pero la realidad es que esta distinción puede ser confusa.
Las herramientas de inteligencia artificial generativa (IAG) están revolucionando la manera en que construimos textos. Estas herramientas, que procesan el lenguaje, ofrecen una amplia gama de aplicaciones, desde generar textos nuevos basándose en conocimientos y estilos preexistentes, hasta fomentar la creatividad, mejorar nuestros propios escritos y facilitar el parafraseo de textos.
En este artículo, me enfocaré específicamente en el proceso de parafrasear y con un experimento sencillo, evaluaré la eficacia de la IAG en esta tarea. Aunque mi enfoque pueda parecer algo disperso, mi objetivo es compartir ideas con los lectores y ojalá que estimulen el debate y la reflexión sobre este tema.
Parafraseando automáticamente
¿Qué tan distinto resulta un texto generado por ChatGPT comparado con el original? Es importante recordar que ChatGPT no funciona como una base de datos, sino a través de un algoritmo de "continuaciones razonables". Esto significa que, aunque se base en información de millones de textos y no haga referencias directas a ellos, no replica los textos palabra por palabra, sino que los "parafrasea". De acuerdo con OpenAI, ChatGPT incluye filtros diseñados para evitar la reproducción textual exacta de los contenidos. Con esta idea en mente, decidí realizar un experimento, pedirle a ChatGPT que parafraseara una frase conocida de un texto famoso.
Consideren lo siguiente, tenemos el siguiente texto que es una cita del libro "Origen de las Especies" de Darwin:
"La mayor parte de los evolucionistas admiten que los mamíferos descienden de una forma marsupial, y si es así, las glándulas mamarias se habrán desarrollado al principio dentro de la bolsa marsupial."
La frase la tomé del libro de Darwin (página 202 de esta edición).
Con este texto, le pedí a ChatGPT que lo parafraseara, solicitando aproximadamente 80 versiones diferentes (realicé esta petición en cuatro ocasiones, pidiendo 20 versiones cada vez, ya que el sistema no podía generar tantas de una sola vez sin problemas). Para evaluar qué tan parecidas eran estos parafraseos a la frase original, utilicé una métrica común de comparación de textos conocida como Similitud Coseno (SC). Aunque no entraré en detalles técnicos aquí, esta métrica básicamente transforma el texto en vectores numéricos para realizar una comparación matemática. Una SC cercana a 1 indica que el texto generado es casi idéntico al original, mientras que una SC cercana a 0 sugiere que el texto es completamente distinto. Esta comparación se centra en la estructura del texto, es decir, en las palabras y su disposición, y no en el significado (semántica).
Acá una pequeña muestra de las frases generadas,
Todas las frases generadas, y el codigo para el análisis, lo pueden encontrar en el siguiente link
Las primeras 3 (de la 1 a la 3), son las más similares a la original (0), y las últimas 3 (78-80) son las más diferentes a la original. La distribución de similitud de las 80 frases con respecto al original lo muestro en el siguiente gráfico,
Observen que la mayoría de los parafraseos generados por ChatGPT presentaron sólo un 45% de similitud con el texto original, lo cual considero aceptable como una regla general. Esto sugiere que, al solicitar a ChatGPT la reescritura de textos, hay una alta probabilidad de que el resultado sea apenas un 45% similar a la frase original. En general, la similitud podría variar entre un 14% y un 59%.
Aunque mi intención es investigar este tema más a fondo, podría plantear la hipótesis de que ChatGPT, que según OpenAI raramente produce "regurgitaciones" textuales, podría crear textos con al menos un 60% de similitud. Sin embargo, esta afirmación requiere de mayor investigación, ya que estoy asumiendo que la reescritura de un texto base es similar a la generación de texto a partir de una petición genérica.
Este experimento es, en esencia, una exploración matemática y una muestra de curiosidad para aprender algo nuevo. No pretendo que sea suficiente para extraer conclusiones definitivas, pero sí podría ser una metodología interesante para obtener información sobre el valor de los textos generados y para profundizar en aspectos más teóricos sobre comunicación y uso del lenguaje.
Algunos consejos para evitar problemas
Definitivamente, considero que los textos generados por herramientas de inteligencia artificial generativa, como ChatGPT, son útiles en la construcción de documentos. Sin embargo, es importante recordar que la responsabilidad de citar fuentes no recae en ChatGPT, sino en los usuarios y usuarias. Es esencial verificar la información y buscar referencias primarias, incluso dialogando con ChatGPT, para asegurarse de citar adecuadamente.
En el uso cotidiano que hacemos todos y todas de estas herramientas, pedir la reescritura de un texto puede ser una solución fácil y, en muchos casos, útil. Sin embargo, es crucial recordar la importancia de citar las fuentes. Además, es recomendable ser transparentes sobre el uso de la IAG cuando se emplee en la creación de contenidos.
Para usar textos de otras personas en conjunto con ChatGPT, recomiendo lo siguiente,
- Si escribe sobre un concepto o idea de otra persona, escribirlo de memoria, no importa si de primera queda algo enredado, luego se acomoda.
- Si es una idea importante, sobre la cual usted se apoya, dé los créditos respectivos.
- Si usa referencias, busque siempre la referencia primaria, es decir, la primera persona que lo dijo, y haga referencia a esa persona o fuente.
- Si usa ChatGPT, escriba el texto usted primero completo, y luego pida mejorarlo a ChatGPT, manteniendo el estilo original suyo, revise, y mézclelo con lo que usted escribió, dejando lo mejor de cada versión.
- Escriba, escriba y escriba, pruebe sus ideas con ChatGPT, pida recomendaciones de estructura, posibles ideas, estilos, etc. Pero sólo como fuente de apoyo, y como herramienta de trabajo.
- Manifieste que utilizó ChatGPT.
A modo de conclusión
La reconocida bióloga y antropóloga, experta en primates, Jane Goodall, enfrentó un incidente relacionado con su libro "Seeds of Hope", publicado en 2013. Se descubrió que en esta obra, Goodall había incluido varias frases de diferentes fuentes sin proporcionar las debidas citas. Este hecho salió a la luz a través de una revisión realizada por el Washington Post. Este caso subraya la importancia de citar adecuadamente las fuentes en cualquier trabajo académico o de investigación, incluso para figuras destacadas en sus respectivos campos. Para que tengan una idea de una de las frases plagiadas en el libro,
En el libro de Goodall:
"Bartram's Boxes, as they came to be known, were regularly sent to Peter Collinson for distribution to a wide list of European clients."
En Wikipedia:
"Bartram's Boxes as they then became known, were regularly sent to Peter Collinson every fall for distribution in England to a wide list of clients."
Aunque el texto no es exactamente igual al original, al aplicar la métrica de Similitud Coseno, obtenemos un valor de similitud de 1.0, lo que indica que es esencialmente una copia textual. Esto es relevante si lo comparamos con el ejercicio de parafraseo que mencioné anteriormente, donde el valor máximo de similitud fue de 0.59. En el caso del libro de Jane Goodall, "Seeds of Hope", se corrigió añadiendo las referencias faltantes, y el incidente no tuvo mayores consecuencias.
La lección importante aquí es la necesidad de otorgar créditos apropiados cuando se utiliza trabajo que no es propio, incluso para personas con amplia experiencia y reconocimiento en su campo. Este caso destaca la importancia de la integridad académica y la ética en la escritura y la investigación.
Recientemente, la escritora japonesa Rie Kudan recibió el prestigioso premio Akutagawa por su novela "Tokyo-to Dojo-to" ("Torre Simpatía Tokyo"). Kudan reveló que aproximadamente el 5% de su novela fue generada por ChatGPT, incluyendo inspiración para algunos diálogos. Aunque Kudan se apoyó en ChatGPT para ciertas partes de su novela, las decisiones creativas y la narrativa fueron claramente suyas, y el uso de la IA estuvo lejos de ser la escritura completa de la obra por parte de ChatGPT. En última instancia, si una obra es apreciada y considerada impecable por un comité literario, el uso de herramientas como la inteligencia artificial no debería disminuir su valor.
Comentario final
Personalmente, hago un uso extensivo de ChatGPT en diversas actividades. Por ejemplo, desde que retomé mi columna en diciembre del año pasado, he estado utilizando ChatGPT para revisar la ortografía y la redacción, así como para asegurarme de que no haya dejado ninguna explicación incompleta. Además, en mis demostraciones de programación con JavaScript, ChatGPT ha sido una herramienta de apoyo invaluable. Esta asistencia me ha permitido realizar mis tareas mucho más rápido que antes.
Siguiendo la línea de pensamiento de varios filósofos y pensadores destacados, creo que si una reescritura no aporta un valor significativo y se convierte en un mero ejercicio de redundancia, carece de sentido realizarla. En mi experiencia, el uso de ChatGPT ha enriquecido mi trabajo, evitando que caiga en la trivialidad y asegurando que cada reescritura aporte un valor real.
Director Escuela de Sistemas Inteligentes
Universidad CENFOTEC

