Aeneas: el modelo de IA que reconstruye y ubica en el tiempo los textos latinos antiguos
Aeneas tiene tres redes neuronales, y cada una tiene su propia tarea: restaurar texto faltante; predecir el origen geográfico del texto; y estimar su antigüedad.
Aeneas, un modelo de inteligencia artificial (IA) generativa, puede predecir el lugar de procedencia de textos antiguos en latín, estimar su antigüedad e incluso restaurar partes faltantes.
Este fue entrenado con inscripciones de tres de las mayores bases de datos de epigrafía en latín del mundo. Investigadores de universidades del Reino Unido y Grecia, junto con la empresa de IA de Google, DeepMind, incluyeron 176.861 inscripciones —además de imágenes del 5 % de ellas— con fechas que iban desde el siglo VII a. C. hasta el siglo VIII d. C.
Aeneas tiene tres redes neuronales, y cada una tiene su propia tarea: restaurar texto faltante; predecir el origen geográfico del texto; y estimar su antigüedad.
Además, tiene la capacidad de proporcionar una lista de inscripciones similares extraídas del conjunto de datos, ordenadas según su relevancia respecto de la inscripción original.
"Aeneas puede recuperar paralelos relevantes en todo nuestro conjunto de datos al instante porque cada texto tiene un identificador único en la base de datos", explicó el coautor Yannis Assael, científico investigador en Google DeepMind.
Para probar la precisión y utilidad del modelo, se les solicitó a 23 epigrafistas (expertos en inscripciones antiguas) que restauraran un texto eliminado. También se les pidió la fecha y el origen. Sin apoyo de la IA, lograron fechar las inscripciones con un margen de error de 31 años.
Aeneas proporcionó fechas correctas con un margen de error de 13 años.
Para identificar el origen geográfico y restaurar partes del texto, los especialistas que contaban con la lista de inscripciones similares del modelo y sus predicciones fueron más precisos que aquellos que trabajaban solos o que solo usaban el modelo.
Con el apoyo del modelo, los expertos también lograron fechar las inscripciones con un margen de error de alrededor de 14 años.
Prueba para Aeneas
El modelo se probó con un texto muy conocido llamado Res gestae divi Augusti, que detalla la vida del emperador romano Augusto.
Lo que predijo el modelo sobre la antigüedad coincidió con la de los historiadores. También detectó variaciones ortográficas e identificó otras características que un historiador usaría para estimar la antigüedad y el origen.
Anne Rogerson, experta en textos latinos en la Universidad de Sídney, Australia, aseguró que el modelo puede analizar enormes volúmenes de datos que están más allá del alcance de una sola persona.
También puede ayudar a los historiadores a encontrar inscripciones similares a las que están estudiando —algo que puede tomar semanas o incluso meses si se hace manualmente— y podría ser útil para estudiantes que estén aprendiendo epigrafía.
Las respuestas del modelo parecen estar mejor fundamentadas y ser menos propensas a inventar datos que las de herramientas de IA populares no especializadas, agregó Rogerson. "Está ofreciendo una hipótesis basada en la evidencia disponible, así que es una conjetura racional, no un tiro al aire".
Rogerson adviertió que Aeneas podría no ser tan útil para inscripciones únicas o que provienen de periodos con pocos artefactos disponibles.
En el desarrollo del modelo participaron algunos miembros del equipo que anteriormente desarrolló una herramienta de IA capaz de descifrar inscripciones en griego antiguo.
La epigrafía, ciencia que estudia inscripciones antiguas, enfrenta el desafío que halla textos con letras, palabras o secciones faltantes. Comúnmente, los historiadores analizan los textos comparándolos con otras inscripciones que contienen palabras o frases similares
Pero, según Thea Sommerschield, coautora del estudio publicado en Nature, encontrar las inscripciones lleva mucho tiempo. Otro reto al que se enfrentan los historiadores es que constantemente hay hallazgos de textos que se convierte en demasiada información para una sola persona, dijo Rogerson.