Entrenamiento de Inteligencia Artificial (IA) ¿pedir perdón o pedir permiso?

Durante los últimos meses hemos visto un crecimiento exponencial de tecnologías que utilizan Inteligencia Artificial (IA) generativa mediante el uso de modelos masivos de lenguaje (más conocidos por sus siglas LLM’s o Large Language Models).

En palabras muy simples, lo que hacen estas tecnologías crear un modelo de “transformadores”, que corresponden a redes neuronales que aprenden contextos y por lo tanto, significados mediante el seguimiento de relaciones en datos secuenciales. De esta manera, al ingresar ciertos parámetros o consultas (input), el sistema o modelo de lenguaje arroja un resultado determinado (output), que se basa principalmente en predicciones que realiza respecto de cuál es la respuesta más acertada o correcta.

El problema que surge a partir del uso y masificación de estas tecnologías, es que la fuente de alimentación de estos sistemas son los “datos” determinados que se le carguen, ya que en base a esos datos el sistema realizará la predicción y generará la respuesta respecto a la pregunta formulada. De esta forma, la energía o “gasolina” que utilizan estos sistemas serán los datos que se le carguen, ya que de ellos se nutre el sistema para generar las respuestas.

Y aquí radica uno de los grandes problemas que surgen del uso de estas tecnologías, ya que en la gran mayoría de los casos no existe un principio de transparencia respecto a los datos que se cargan o incluyen en estos modelos predictivos, y que resultan esenciales no sólo para poder comprender los resultados que ellos arrojen, sino además el poder determinar si con dicha carga y entrenamiento de estos sistemas se están viendo afectados eventualmente derechos de terceros que se encuentran consagrados y protegidos por las legislaciones de los distintos países.

En efecto, existe una serie de implicancias legales tanto en el uso como en el entrenamiento previo de estas herramientas, y que podrían afectar diversos derechos de terceros. Sólo a modo de ejemplo, podemos señalar la afectación que podría producirse en temas de privacidad y tratamiento de datos personales, ya que dentro de los “paquetes” de información podrían incluirse una serie de datos confidenciales e incluso datos eventualmente sensibles de personas, tales como edad, raza, datos de contacto, preferencias sexuales, historiales médicos, entre muchos otros que pueden resultar preocupantes.

Otra riesgo incipiente son los problemas de sesgos (bias) o falta de objetividad que pueden arrojar como resultado el uso de estas herramientas de IA generativa, ya que dependiendo de los datos e información que se ingresen en estas herramientas, podrían generarse respuestas cargadas de prejuicios que, más allá de los cuestionamientos filosóficos de fondo (como el hecho que estos prejuicios podrían ser un reflejo de nuestra realidad como seres humanos), deberían mantenerse al margen de estos sistemas, de manera tal que las respuestas que se arroje sean lo más objetivas posibles.

Ello resulta especialmente delicado si se piensa por ejemplo, en que a futuro estos sistemas que utilizan inteligencia artificial se utilicen para decidir un conflicto o litigio (una especie de juez virtual) ya que si la capacidad de decisión se verá afectada por los datos cargados en la herramienta, resulta bastante esperable que los mismos carezcan de la objetividad requerida (ya que podrían juzgar por ejemplo a una persona por su origen o raza, por su color de piel, por su sexo u otros elementos equivalentes).

Se agrega a lo anterior la preocupación que surge por temas de ciberseguridad, ya que estas herramientas están siendo mal utilizadas para generar ciberataques tanto a empresas, infraestructura crítica (tales como hospitales, medios de transporte u otros), o a personas naturales para generar estafas, hackeos o generación de malware.

Volvemos al punto de que tanto el uso como la data que se utilice en el entrenamiento de estas herramientas serán cruciales para poder hacerse una idea de los resultados que dichas herramientas genere, o los usos para los que se pretenda utilizar. Sería interesante saber qué medidas efectivas de control se están adoptando al interior de las empresas, gobiernos o incluso las mismas personas, a fin de evitar la grave afectación que podrían sufrir en caso de ataques de este tipo.

Adicionalmente a lo anterior, otra de las preocupaciones crecientes es la utilización de material u obras que se encuentran protegidas por la normativa de propiedad intelectual e industrial para realizar el entrenamiento de estos sistemas de inteligencia artificial generativa, cuestión que cada vez con mayor frecuencia está dando lugar a conflictos judiciales con titulares que alegan el uso no autorizado de estas obras para entrenar estos sistemas (y ya hemos visto incluso huelgas y demandas de artistas, escritores o sindicatos de actores, escritores y guionistas en contra de los principales proveedores de estos servicios como ChatGPT).

Y como al menos hasta el minuto no existe un principio de transparencia respecto de los datos que se utilizan en el entrenamiento de esos sistemas, caemos en estas cajas negras en las que se desconoce qué datos fueron utilizados, muchos de los cuales efectivamente podrían estar protegidos por nuestra actual legislación.

Sin perjuicio de lo anterior, resulta evidente que se estas tecnologías están “tensionando” el sistema de actual de propiedad intelectual, el cual se ha visto enfrentado a una serie de cuestionamientos. Sólo a modo de ejemplo, cabe preguntarnos si realmente resulta razonable que se desconozca el trabajo de un ser humano, que luego de múltiples intentos o modificaciones de una instrucción o prompt logre un resultado determinado utilizando estas herramientas de inteligencia artificial generativa. Aquí tenemos el caso reciente de un Tribunal de Estados Unidos que rechazó otorgar protección a una obra generada con IA, a pesar de que su titular alegaba haber realizado más de 640 prompts y un trabajo de post edición con el software de Photoshop antes de lograr la imagen final).  ¿Es factible calificar la obra resultante de ese trabajo y múltilples modificaciones como “inesperado” y por ende exento de la protección legal conferida para este tipo de obras?

Por otra parte ¿resulta razonable atendida la velocidad actual de avance tecnológico, mantener los tiempos actuales de protección de las obras, que por regla general confieren protección por un plazo de 70 años luego de la muerte de su autor? ¿Es acaso la actual normativa suficiente para enfrentar la realidad abismal de los hechos, y la avalancha de obras que día a día se crean utilizando IA generativa? Cabe recordar que de acuerdo a estimaciones recientes, con IA fueron generadas en menos de un año calendario la misma cantidad de imágenes que en toda la historia de la fotografía… ¿Se requieren entonces nuevos mecanismos de protección de las obras creadas con AI generativa?

La única certeza con la que actualmente contamos, es que a la fecha no existe una regulación, normativa o marco legal para el uso de estas nuevas herramientas tecnologías, que de alguna manera otorgue certidumbre tanto a los usuarios como también a los proveedores de estos sistemas. Si bien contamos con algunas iniciativas en curso (como la de la Unión Europea) para lograr un consenso en estas y otras materias, tendremos que esperar un poco para ver el resultado de dicho intento normativo, sus implicancias, alcances y efectividad.

La idea es lograr un necesario equilibrio o balance, de manera tal que la regulación no paralice ni retrase la oleada de avances tecnológicos innovadores (por ejemplo estableciendo órganos administrativos fiscalizadores que deriven en burocracia, o generando trabas o requerimientos técnicos o económicos tan altos que sólo unos pocos agentes los puedan cumplir), pero que por otra parte resguarde principios o derechos básicos que podrían estar siendo afectados por el entrenamiento y el uso de estas herramientas.

Todo esto es aun demasiado reciente y tendremos que ver cómo va evolucionando con el paso del tiempo.

Al menos por ahora, y respondiendo a la pregunta que nos planteamos inicialmente, la actitud de la mayoría de los proveedores de estos sistemas ha sido (y probablemente seguirá siendo a la espera de una normativa que lo regule o impida) el pedir perdón y no pedir permiso