Las noticias falsas son un tema de actualidad que genera mucha polémica, por el impacto que tienen sobre la opinión pública. Recientemente se ha especulado con que se están utilizando mecanismos de difusión de noticias falsas para conseguir un impacto político. Esta corriente surge sobre todo a raíz de la elección de Donald Trump como presidente de EE. UU., pues se demostró el uso de fake news en su campaña, constituyendo la primera evidencia a escala global del poder de manipulación que tienen los sistemas inteligentes de difusión de noticias falsas.
En momentos como en el que nos encontramos actualmente, con una pandemia global que ha supuesto un estrés para los sistemas de salud de la mayoría de países, el uso de noticias falsas puede resultar en una inestabilidad social añadida. Por ello, es de vital importancia corroborar las fuentes de las que proviene la información, tratando de comprobar su veracidad.
Una cuestión latente es la posibilidad de que algunas de las noticias falsas que se están difundiendo provengan de algoritmos de Inteligencia Artificial, pues los métodos de PLN (Procesamiento del Lenguaje Natural) han evolucionado mucho en los últimos años, en especial con la irrupción de los Transformers. La cuestión es: ¿son suficientemente capaces estos sistemas de generar textos verosímiles sobre la COVID-19?
Generación de noticias falsas con PLN
Con el objetivo de demostrar la viabilidad de generar noticias falsas sobre la COVID-19 con PLN, y de alertar sobre la importancia de no fiarse únicamente de la verosimilitud de un texto para comprobar su veracidad, desde el Instituto de Ingeniería del Conocimiento (IIC) hemos decidido investigar en esta línea. Entrenamos dos modelos de lenguaje, uno con noticias y otro con papers más técnicos, para comprobar si son capaces de generar nuevos textos verosímiles.
Modelo de lenguaje con noticias sobre la COVID-19
En un primer caso, se obtuvieron miles de noticias sobre la COVID-19, recopiladas desde el 1 de noviembre hasta el 5 de abril. En total, el dataset contenía 550.000 noticias de unas 400 fuentes distintas, lo que supone 7.6 GB de datos. El objetivo es re-entrenar un modelo de lenguaje especializado en la generación de texto con estas noticias sobre el coronavirus, de tal manera que obtengamos un algoritmo capaz de generar textos sobre este tema completamente nuevos.
En primer lugar, se realiza un entrenamiento sencillo, en el que el algoritmo únicamente vio las noticias una vez, con 440.000 de ellas. Con este primer experimento, relativamente rápido de realizar, se obtuvieron ya algunos textos ciertamente verosímiles, como los que vemos a continuación. Estos algoritmos funcionan mejor cuando se les introduce una frase con la que empezar (en negrita), a partir de la que generan el resto del texto. Además, algunos algoritmos de generación de lenguaje tienen un parámetro, temperature, que determina cómo de “creativo” es el texto. Jugando con este parámetro podemos obtener textos más o menos verosímiles, con un lenguaje y mensaje más o menos originales.
Texto 1 (Temperature = 1.0)
Coronavirus is a Chinese weapon against US domination. Disinformation, war propaganda, mismanagement and low intelligence about Covid-19 will go a long way towards avoiding a global epidemic of a viral bioweapon from wreaking havoc on the global economy, and take a bite out of our precious healthcare system. Don’t expect us to add to any industries or create new technologies. Be sure to check any emails from reputable sources such as the CDC, WHO or WHO ISD where the information is being distributed.Not guilty, but keep in mind this would be fairly severe. We’ve all heard the news and the WHO is monitoring the situation, the spread, and fatalities of Covid-19 (aka pandemic) based on their analyses, data and credibility. If you’re now operating within the containment policies you just spoke about, maybe don’t worry too much. As much as possible, stay home.Of course, our family is in a foreign country, and the circumstances are unique. To be sure, a person does not have to wear masks or travel entirely by plane, train or bus, but all these are ways of avoiding transmitting infection. However, we should all take precautionary measures to help ensure that we are protected. We must also come to the realization that working from home is way safer.
Texto 2 (Temperature = 1.10)
Coronavirus is a Chinese weapon against US domination. Government cannot be ‘golden’ against it.’ Endangering us in this awful health crisis now,’ Liu wrote.He’s talking to conspiracy theory author Alex Jones — who is basically on board with the complete suspension of travel to and from mainland China. His calling him the ‘Wuhan virus’.State and local authorities in each of the states say they’ve instituted strict quarantine restrictions in areas where the coronavirus is spreading, but there’s little actual testing happening. Only travel and military gatherings are being cancelled.The current quarantine, established in Wuhan — the epicenter of the new coronavirus outbreak — began on January 23 and began when health officials determined there was nothing to suspect about the disease. There are now nearly 900 cases confirmed in China, with 34 people diagnosed with the virus outside of Wuhan.Chinese health authorities have found only 20 cases that have been directly related to the Wuhan coronavirus, another fact that raises a point about the same level of inaction from American politicians.World leaders have called on the Trump administration to re-start expanding quarantine restrictions in China as it struggles to contain the pandemic.
Due to the risk associated with the coronavirus, as countries and hospitals encourage Americans to avoid gatherings, many of us are not coping with the threat at hand. Now we have to confront situations that might have never been experienced before.
Texto 3 (Temperature = 1)
Prediction: There will ve a minor baby boom in 9 months, and then one day in 2033, we shall witness the rise of THE QUARANTEENS. In fact, the world will be less prosperous than it was before coronavirus.Will it be ready when millions of them go to work, eat, go to school or perform the kinds of tasks we have been trained to do, and then realize we are only following instructions from our government? No. However, the late arrival of that world in time may cause additional hardships for millions of women who don’t yet know what to expect, and who can now step into our post-paid jobs to negotiate our love affairs and get us something, without the pain of a downturn.Will we still be a developed world by 2024? Maybe, but maybe not.
Texto 4 (Temperature = 1)
World political leaders are taking advantage of coronavirus to exert control over the population.In India, the government has given press briefings or information through television programmes.The government has set up travel advisory boards for Mysore and for Bengaluru. However, visitors from Mysore or Bengaluru are asked to remain in their rooms at home.As per India’s development, most international airports in India have been closed. In addition to Pakistan and Nepal, airlines have also cancelled flights.Travel restrictions have been imposed in many countries to contain the spread of the virus. In India, many people have been asked to remain in home isolation.The only flights to India from places that are affected are those arriving from abroad, such as Sri Lanka, Bangladesh, Nepal, Afghanistan and other countries where restrictions are in place.As per WHO, coronavirus is an airborne disease transmitted through human contact and can be spread through respiratory droplets produced when an infected person coughs or sneezes.As a result, countries have begun to impose travel restrictions on the people arriving from or through Italy and Iran.India’s travel advisories and advisories have a full global scope including Pakistan, Afghanistan, Iran, Iraq, UAE, Oman, and Kuwait.The government has also decided to ban all direct flights from the coronavirus-affected nations, including the European Union, UAE, the US and Italy.At present, only transit airlines are operating to China, South Korea, Japan, Iran, Italy, France, Germany, Vietnam, Singapore, Nepal, India, Iran and the European Union. Airports in Pakistan and Iran are already closed.
Texto 5 (Temperature = 1.1)
World political leaders are taking advantage of coronavirus to exert control over the population. As Americans braced for possible stay-at-home orders to curtail the spread of COVID-19, Governor Larry Hogan said a lawsuit in Maryland, which includes Hoboken, is seeking to temporarily shut down the property, saying the move would violate residents’ civil rights.»If we can’t make these folks wear any legal protections, we can’t hold someone accountable,» Hogan said Monday at a press conference.Governors around the country in New York, Illinois and Ohio issued similar orders Monday, saying sweeping restrictions on businesses and public spaces such as gyms, movie theaters and movie theaters would become a «Force Majeure» situation.
Como se puede apreciar, estos textos tienen cierto sentido en su mayoría, pese a que algunas frases resultan extremadamente largas de leer. En algunos casos, los textos saltan de unos temas a otros, sin enfocarse claramente en un mensaje, lo que les hace perder cierta verosimilitud. Sin embargo, la sensación general en una primera lectura rápida es que podrían ser textos verídicos, y tendríamos que investigar la información que comparten para comprobar si son reales o no. Estos resultados muestran la gran capacidad de los sistemas de generación de lenguaje, en este caso para un fin maligno, que es corromper la opinión pública con información no verdadera.
Modelo de lenguaje con textos técnicos sobre la COVID-19
En otro caso, se especuló con qué pasaría si, en lugar de enseñar al modelo a base de noticias, lo hiciéramos con textos más técnicos, como papers relativos al coronavirus. Así, se utilizaron alrededor de 4.500 abstracts de papers relacionados con esta enfermedad. Veamos un texto generado en este caso:
Texto 6 (Temperature = 1)
The human survival is in a serious threat due to COVID-19. Early identification, early diagnosis, testing by CT, tissue culture techniques, and preventative measures at community hospitals offer additional life support, particularly in infected cases. Medical interventions aimed at curbing the virus spread, even with a limited or even limited hemodynamic response, may extend life and health. 2 However, factors that limit improved early detection, such as socio-economic disadvantages and unobserved ongoing infectious disease rates (even when similar incidence of severe acute respiratory syndrome coronavirus and rhinovirus outbreaks did not occur), and changes in the pharmaceutical and biosecurity industry during the past two decades can be ignored unless attempts are made to broaden viral transmission by masking viral respiratory infection can be minimised.
De nuevo se observa que, salvo por la repetición de palabras y frases excesivamente largas, el texto resultante tiene sentido, y a un lector no atento podría parecerle verdadero. Sin embargo, no podemos decir que un texto así pudiera provenir de un estudio serio, pues probablemente no se cometerían ninguno de esos fallos. Algo que sí podría llegar a ocurrir en las noticias, por lo que las noticias falsas generadas tendrían mayor probabilidad de ser aceptadas por el público.
La intencionalidad en la generación de noticias falsas
El objetivo principal de esta investigación consistía en demostrar la viabilidad de generar noticias falsas mediante el uso de Inteligencia Artificial, con el fin de alertar de la importancia de filtrar la información, comprobando siempre la fuente de la que proviene. Esto es especialmente importante en momentos como el actual, pues en gran medida la gestión de la crisis sanitaria, económica y social depende del correcto conocimiento por parte de los ciudadanos y de un uso adecuado de la información.
Es importante tener en cuenta la simpleza del sistema que hemos usado, pues todos los datos son públicos y de fácil acceso, y se han utilizado modelos de código abierto y de propósito general, que no están diseñados ni pre-entrenados para generar noticias falsas. Es por eso que es difícil encontrar intencionalidad –y menos maliciosa– en los textos generados. Sin embargo, sí sería posible, por ejemplo, utilizar noticias falsas sobre la COVID-19 publicadas en redes sociales para re-entrenarlo con un objetivo manipulador, lo que supondría que los textos resultantes sí tendrían un sesgo hacia el tipo de lenguaje, intención y mensaje típico de las noticias falsas.
¿Existe un mal uso de los modelos de lenguaje?
El miedo a que este tipo de sistemas se utilicen para generar textos falsos con intenciones maliciosas no es nuevo, y es que OpenAI, creadora del algoritmo que hemos utilizado para esta investigación (GPT-2), expresó su miedo a que se utilizara para fines ilícitos. Sin embargo, en uno de sus papers más recientes, en el que presentaban GPT-3, realizaron un análisis del posible uso que se estuviera haciendo de estos modelos.
En su investigación no observaron indicios del mal uso de los algoritmos de generación de lenguaje, seguramente debido a la dificultad de entrenar estos modelos para generar textos con el mensaje deseado por la persona que quiere manipular. Pese a su gran capacidad para generar textos verosímiles, es muy difícil que estos contengan el mensaje o el tipo de mensaje concreto que el usuario quiere. Esto se refleja en los textos que hemos visto en este artículo, pues no hemos tenido manera de influir al algoritmo en cuanto a qué mensaje comunicar, solo sobre el tema del que hablar.
Dados los resultados de esta investigación, podemos decir que lo más probable es que no se estén utilizando los modelos para fines ilícitos. Sin embargo, pese a la ausencia de evidencias actuales del mal uso de estos algoritmos para generar fake news, esto podría ser diferente en el futuro, con modelos más sofisticados. Por este motivo, desde el IIC instamos a leer los textos con cierto pensamiento crítico, a analizar la información que se está consumiendo y a comprobar la veracidad de las noticias, pues es el lector en última instancia quien debe determinar si la información de un texto es verdadera o no. Este es el mejor antídoto contra la desinformación.
La otra conclusión que se extrae de nuestra investigación es que constatamos la gran capacidad de estos sistemas para capturar aspectos del lenguaje como la semántica y la sintaxis, por lo que en el IIC seguiremos utilizando los mismos para mejorar de manera constante nuestras herramientas de PLN, aportando soluciones de calidad para los clientes.