Diferencia entre revisiones de «Trabajo:FakesStorage»

De FdIwiki ELP
Saltar a: navegación, buscar
(Trabajo realizado)
 
(19 revisiones intermedias por el mismo usuario no mostrado)
Línea 1: Línea 1:
Proyecto dirigido a la contrucción de un dataset acerca de Fake News en internet que se encuentran en español. Con este dataset buscamos contribuir a la construcción de sistemas para identificar noticias falsas en internet. El dataset sigue en contrucción.
+
Proyecto dirigido a la contrucción de un dataset acerca de Fake News en español que se encuentran en internet. Con este dataset buscamos contribuir a la construcción de sistemas para identificar noticias falsas en internet y reducir el impacto de las Fakes News en nuestra sociedad. El dataset sigue en contrucción.
  
 
{| border="0" class="infobox" style="width:350px; line-height: 1.4em; text-align:left; padding:.23em;border: 1px solid #B4BBC8;background-color: #f9f9f9;color: #000;margin: .5em 0 .7em 1.2em;padding: .4em;clear: right;float: right;font-size: 90%;line-height: 1.5em;"
 
{| border="0" class="infobox" style="width:350px; line-height: 1.4em; text-align:left; padding:.23em;border: 1px solid #B4BBC8;background-color: #f9f9f9;color: #000;margin: .5em 0 .7em 1.2em;padding: .4em;clear: right;float: right;font-size: 90%;line-height: 1.5em;"
|+ align="center" style="background:#3399ff; color:white"|<big>'''FakesStorage'''</big>
+
|+ align="center" style="background:#0645ad; color:white"|<big>'''FakesStorage'''</big>
 
|-
 
|-
 
| colspan="2" style="text-align:center;background-color:#DCEAEC;"| '''Autores: Grupo 2'''
 
| colspan="2" style="text-align:center;background-color:#DCEAEC;"| '''Autores: Grupo 2'''
Línea 26: Línea 26:
 
|-
 
|-
 
|'''Repositorio:    '''    ||'''[https://github.com/alcorpas10/FakesStorage Github]'''
 
|'''Repositorio:    '''    ||'''[https://github.com/alcorpas10/FakesStorage Github]'''
 +
|-
 +
|
 +
|-
 +
|'''Kaggle:    '''    ||'''[https://www.kaggle.com/danielacordovaporta/fakesstorage fakesstorage]'''
 
|-
 
|-
 
|
 
|
 
|-
 
|-
 
|'''Licencia del proyecto:    '''    ||'''[https://github.com/alcorpas10/FakesStorage/blob/main/LICENSE MIT License]'''
 
|'''Licencia del proyecto:    '''    ||'''[https://github.com/alcorpas10/FakesStorage/blob/main/LICENSE MIT License]'''
 +
|
 +
|-
 +
|'''Licencia del dataset:    '''    ||'''[[Archivo:CC-BY.png|96px|CC BY]] [http://creativecommons.org/licenses/by/4.0/ CC BY 4.0]'''
 +
|-
 
|
 
|
 
|}
 
|}
Línea 36: Línea 44:
 
===¿Qué son las Fake News?===
 
===¿Qué son las Fake News?===
  
Las Fake News, como su propio nombre indica, es información falsa en forma de artículo, imagen o vídeo, que se muestra como si fuera real para manipular la opinión pública. Generalmente se difunden en redes sociales, aunque también pueden ser publicadas en medios tradicionales como un periódico o la televisión. Sin embargo, la publicación de noticias falsas y/o sensacionalistas siempre han existido desde que empezó la prensa escrita. No obstante, con la llegada de las nuevas tecnologías, se ha convertido en un fenómeno imparable, ya que son difíciles de controlar. Hoy en día, cualquier persona puede publicar una información falsa, y conseguir una visibilidad muy alta en muy poco tiempo.
+
Las Fake News o "noticias falsas" son, como su propio nombre indica, información falsa en forma de un artículo, una imagen o un vídeo que se muestra como si fuera real para manipular la opinión pública. Generalmente, se difunden en redes sociales, aunque también pueden ser publicadas en medios tradicionales como un periódico o la televisión. Sin embargo, la publicación de noticias falsas y/o sensacionalistas siempre ha existido desde que empezó la prensa escrita, aunque fue con la llegada de las nuevas tecnologías que se ha convertido en un fenómeno imparable y difícil de controlar. Hoy en día, cualquier persona puede publicar información falsa y conseguir una gran visibilidad en muy poco tiempo.
  
 
====¿Por qué se divulgan?====
 
====¿Por qué se divulgan?====
Línea 53: Línea 61:
  
 
===Razones por las que se debe combatir contra las Fake News===
 
===Razones por las que se debe combatir contra las Fake News===
*El intercambio de información ahora es muy simple debido a las redes sociales y tecnologías capaces de producir contenido digital (ej. Photoshop). Cualquiera puede ahora crear ruido creíble que es difícil de distinguir de la información de alta calidad.
+
*El intercambio de información ahora es muy simple debido a las redes sociales y tecnologías capaces de producir contenido digital (ej. Photoshop). Hoy en día cualquiera puede crear ruido creíble que es difícil de distinguir de la información de alta calidad.
 
*La demanda de noticias falsas o Fake News puede ser un subproducto natural de la demanda de los consumidores de contenido que desean una historia que respalden sus ideas.
 
*La demanda de noticias falsas o Fake News puede ser un subproducto natural de la demanda de los consumidores de contenido que desean una historia que respalden sus ideas.
 
*A pesar de que existe una conciencia generalizada de la existencia de Fake News, no muchos entienden su significado y lo usan como propaganda. Por ello es importante que los periodistas citen fuentes y muestren su trabajo.
 
*A pesar de que existe una conciencia generalizada de la existencia de Fake News, no muchos entienden su significado y lo usan como propaganda. Por ello es importante que los periodistas citen fuentes y muestren su trabajo.
*Muchas de las empresas o periódicos han perdido la autoridad institucional que tenían. Esto es debido a que la mayoría de las veces las noticias falsas son presentadas como periodismo tradicional usando a organizaciones de renombre; causando que no sólo las personas crean en la noticia, sino que también debilitan el nombre de las empresa.
+
*Muchas de las empresas o periódicos han perdido la autoridad institucional que tenían. Esto es debido a que la mayoría de las veces las noticias falsas son presentadas como periodismo tradicional usando a organizaciones de renombre, causando que no sólo las personas crean en la noticia, sino que también debilitan el nombre de las empresas.
 
*Es más probable que los reporteros actuales vean la producción y difusión de noticias más como una empresa comercial que como prestación de un servicio público. Además, la percepción pública de los medios de comunicación como entidad empresarial con ánimo de lucro ha reducido aún más su autoridad.
 
*Es más probable que los reporteros actuales vean la producción y difusión de noticias más como una empresa comercial que como prestación de un servicio público. Además, la percepción pública de los medios de comunicación como entidad empresarial con ánimo de lucro ha reducido aún más su autoridad.
*La distribución de noticias ha pasado, en su mayoría, de creadores de contenido tradicionales a distribuidores digitales. La distribución digital permite un enfoque altamente eficiente y una exposición limitada de los usuarios a contenido desafiante. Esto, más los algoritmos que recomiendan ciertas noticias u otras, causan que los usuarios sólo estén rodeados de cierta información que puede estar limitada inlcuso a sólo Fake News, causando más desinformación.
+
*La distribución de noticias ha pasado, en su mayoría, de creadores de contenido tradicionales a distribuidores digitales. La distribución digital permite un enfoque altamente eficiente y una exposición limitada de los usuarios a contenido desafiante. Esto, más los algoritmos que recomiendan ciertas noticias u otras, causan que los usuarios sólo estén rodeados de cierta información que puede estar limitada incluso a sólo Fake News, causando más desinformación.
  
 
==Descripción del proyecto==
 
==Descripción del proyecto==
 
===Objetivos del proyecto===
 
===Objetivos del proyecto===
 
*Contribuir a la lucha contra la desinformación y las Fake News.  
 
*Contribuir a la lucha contra la desinformación y las Fake News.  
*Promoveer el buen periodisimo y ensalzar a todos aquellos medios que buscan que sus artículos tengan credibilidad y veracidad. Las noticias producidas por organizaciones o personas transparentes y verificables, son esenciales para el desarrollo, la ciencia, la salud, la democracia y el progreso del ser humano.  
+
*Promover el buen periodismo y ensalzar a todos aquellos medios que buscan que sus artículos tengan credibilidad y veracidad. Las noticias producidas por organizaciones o personas transparentes y verificables, son esenciales para el desarrollo, la ciencia, la salud, la democracia y el progreso del ser humano.  
 
*Aportar al mundo del periodismo una facilidad para detectar y descubrir nuevos casos y formas de desinformación. Se debe tener un compromiso con la mejora de las habilidades periodísticas profesionales para que sean capaces de combatir con el contenido falso.
 
*Aportar al mundo del periodismo una facilidad para detectar y descubrir nuevos casos y formas de desinformación. Se debe tener un compromiso con la mejora de las habilidades periodísticas profesionales para que sean capaces de combatir con el contenido falso.
  
 
===Originalidad===
 
===Originalidad===
Este campo de estudio, que lleva muy pocos años, está actualmente en crecimiento y es por ello que existen pocos dataset que son en su mayoría en inglés. Ninguno de estos recogen noticias en español y no representan las noticias falsas que nos podemos encontrar en los medios de comunicación o redes sociales de habla hispana. En resumen, actualmente no existe un dataset que recoja la información de noticias falsas publicadas en español que podemos encontrarnos en internet.  
+
Este campo de estudio, que lleva muy pocos años, está actualmente en crecimiento por lo que existen pocos datasets y en su mayoría están en inglés. Ninguno de estos recogen noticias en español y no representan las noticias falsas que nos podemos encontrar en los medios de comunicación o redes sociales de habla hispana. En resumen, actualmente no existe un dataset que recoja la información de noticias falsas publicadas en español que podemos encontrarnos en internet.  
  
Inspirados por el trabajo de investigación hecho por expertos en ésta área ([https://github.com/KaiDMML/FakeNewsNet github]) que contruyeron un dataset en inglés; tomamos en cuenta los datos importantes que determinaron que se deben guardar de cada noticia e iniciamos la construcción del dataset en español usando sitios web de verificación de hechos de habla hispana.   
+
Inspirados por el trabajo de investigación hecho por expertos en esta área ([https://github.com/KaiDMML/FakeNewsNet GitHub]) que construyeron un dataset en inglés, tomamos en cuenta los datos importantes que determinaron que se deben guardar de cada noticia. Iniciamos así la construcción del dataset en español usando sitios web de verificación de datos o ''fact-checkers'' de habla hispana.   
 
Este proyecto está dirigido a empresas, organizaciones o personas dedicadas a la investigación en el área del aprendizaje automático, la minería de datos y la informática social.  
 
Este proyecto está dirigido a empresas, organizaciones o personas dedicadas a la investigación en el área del aprendizaje automático, la minería de datos y la informática social.  
  
 
===Trabajo realizado===
 
===Trabajo realizado===
Para iniciar el proyecto estuvimos semanas investigando que ideas podrían ser adecuadas que estén realizacionadas con ELP y que tengan un impacto positivo en nuestra sociedad y tomando en cuenta los temarios referidos por el profesor, investigamos acerca de las Fake News. La mayoría de nuestro grupo son entusiastas de la Inteligencia Aritificial y decidimos buscar si exitían proyectos que mezclaran estos dos y si había una carencia en ésta área a la que nosotros podríamos constribuir.
+
Para comenzar el proyecto estuvimos semanas investigando qué ideas podrían ser adecuadas que estuvieran relacionadas con ELP y que tuvieran un impacto positivo en nuestra sociedad tomando en cuenta los temarios referidos por el profesor, así que investigamos acerca de las Fake News. La mayoría de nuestro grupo son entusiastas de la Inteligencia Artificial, así que decidimos buscar si existían proyectos que mezclaran estos dos ámbitos y si había una carencia en esta área a la que nosotros podíamos contribuir.
Pudimos observar que existían diversos documentos y artículos científicos acerca del sector pero sólo eran análisis de noticias en inglés. Consideramos entonces que este proyecto cubría una carencia ya que los investigadores tanto españoles como latinoamericanos no deberían quedarse rezagados en este campo tan importante tomando en cuenta el impacto negativo que tienen las Fake News en nuestra sociedad.
+
Pudimos observar que existían diversos documentos y artículos científicos acerca de ella, pero sólo eran análisis de noticias en inglés. Consideramos entonces que este proyecto cubría una carencia pues los investigadores tanto españoles como latinoamericanos no deberían quedarse rezagados en este campo tan importante tomando en cuenta el impacto negativo que tienen las Fake News en nuestra sociedad.
  
Iniciamos investigado distintos dataset y cómo éstos guardaban la información de las noticias. Luego, como varios de nuestros integrantes sabían acerca de Web Scraping, pudimos iniciar de inmediato con el proceso de extracción de los datos de los fact checkers españoles. Es importante resaltar que se tuvo que adaptar el código a los diversos diseños ya que las páginas web son distintas entre sí; esto llevándonos la mayoría del tiempo. Se creó el proyecto en Github el 16 de noviembre del 2021 y durante las primeras semanas se desarrollaron los notebooks encargados de obtener la información de [https://www.newtral.es/ Newtral.es] y [https://maldita.es/ Maldita.es.] A inicios de diciembre se inició con el de [https://www.factcheck.org/es/en-espanol/ FactCheck.org] y se siguió perfeccionado el del resto.  
+
Iniciamos investigado distintos datasets y cómo éstos guardaban la información de las noticias. Luego, como varios de nuestros integrantes sabían acerca de Web Scraping, pudimos empezar de inmediato con el proceso de extracción de los datos de los ''fact-checkers'' españoles. Es relevante resaltar que se tuvo que adaptar el código a cada ''fact-checker'', ya que sus páginas web son todas distintas entre sí, por lo que es esto lo que nos llevó la mayoría del tiempo. Se creó el proyecto en GitHub el 16 de noviembre del 2021 y durante las primeras semanas se desarrollaron los notebooks de Jupyter encargados de obtener la información de [https://www.newtral.es/ Newtral.es] y [https://maldita.es/ Maldita.es]. A inicios de diciembre se inició con el de [https://www.factcheck.org/es/en-espanol/ FactCheck.org] y se siguió perfeccionado el del resto.  
Al ser un dataset, no se encuentra terminado y planemos continuar con su elaboración en diciembre y enero.
+
Al ser un dataset, no se encuentra terminado y planeamos continuar con su elaboración en diciembre y enero.
  
 +
Para poder llegar a varias personas, hemos tratado de que el repositorio en github esté público por Google pero seguimos a la espera de que Google lo agregue en la pestaña principal al buscar información de datasets de Fake News en español. Igualmente, creamos una página en [https://www.kaggle.com/danielacordovaporta/fakesstorage Kaggle] para llegar a la comunidad de investigadores.
 +
 +
Tomando los comentarios de los investigadores y expertos en el área, planeamos mejorar el proyecto en un futuro.
 +
 +
===Impacto del proyecto===
 +
Al ser considerado el primer dataset de Fake News en español, está ligado a que será útil para la comunidad de investigadores asociados a la informática social y otras áreas porque contribuimos a que tengan la base de un proyecto que en un futuro se puede extender y adaptar durante años.
 +
 +
Debido a que queremos saber la opinión de los investigadores respecto al proyecto y sus ideas de cómo mejorarlo, iniciamos enviando correos para contactarnos con varios de ellos a mediados de diciembre y seguiremos haciéndolo hasta enero.
 +
Mediremos nuestro impacto en función del feedback que obtendremos y tomaremos en cuenta sus consideraciones acerca del proyecto:
 +
 +
{| class="wikitable"
 +
|+ class="nowrap" | Comentarios de investigadores y empresas
 +
|-
 +
! scope="col" | Investigadores/Empresas
 +
! scope="col" |  Acerca de
 +
! scope="col" |  Fecha de respuesta
 +
! scope="col" |  Comentarios
 +
|-
 +
! scope="row" |  [https://www.newtral.es/ Newtral]
 +
| Startup engargada de producir programas, fact-checking e investigación con IA.  ||  27/12/21  || Actualmente no están evaluando propuestas aunque la guardarán para un futuro y nos contactarían para ayudarnos.
 +
|-
 +
! scope="row" | [https://bonetblai.github.io/ Prof. Blai Bonet]
 +
| Maestría universitaria en ciencias de la Universidad Simón Bolívar, Doctorado en Inteligencia Artificial de la Universidad de California || 10/01/21 || El proyecto se ve bastante interesante y que podría ser una fuente útil de datos
 +
para proyectos de investigación en el área. Algunas sugerencias son las siguientes:
 +
 +
1. No solo poner el link sino también guardar el artículo como tal ya que a veces los
 +
links desaparecen y se pierde la información
 +
 +
2. Frecuentemente uno quiere tener la data clasificada por diferentes categorías. He
 +
visto que en maldita.es los artículos tienen categorías asignadas. Este tipo de metadata
 +
también la pueden incluir
 +
 +
3. De hecho, otra metadata útil para incluir en el json son: fecha del articulo, fecha de
 +
clasificación como bulo, quién la identifico como bulo, categorías, tema (covid,
 +
política española, política internacional, etc.) y alguna otra información importante.
 +
Es posible que no toda la información este disponible para todos los artículos pero
 +
esto no debe impedir que se reporte la información para aquellos que si la tienen.
 +
|}
 +
 +
Contactámos a más investigadores pero estamos a la espera de sus comentarios.
  
 
==Dataset==
 
==Dataset==
Línea 87: Línea 135:
  
 
===Características del dataset===
 
===Características del dataset===
Para la elaboración del proyecto hemos usado código Python. Es un lenguaje sencillo, limpio y legible, desarrollado bajo una licencia de código abierto, por lo que es de libre uso y distribución, incluso para uso comercial. Además, las múltiples librerías disponibles incorporan muchas funcionalidades extra; entre ellas, el uso de Web Scraping.
+
Para la elaboración del proyecto hemos usado Python. Es un lenguaje de programación sencillo, limpio y legible, desarrollado bajo una licencia de código abierto, por lo que es de libre uso y distribución, incluso para uso comercial. Además, las múltiples librerías disponibles incorporan muchas funcionalidades extra, entre ellas, el uso de Web Scraping.
 
Web Scraping es una práctica automatizada de extracción de datos en línea. Mediante esta técnica hemos accedido y extraído un conjunto de noticias falsas de medios de comunicación como Newtral, Maldita (españolas) o FactCheck (estadounidense), empresas dedicadas a la comprobación de hechos.
 
Web Scraping es una práctica automatizada de extracción de datos en línea. Mediante esta técnica hemos accedido y extraído un conjunto de noticias falsas de medios de comunicación como Newtral, Maldita (españolas) o FactCheck (estadounidense), empresas dedicadas a la comprobación de hechos.
 
Para cada noticia consideramos almacenar aquello que nos parecía más útil o relevante; así como el titular, el enlace a la noticia, su fecha de publicación y un diccionario que recoge todas las palabras de la noticia junto con su frecuencia de aparición. El diccionario tiene la finalidad de poder realizar una posible búsqueda y obtener noticias relacionadas.  
 
Para cada noticia consideramos almacenar aquello que nos parecía más útil o relevante; así como el titular, el enlace a la noticia, su fecha de publicación y un diccionario que recoge todas las palabras de la noticia junto con su frecuencia de aparición. El diccionario tiene la finalidad de poder realizar una posible búsqueda y obtener noticias relacionadas.  
  
Los datos de cada fack-checker se han guardado en formato Json, un formato de texto sencillo para el intercambio de datos.
+
Los datos de cada ''fact-checker'' se han guardado en formato JSON, un formato de texto sencillo para el intercambio de datos.
 
Las principales librerías que hemos empleado para la extracción de noticias son:
 
Las principales librerías que hemos empleado para la extracción de noticias son:
 
*'''BeautifulSoup''' : Python Software Foundation License MIT License 4+[1]
 
*'''BeautifulSoup''' : Python Software Foundation License MIT License 4+[1]
 
*'''Selenium''': Apache License
 
*'''Selenium''': Apache License
 +
 +
==Referencias==
 +
*Apuntes tomandos de la clase de ELP en la Universidad Complutense de Madrid.
 +
*Madrid, Bogota, B., Buenos, Havana, A., Lima, Lisbon, Madrid, City, M., Miami, New, City, Y., City, P., Quito, Rio De Janeiro, Sao, Santiago, P., Santo, & Washington, D. (2018). Fighting Fake News in the corporate world: Real Advocacy. https://ideas.llorenteycuenca.com/wp-content/uploads/sites/5/2018/03/Fighting-Fake-News-in-the-corporate-world-Real-Advocacy.pdf
 +
*Guía, P., Combatir, L., Desinformación, E., La, E., & De. (n.d.). ¿QUÉ SON LAS FAKE NEWS? https://www.ifj.org/fileadmin/user_upload/Fake_News_-_FIP_AmLat.pdf
  
 
[[Categoría:Curso 2021-2022]]
 
[[Categoría:Curso 2021-2022]]

Última revisión de 21:10 10 ene 2022

Proyecto dirigido a la contrucción de un dataset acerca de Fake News en español que se encuentran en internet. Con este dataset buscamos contribuir a la construcción de sistemas para identificar noticias falsas en internet y reducir el impacto de las Fakes News en nuestra sociedad. El dataset sigue en contrucción.

FakesStorage
Autores: Grupo 2
DAVID BUGOI (GII 4º A) (2021/22)
DANIELA ALEJANDRA CÓRDOVA (GII 4º A) (2021/22)
ALEJANDRO CORPAS CALVO (GII 4º A) (2021/22)
JAVIER GÓMEZ MORALEDA (GII 4º A) (2021/22)
DANIEL HERNÁNDEZ MARTÍNEZ (GIS 4º A) (2021/22)
ERIK KARLGREN DOMERCQ (GII 4º A) (2021/22)
ADRIÁN TURIEL CHARRO (GII 4º A) (2021/22)
Información general:
Repositorio: Github
Kaggle: fakesstorage
Licencia del proyecto: MIT License
Licencia del dataset: CC BY CC BY 4.0

Introducción

¿Qué son las Fake News?

Las Fake News o "noticias falsas" son, como su propio nombre indica, información falsa en forma de un artículo, una imagen o un vídeo que se muestra como si fuera real para manipular la opinión pública. Generalmente, se difunden en redes sociales, aunque también pueden ser publicadas en medios tradicionales como un periódico o la televisión. Sin embargo, la publicación de noticias falsas y/o sensacionalistas siempre ha existido desde que empezó la prensa escrita, aunque fue con la llegada de las nuevas tecnologías que se ha convertido en un fenómeno imparable y difícil de controlar. Hoy en día, cualquier persona puede publicar información falsa y conseguir una gran visibilidad en muy poco tiempo.

¿Por qué se divulgan?

La divulgación de este tipo de información tiene principalmente objetivos políticos, aunque también personales o económicos. Generalmente, las redes sociales utilizan algoritmos para seleccionar el contenido más relevante para cada usuario de cara a mantenernos conectados para generar así más beneficio a través de la publicidad. Como a los seres humanos nos atrae más la ficción que la realidad, en muchas ocasiones una información falsa va a tener mayor alcance que la propia realidad.

Tipos de información falsa

Las 8 P de la información falsa:

  1. Periodismo deficiente
  2. Parodia
  3. Provocación
  4. Pasión
  5. Partidismo
  6. Provecho
  7. Poder o influencia política
  8. Propaganda

Razones por las que se debe combatir contra las Fake News

  • El intercambio de información ahora es muy simple debido a las redes sociales y tecnologías capaces de producir contenido digital (ej. Photoshop). Hoy en día cualquiera puede crear ruido creíble que es difícil de distinguir de la información de alta calidad.
  • La demanda de noticias falsas o Fake News puede ser un subproducto natural de la demanda de los consumidores de contenido que desean una historia que respalden sus ideas.
  • A pesar de que existe una conciencia generalizada de la existencia de Fake News, no muchos entienden su significado y lo usan como propaganda. Por ello es importante que los periodistas citen fuentes y muestren su trabajo.
  • Muchas de las empresas o periódicos han perdido la autoridad institucional que tenían. Esto es debido a que la mayoría de las veces las noticias falsas son presentadas como periodismo tradicional usando a organizaciones de renombre, causando que no sólo las personas crean en la noticia, sino que también debilitan el nombre de las empresas.
  • Es más probable que los reporteros actuales vean la producción y difusión de noticias más como una empresa comercial que como prestación de un servicio público. Además, la percepción pública de los medios de comunicación como entidad empresarial con ánimo de lucro ha reducido aún más su autoridad.
  • La distribución de noticias ha pasado, en su mayoría, de creadores de contenido tradicionales a distribuidores digitales. La distribución digital permite un enfoque altamente eficiente y una exposición limitada de los usuarios a contenido desafiante. Esto, más los algoritmos que recomiendan ciertas noticias u otras, causan que los usuarios sólo estén rodeados de cierta información que puede estar limitada incluso a sólo Fake News, causando más desinformación.

Descripción del proyecto

Objetivos del proyecto

  • Contribuir a la lucha contra la desinformación y las Fake News.
  • Promover el buen periodismo y ensalzar a todos aquellos medios que buscan que sus artículos tengan credibilidad y veracidad. Las noticias producidas por organizaciones o personas transparentes y verificables, son esenciales para el desarrollo, la ciencia, la salud, la democracia y el progreso del ser humano.
  • Aportar al mundo del periodismo una facilidad para detectar y descubrir nuevos casos y formas de desinformación. Se debe tener un compromiso con la mejora de las habilidades periodísticas profesionales para que sean capaces de combatir con el contenido falso.

Originalidad

Este campo de estudio, que lleva muy pocos años, está actualmente en crecimiento por lo que existen pocos datasets y en su mayoría están en inglés. Ninguno de estos recogen noticias en español y no representan las noticias falsas que nos podemos encontrar en los medios de comunicación o redes sociales de habla hispana. En resumen, actualmente no existe un dataset que recoja la información de noticias falsas publicadas en español que podemos encontrarnos en internet.

Inspirados por el trabajo de investigación hecho por expertos en esta área (GitHub) que construyeron un dataset en inglés, tomamos en cuenta los datos importantes que determinaron que se deben guardar de cada noticia. Iniciamos así la construcción del dataset en español usando sitios web de verificación de datos o fact-checkers de habla hispana. Este proyecto está dirigido a empresas, organizaciones o personas dedicadas a la investigación en el área del aprendizaje automático, la minería de datos y la informática social.

Trabajo realizado

Para comenzar el proyecto estuvimos semanas investigando qué ideas podrían ser adecuadas que estuvieran relacionadas con ELP y que tuvieran un impacto positivo en nuestra sociedad tomando en cuenta los temarios referidos por el profesor, así que investigamos acerca de las Fake News. La mayoría de nuestro grupo son entusiastas de la Inteligencia Artificial, así que decidimos buscar si existían proyectos que mezclaran estos dos ámbitos y si había una carencia en esta área a la que nosotros podíamos contribuir. Pudimos observar que existían diversos documentos y artículos científicos acerca de ella, pero sólo eran análisis de noticias en inglés. Consideramos entonces que este proyecto cubría una carencia pues los investigadores tanto españoles como latinoamericanos no deberían quedarse rezagados en este campo tan importante tomando en cuenta el impacto negativo que tienen las Fake News en nuestra sociedad.

Iniciamos investigado distintos datasets y cómo éstos guardaban la información de las noticias. Luego, como varios de nuestros integrantes sabían acerca de Web Scraping, pudimos empezar de inmediato con el proceso de extracción de los datos de los fact-checkers españoles. Es relevante resaltar que se tuvo que adaptar el código a cada fact-checker, ya que sus páginas web son todas distintas entre sí, por lo que es esto lo que nos llevó la mayoría del tiempo. Se creó el proyecto en GitHub el 16 de noviembre del 2021 y durante las primeras semanas se desarrollaron los notebooks de Jupyter encargados de obtener la información de Newtral.es y Maldita.es. A inicios de diciembre se inició con el de FactCheck.org y se siguió perfeccionado el del resto. Al ser un dataset, no se encuentra terminado y planeamos continuar con su elaboración en diciembre y enero.

Para poder llegar a varias personas, hemos tratado de que el repositorio en github esté público por Google pero seguimos a la espera de que Google lo agregue en la pestaña principal al buscar información de datasets de Fake News en español. Igualmente, creamos una página en Kaggle para llegar a la comunidad de investigadores.

Tomando los comentarios de los investigadores y expertos en el área, planeamos mejorar el proyecto en un futuro.

Impacto del proyecto

Al ser considerado el primer dataset de Fake News en español, está ligado a que será útil para la comunidad de investigadores asociados a la informática social y otras áreas porque contribuimos a que tengan la base de un proyecto que en un futuro se puede extender y adaptar durante años.

Debido a que queremos saber la opinión de los investigadores respecto al proyecto y sus ideas de cómo mejorarlo, iniciamos enviando correos para contactarnos con varios de ellos a mediados de diciembre y seguiremos haciéndolo hasta enero. Mediremos nuestro impacto en función del feedback que obtendremos y tomaremos en cuenta sus consideraciones acerca del proyecto:

Comentarios de investigadores y empresas
Investigadores/Empresas Acerca de Fecha de respuesta Comentarios
Newtral Startup engargada de producir programas, fact-checking e investigación con IA. 27/12/21 Actualmente no están evaluando propuestas aunque la guardarán para un futuro y nos contactarían para ayudarnos.
Prof. Blai Bonet Maestría universitaria en ciencias de la Universidad Simón Bolívar, Doctorado en Inteligencia Artificial de la Universidad de California 10/01/21  El proyecto se ve bastante interesante y que podría ser una fuente útil de datos

para proyectos de investigación en el área. Algunas sugerencias son las siguientes:

1. No solo poner el link sino también guardar el artículo como tal ya que a veces los links desaparecen y se pierde la información

2. Frecuentemente uno quiere tener la data clasificada por diferentes categorías. He visto que en maldita.es los artículos tienen categorías asignadas. Este tipo de metadata también la pueden incluir

3. De hecho, otra metadata útil para incluir en el json son: fecha del articulo, fecha de clasificación como bulo, quién la identifico como bulo, categorías, tema (covid, política española, política internacional, etc.) y alguna otra información importante. Es posible que no toda la información este disponible para todos los artículos pero esto no debe impedir que se reporte la información para aquellos que si la tienen.

Contactámos a más investigadores pero estamos a la espera de sus comentarios.

Dataset

Objetivos del dataset

  • Facilitar el reconocimiento de una noticia falsa en internet tomando en cuenta sus características y relación con las existentes en el dataset.
  • Poder determinar qué temas tienden a ser los más relacionados con las Fake News.
  • Poder obtener los principales medios que tienden a ser las plataformas donde se se publican Fake News.

Características del dataset

Para la elaboración del proyecto hemos usado Python. Es un lenguaje de programación sencillo, limpio y legible, desarrollado bajo una licencia de código abierto, por lo que es de libre uso y distribución, incluso para uso comercial. Además, las múltiples librerías disponibles incorporan muchas funcionalidades extra, entre ellas, el uso de Web Scraping. Web Scraping es una práctica automatizada de extracción de datos en línea. Mediante esta técnica hemos accedido y extraído un conjunto de noticias falsas de medios de comunicación como Newtral, Maldita (españolas) o FactCheck (estadounidense), empresas dedicadas a la comprobación de hechos. Para cada noticia consideramos almacenar aquello que nos parecía más útil o relevante; así como el titular, el enlace a la noticia, su fecha de publicación y un diccionario que recoge todas las palabras de la noticia junto con su frecuencia de aparición. El diccionario tiene la finalidad de poder realizar una posible búsqueda y obtener noticias relacionadas.

Los datos de cada fact-checker se han guardado en formato JSON, un formato de texto sencillo para el intercambio de datos. Las principales librerías que hemos empleado para la extracción de noticias son:

  • BeautifulSoup : Python Software Foundation License MIT License 4+[1]
  • Selenium: Apache License

Referencias