Trabajo:FakesStorage

De FdIwiki ELP
Saltar a: navegación, buscar

Proyecto dirigido a la contrucción de un dataset acerca de Fake News en internet que se encuentran en español. Con este dataset buscamos contribuir a la construcción de sistemas para identificar noticias falsas en internet. El dataset sigue en contrucción.

FakesStorage
Autores: Grupo 2
DAVID BUGOI (GII 4º A)
DANIELA ALEJANDRA CÓRDOVA (GII 4º A)
ALEJANDRO CORPAS CALVO (GII 4º A)
JAVIER GÓMEZ MORALEDA (GII 4º A)
DANIEL HERNÁNDEZ MARTÍNEZ (GIS 4º A)
ERIK KARLGREN DOMERCQ (GII 4º A)
ADRIÁN TURIEL CHARRO (GII 4º A)
Información general:
Repositorio: Github
Licencia del proyecto: MIT License

Introducción

¿Qué son las Fake News?

Las Fake News, como su propio nombre indica, es información falsa en forma de artículo, imagen o vídeo, que se muestra como si fuera real para manipular la opinión pública. Generalmente se difunden en redes sociales, aunque también pueden ser publicadas en medios tradicionales como un periódico o la televisión. Sin embargo, la publicación de noticias falsas y/o sensacionalistas siempre han existido desde que empezó la prensa escrita. No obstante, con la llegada de las nuevas tecnologías, se ha convertido en un fenómeno imparable, ya que son difíciles de controlar. Hoy en día, cualquier persona puede publicar una información falsa, y conseguir una visibilidad muy alta en muy poco tiempo.

¿Por qué se divulgan?

La divulgación de este tipo de información tiene principalmente objetivos políticos, aunque también personales o económicos. Generalmente, las redes sociales utilizan algoritmos para seleccionar el contenido más relevante para cada usuario de cara a mantenernos conectados para generar así más beneficio a través de la publicidad. Como a los seres humanos nos atrae más la ficción que la realidad, en muchas ocasiones una información falsa va a tener mayor alcance que la propia realidad.

Tipos de información falsa

Las 8 P de la información falsa:

  1. Periodismo deficiente
  2. Parodia
  3. Provocación
  4. Pasión
  5. Partidismo
  6. Provecho
  7. Poder o influencia política
  8. Propaganda

Razones por las que se debe combatir contra las Fake News

  • El intercambio de información ahora es muy simple debido a las redes sociales y tecnologías capaces de producir contenido digital (como Photoshop). Cualquiera puede ahora crear "ruido" creíble que es difícil de distinguir de la información de alta calidad.
  • La demanda de "noticias falsas" o Fake News puede ser un subproducto natural de la demanda de los consumidores de contenido que desean una historia que respalden sus ideas.
  • A pesar de que existe una conciencia generalizada de la existencia de Fake News, no muchos entienden su significado y lo usan como propaganda. Por ello es importante que los periodistas citen fuentes y muestren su trabajo.
  • Muchas de las empresas o periódicos han perdido la autoridad institucional que tenían. Esto es debido a que la mayoría de las veces las noticias falsas son presentadas como periodismo tradicional usando a organizaciones de renombre; causando que no sólo las personas crean en la noticia, sino que también debilitan el nombre de las empresa.
  • Es más probable que los reporteros actuales vean la producción y difusión de noticias más como una empresa comercial que como prestación de un servicio público. Además, la percepción pública de los medios de comunicación como entidad empresarial con ánimo de lucro ha reducido aún más su autoridad.
  • La distribución de noticias ha pasado, en su mayoría, de creadores de contenido tradicionales a distribuidores digitales. La distribución digital permite una micro-focalización altamente eficiente y una exposición limitada de los usuarios a contenido desafiante. Esto, más los algoritmos que recomiendan ciertas noticias u otras, causan que los usuarios sólo estén rodeados de cierta información que puede estar limitada inlcuso a sólo Fake News, causando más desinformación.

Dataset

Objetivos del dataset

  • Facilitar el reconocimiento de una noticia falsa en internet tomando en cuenta sus características y relación con las existentes en el dataset.
  • Poder determinar qué temas tienden a ser los más relacionados con las Fake News.
  • Poder obtener los principales medios que tienden a ser las plataformas donde se se publican Fake News.

Proceso de creación del dataset

Para la elaboración de nuestro proyecto en la asignatura de ELP, hemos usado código Python. Es un lenguaje sencillo, limpio y legible, desarrollado bajo una licencia de código abierto, por lo que es de libre uso y distribución, incluso para uso comercial. Además, las múltiples librerías disponibles incorporan muchas funcionalidades extra; entre ellas, el uso de Web Scraping. Web Scraping es una práctica automatizada de extracción de datos en línea. Mediante esta técnica hemos accedido y extraído un conjunto de noticias falsas de medios de comunicación como Newtral, Maldita (españolas) o FactCheck (estadounidense), empresas dedicadas a la comprobación de hechos. Para cada noticia consideramos almacenar aquello que nos parecía más útil o relevante; así como el titular, el enlace a la noticia, su fecha de publicación y un diccionario que recoge todas las palabras de la noticia junto con su frecuencia de aparición. El diccionario tiene la finalidad de poder realizar una posible búsqueda y obtener noticias relacionadas.

Los datos de cada fack-checker se han guardado en formato Json, un formato de texto sencillo para el intercambio de datos. Las principales librerías que hemos empleado para la extracción de noticias son:

  • BeautifulSoup : Python Software Foundation License MIT License 4+[1]
  • Selenium: Apache License