Trabajo:Third-Party Cookies

De FdIwiki ELP
Saltar a: navegación, buscar
Cookies.jpg

Introducción

Estudio sobre el fenómeno de monitorización de páginas web y third-party cookies. Es un proyecto que compartimos para la asignatura de Análisis de Redes Sociales, donde vamos a profundizar en el análisis de los grafos que se pueden crear con las páginas web de origen y de terceros, y las cookies que éstos crean. Para este análisis nos basamos en los datos obtenidos con una extensión de firefox llamada Lightbeam, que registra las páginas visitadas, creando después un grafo interactivo. Estos datos se pueden exportar, y es lo que utilizaremos como base para el proyecto.

La idea principal es visitar páginas webs que puedan interesar a distintos perfiles de usuario, analizar cuantas third-parties tienen acceso a ellas sin que el usuario lo sepa y que hacen esas third-parties, para así lograr unos resultados que nos permitan mostrar al público cómo funciona ese sistema y concienciar al respecto.

El resultado final será un análisis sobre estas páginas, un grafo interactivo disponible online para que los usuarios lo usen de ejemplo y un vídeo explicativo para concienciar al respecto, puesto que nos parece la mejor forma de llegar a más gente.


Teoría

Para entender bien el análisis que vamos a hacer hay que entender algunos conceptos:

  1. Cookies: Son un documento de un tamaño máximo de 4KB que se guarda en el navegador, en este documento se almacenan datos sobre el usuarios, generalmente preferencias de uso de la página que se este visitando, pero también pueden guardar datos personales si los desarrolladores así lo quieren, puesto que estos datos pueden venderse a otras empresas siempre y cuando el usuario haya aceptado los términos de uso. Estos datos personales pueden contener tu ubicación, idioma de la página preferido, gustos (Categorías que utilizas), tiempo y hora de navegación, productos en el carrito de la compra, clicks que has hecho, links que has visitado y muchos más.
  2. Third Party: El término third-party puede aplicarse a muchos contextos, nosotros nos referimos a páginas web que tienen acceso a las webs que vamos a utilizar en nuestro análisis. Este acceso a los datos de las webs principales (Nodos desde ahora) puede deberse a tres razones:
    1. Son APIs propias que utilizan los desarrolladores de un nodo para enviar y recibir información de su servidor.
    2. Son servicios de terceros que usan los desarrolladores de los nodos.
    3. Son webs de terceros que ponen anuncios en los nodos y almacenan sus propias cookies.

El último de estos casos es el que más nos importa. ya que podemos aceptar que una página use cookies confiando en esa página únicamente, sin saber que otras webs tienen acceso a esas cookies.


Práctica

La extensión de Firefox "Lightbeam" muestra un grafo interactivo compuesto por círculos representando los nodos visitados, y con triángulos las third-parties que obtienen información a través de ellos. Además podemos saber si una third-party almacena cookies o no.

Ejemplo de Lightbeam.


El programa acabará generando una red muy grande, con su correspondiente archivo .json del cual sacaremos los datos que nos interesan.

Red monitorizada de uno de nuestros integrantes.


Una vez tengamos los datos, tendremos que formatearlos para que Gephi, una herramienta libre para visualizar datos, pueda entenderlos. El archivo json y el código que utilizamos en este proyecto puede encontrarse aquí.

La forma que hemos utilizado para representar los datos es la siguiente:

  1. Los nodos son de un color diferente dependiendo de la cantidad de aristas que tengan.
  2. Las aristas pueden ser verdes sí la página de destino no guarda cookies y rojas si sí las guarda.

Después de darle forma con Gephi hemos exportado los datos creando un mapa interactivo y guardándolo en un servidor. Puedes entrar a él y ver las third-parties (TP desde ahora) que acceden a los nodos de nuestra investigación.

Ejemplo de Lightbeam.


Páginas para el análisis

  • Estudiantes
  1. Wikipedia
  2. Github
  • Universidades
  1. UCM
  2. URJC
  • Redes Sociales
  1. Facebook
  2. Twitter
  • Entretenimiento
  1. Minijuegos
  2. Seriesblanco
  • Páginas polémicas
  1. thePirateBay
  2. Pornhub


Análisis

Nota: google aparece relacionado con varios nodos ya que se accede a los nodos desde su search engine, además almacena cookies, esto ocurre principalmente en las páginas que tienen un inicio de sesión de google, también pasa a veces con facebook. Ignorad estos nodos excepto en su propio análisis.

Los nodos se evaluarán según la cantidad de TPs que tenga un nodo y si guardan cookies o no, de tres formas diferentes:

  1. Seguro: Sin TPs o TPs propias.
  2. Dudoso: Tiene TPs extrañas que no almacenan cookies o TPs conocidas que almacenan cookies.
  3. Expuesto: Tiene TPs extrañas que almacenan cookies.


  • Wikipedia ---> Seguro

Tiene una sola arista con wikimedia.org. Wikimedia es un movimiento global cuyo objetivo es proporcionar contenido educacional gratuito. Wikipedia es parte de este movimiento, por lo que tiene sentido que tenga acceso. Además no almacena cookies de ningún tipo, así que navegar por Wikipedia es totalmente seguro.

Wikipedia.png


  • Github ---> Seguro

Tiene 4 aristas con TPs propias que utiliza para recibir el contenido de los usuarios desde su servidor. Además tiene una arista con google-analytics.com, que es un servicio de google muy popular utilizado para monitorear webs, por ejemplo, ver la cantidad de visitas o tiempo de navegación media del usuario. No guarda datos personales y además no almacena cookies, así que es seguro.

Github.png


  • UCM ---> Dudoso

La web de la Complutense utiliza varios servicios externos de google, ajax.google.apis y google-analytics.com, aunque estos dos no almacenan cookies. Sin embargo el tercero, doubleclick.net, sí que las almacena. Este último es un servicio dedicado a proveer soluciones digitales y de marketing. Aunque sea un servicio de google y por ello podamos dar por hecho que es seguro, está almacenando cookies de los usuarios desde la web de la Complutense.

También tiene una arista con twitter que almacena cookies. Esto se debe a que en la web de la UCM se pueden implantar feeds de twitter para proveer información de algún tema específico, como el que podemos encontrar en la sección de la biblioteca.

Ucm.png


  • URJC ---> Dudoso

La web de la Universidad Rey Juan Carlos tiene similitudes con la de la Complutense pero está más expuesta. Tiene una arista que no guarda cookies con google-analytics y otra que sí con doubleclick.net. Pero además utiliza cloudfare.com y addthis.com, para optimizar su web. Estos también guardan cookies de los usuarios desde la URJC.

Urjc.png


  • Facebook ---> Dudoso (Pero está expuesto a otras webs que pueden no ser confiables)

Facebook tiene una arista con una API propia, facebook.net, que no almacena cookies. Hasta ahí bien, sin embargo podemos ver 5 nodos conectándose a ambas, estos nodos son minijuegos.com, instagram.com , uax.es (Universidad Alfonso X), seriesblanco.com y forocoches.com. Curiosamente estos nodos no almacenan cookies cuando acceden a facebook.net pero sí lo hacen con facebook.com, como hemos dicho antes esto se debe a que estas páginas tienen una opción de registrarse con facebook, todas menos forocoches. Según indican los términos de uso en la web de forocoches, es para mostrar publicidad más eficientemente, pero no podemos estar seguros de ello. Esto no perjudica directamente a facebook, porque facebook no se conecta con forocoches sino al revés. Pero si utilizas forocoches pueden obtener información de tu facebook. Además forocoches se conecta a varias APIs que almacenan cookies y de las que no hemos encontrado datos, por lo que no sabemos que hacen con ellos.

Facebook.png


  • Twitter ---> Dudoso

Tiene dos aristas que no almacenan cookies, google-analytics.com y twimg.com. Esta última es una API propia de Twitter para enviar y recibir contenido multimedia desde su servidor. También aparece aquí la UCM por los feeds que hemos mencionado antes. Lo único que hace que no sea completamente seguro es que también utiliza doubleclick.net.

Twitter3.png


  • Minijuegos ---> Expuesto

Minijuegos es el nodo que más nos ha sorprendido, tiene conexiones con varias TPs de marketing digital mencionadas anteriormente. Y sobre todo al poner anuncios en su página web permiten almacenar cookies a muchas webs de terceros, la mayoría de ellas son de publicidad.

Minijuegos.png


  • Seriesblanco ---> Expuesto

Se conecta con 3 TPs que almacenan cookies, cloudfare que ya la hemos visto varias veces, jquery.com que es una librería de frontend y chatango.com para moderar chats. Además se conecta con dos TPs que no almacenan cookies, photobucket.com para almacenar contenido multimedia y coinhive.com. Esta última es muy interesante puesto que a pesar de no almacenar cookies es un cryptominer que utiliza la potencia computacional de los visitantes de Seriesblanco para minar cryptomonedas y así conseguir una remuneración. Esto no tendría porque ser un problema si indicaran en algún lado de su web que utilizan un cryptominer y que los usuarios siguieran visitando su web siendo conscientes de esto, sin embargo no se indica en ningún lado.

Seriesblanco.png


  • ThePirateBay ---> Expuesto

Ocurre algo muy similar a Seriesblanco, utiliza cloudfare y APIs propias para gestionar el contenido, pero la página que hemos analizado es la lista de proxies de TPB, thepiratebay-proxylist.org y al entrar en uno de estos proxies, batpirate.info hemos visto que también enlaza con coinhive. Al igual que Seriesblanco, TPB usa un cryptominer y en su momento cuando se descubrió se montó un escándalo.

Pirate.png


  • Pornhub ---> Limpio

Sorprendentemente Pornhub solo accede a dos APIs propias para gestionar sus contenidos y estas no almacenan cookies, es segura.

Pornhub.png


Conclusión

Tenemos páginas que creíamos seguras y lo son como Wikipedia y Github y que no lo son del todo como las de la UCM y URJC. Las redes sociales sabíamos que no sería del todo seguras, sobre todo según las TPs que tienen acceso a ellas como pasa con Facebook y Forocoches. Páginas que a primera vista parecen inofensivas ya que solo ponen un poco de publicidad como Minijuegos en realidad envían datos de los usuarios a muchas TPs, Seriesblanco que pone poca publicidad sin embargo mina cryptomonedas y no se lo indica a sus usuarios, les acabará pasando como a TPB y se descubrirá (No parece que se haya anunciado en ningún sitio y en google no sale nada). Y también tenemos páginas como Pornhub de las que podríamos esperar algo extraño pero sin emabrgo está completamente limpia.

En resumen, los usuarios necesitan estar informados de lo que las empresas pueden hacer con sus datos y sobre todo de cuántas de estas realmente tienen acceso a ellos. Deben saber que los términos de uso de las webs y aplicaciones en general, no solo las de las cookies, pueden hacer que su información personal se filtre y sea utilizada de formas que puedan no gustarles. Y también que aunque una página parezca limpia y no utilice cookies puede beneficiarse de los usuarios con otros métodos como los cryptominers.

Para concienciar a los usuarios hemos hecho un vídeo que explica esto de forma simple con indicaciones para proteger sus datos.


Puntos del vídeo

  1. Introducción
  2. Qué son las third-parties
    1. Qué son las cookies
    2. Qué hacer al respecto


Vídeo

Vídeo: Third-Party Cookies

Creado con: Powtoon

Además, como no pudimos hacer que el primer vídeo fuese una versión libre, creamos uno segundo logrando que sí que lo fuese:

Vídeo: Third-Party Cookies Versión Libre


Difusión

290 visualizaciones 28 likes

  • Twitter :

Libre Lab UCM (@LibreLabUCM) twitea el video en su cuenta. 4 RTs y 6 Favs (LibreLabUA @LibreLabUA) --> https://twitter.com/LibreLabUCM/status/958348015705698304

ASCII (@AsciiFdi) twittea el video en su cuenta. 24 RTs y 24 Favs (LibreLabUA @LibreLabUA, Asociación Diskobolo @DskBolo, Informática UCM @informaticaucm ) -->https://twitter.com/AsciiFdi/status/957984284958175238

Delegación FDI - UCM (@DelegaciónFDI) twittea el video en su cuenta. 2 RTs y 3 Favs.

Concienciación

El objetivo del vídeo es hacer a la gente saber hasta que punto tienen acceso a su información las empresas y que valor y uso puede tener para ellas. Mucha gente parece estar de acuerdo con que las aplicaciones que utiliza o páginas web que visita tengan acceso a sus datos y esto se debe principalmente a que en general no saben que tipo de información están permitiendo a las empresas obtener ni que cantidad de estas tienen acceso a esos datos.


Artículos relacionados

  1. https://www.opentracker.net/article/third-party-cookies-vs-first-party-cookies
  2. https://www.ida.cl/blog/ida/diferencias-first-third-party-cookies/
  3. http://whatis.techtarget.com/definition/third-party-cookie
  4. http://www.ravelrumba.com/blog/third-party-cookies/
  5. http://www.bobulous.org.uk/misc/third-party-cookies.html
  6. http://jesusredondo.es/%C2%BFque-son-las-cookies-de-terceros
  7. https://noctuido.wordpress.com/2010/08/03/no-permitir-las-cookies-de-terceros-en-los-navegadores/
  8. https://www.neurodigital.es/definicion-y-funcion-de-las-cookies/


Participantes

  • Pablo Verdugo Garrido
  • Raúl Gil Fernández
  • Blanca de la Torre Fuertes
  • Guillermo Monserrate Sánchez