Big Data

From FdIwiki ELP
Jump to: navigation, search

Introducción

Podríamos decir que el Big Data es la huella que deja tu paso como usuario por internet (actividad, datos personales… etc) y con el uso de cualquier tecnologia del internet de las cosas. Existen tantos usuarios en la red que esta cantidad de datos que circulan es tan voluminosa que no pueden ser tratados por métodos tales como las bases de datos o funciones estadísticas (al menos no en un tiempo que resultará útil) por lo que son necesarios métodos no convencionales para analizar y organizar toda esta información (Big Data).

Big Data -------> ¿Un montón de datos?

¿Cómo diferenciamos Big Data de un “Monton de Datos”? Mucha gente piensa en el Big Data como un conjunto muy amplio de datos, muchísimos datos que se almacenan y son utilizados, pero esto va más allá: por ejemplo la base de datos de Loterías del Estado almacena todos los décimos vendidos y premiados desde su origen, esto por supuesto son un montón de datos que se pueden almacenar en una base de datos, pero no forman Big data, no ofrecen información útil. Sin embargo, como hemos dicho el Big Data es la información que se genera en internet a tiempo real, cada segundo por cada usuario.


Ejemplo recolección de datos del usuario

Cuando abrimos el buscador Google existen dos posibilidades: navegar logeado con tu cuenta de google o navegar sin haber iniciado sesión. En el primero de los casos sabemos que Google puede registrar nuestra actividad como las búsquedas, nuestros favoritos, el tiempo empleado en cada página… pero, y si no estamos logeado, ¿podría google identificarnos?

La respuesta es SI, podría perfectamente a través de cualquier configuración que tengamos establecida en nuestro dispositivo habitual como el navegador utilizado, la resolución de pantalla, el uso de applets como Java, Flash…, la fuente instalada, la IP… etc.

Objetivos

Los objetivos con esta recolección de datos son varios:

Las empresas utilizan estos datos para realizar tomas de decisiones a largo, corto plazo e incluso a tiempo real. Conociendo estos datos, podremos hacer un análisis de los usuarios o, en el caso de una empresa, de sus clientes conociendo la satisfacción de estos sobre los productos que venden con el fin de conocer los deseos de los clientes para anticiparse a futuras compras y mejoras.

Algunas empresas como Apple o Amazon muestran anuncios personalizados gracias a las búsquedas en internet realizadas por los usuarios. Pero el uso del Big Data puede ir mucho más allá y emplearse en áreas como la política, conociendo las necesidades de los votantes para realizar campañas o discursos favorables a estos; o la seguridad ciudadana, y es que en 2013 la policía de los ángeles tomó datos de las zonas más conflictivas de la ciudad y gracias a ello se redujeron los actos delictivos de forma progresiva. Aun así, esta recogida y clasificación de datos supone un esfuerzo enorme ya que cada día se generan cantidades de datos inimaginables (Datos generados en 1 min ) y una de las mayores desventajas es la dificultad de mantener asegurados todos estos datos que, al final, son propiedad de los usuarios.

Esto implica que el Big Data podría convertirse en el mayor ventaja de pero también en un gran peligro si no se manejan adecuadamente estos datos.


Internet-un-minuto.jpg

Peligros de Big Data

El uso de tal cantidad de datos tiene varios inconvenientes:

1-El ciberespionaje : los datos de los usuarios son un atractivo para los hackers lo que produce que las compañias que optan por usar Big data reciban un mayor número de ataques.

2-La ciberseguridad : debido a este aumento de amenazas las empresas se ven obligadas a aumentar el gasto que tienen en seguridad puesto que dicha amenaza no solo perjudica a las empresas , si no que también a los ciudadanos.

3-La tecnofobia : Un gran número de personas que se rebelan contra el avance de las tecnologías ya que no lo ven como una herramienta de recopilación de datos si no como una vulneración de su privacidad.

4-Exceso de datos : Tener una gran cantidad de datos no siempre es bueno, ya que dificulta la selección de datos beneficiosos para el negocio(tener muchos daros puede generar ruido).

5-Discriminación :se puede presentar a la hora de hacer predicciones, ya sean laborales o de cualquier otro tipo.

Crecimiento y negocio

Hype Cycle Curve

El término Big Data fue introducido en el año 2006 por Roger Magoulas que mas tarde publicó el primer paper sobre este término en el año 2008. A partir de entonces el big Data ha ido creciendo siguiendo la curva denominada "Hype Cycle Curve" que muestra el desarrollo de una nueva tecnología durante sus 5-20 primeros años.

En la curva se ve una primera fase donde crece de forma muy rápida y llega a su máximo (Hype); a partir de pasa a decrecer pero después le sigue una fase de producción. En la imagen se puede ver el Hype Cycle de las tecnologías en el año 2012 y se ve al Big Data en la primera fase o fase de Ilusión. ¿Que pasó después? Si observamos la misma curva para el año 2015 veremos que el Big Data no aparece por ningún lado y es que ha supuesto algo tan convencional, que se ha asentado de forma definitiva en la fase de producción.


Hype Cycle.png

Constante innovación

Por tanto, como se ha mencionado anteriormente, el Big Data ha ganado tantos "jugadores" que hoy en día supone una tecnología cada vez más complicada, más dificil de dominar. Al no consolidarse, necesita estar constantemente en fase de innovación para que constituya un mercado aprovechable por las empresas.

Big Data Vs. Privacidad

User Agent

Como hemos visto, es muy difícil mantener nuestros datos invulnerables. Una de las "fingerprints" dejadas por el agente de usuario y que es muy utilizada para identificarnos es el User Agent. Con este identificador es posible averiguar nuestro navegador, sistema operativo utilizado e incluso nuestra IP (Averiguar IP). Existen algunas técnicas de hacking sencillas para falsear nuestro User Agent y dejar un huella errónea, pero también existen otras muchas técnicas para evitar estos engaños.

Tipos de User Agent

Los User Agent pueden ser instalados en tu ordenador sin ni siquiera darte cuenta y/o pueden ser ejecutados desde la propia web.

Acontinuación te detallamos los principales tipos conocidos y sus funciones:

1-Agente de web de búqueda. Sus principales funciones son : Un agente de búsqueda puede realizar las siguientes funciones:

   -Realizar consultas con una velocidad y en un conjunto de fuentes mucho mayor que el posible para un
    usuario humano.
   -Consultar a la vez los contenidos de distintos sitios web.
   -Informar de las actualizaciones que se producen en los sitios web que son de interés.
   -Agilizar las descargas que se realizan de internet.
   -Eliminación de correo basura o spam
   -Búsqueda de noticias conforme a las preferencias.

2-Agentes web Este tipo de agente es un programa capaz de visualizar un recurso en la web, una página web.Suelen ser navegadores web.

3-Robot de compra Son aquellos encargados de comparar distintos precios en varias páginas o sitios a la vez(Por lo que necesitan estar actualizados constantemente)

4-Robots de entretenimiento Con ellos podemos llevar a cabo muchas tareas como lecturas de correo, filtrado de archivos, acceso a varios servidores a la vez..etc

5-Mapeadores Su trabajo es la captación de información tanto de estructura como de datos de distintas páginas webs.

Panopticlick

A parte del User Agent existen otros términos como la singularidad de los individuos en la red. Esto quiere decir que, cuanto más distinto (único) seas, más fácil será identificarte; es decir, si tu configuración y actividad de tu paso por internet supone el 1% de lo habitual (solo 1 de cada 100 personas utilizan los mismos parámetros/configuraciones que tú a la hora de navegar) serás fácil de distinguir mientras que si tu configuración supone algo similar al 80% de los usuarios en red, quiere decir serás mas difícil de distinguir y por tanto más difícil de rastrear.

¿Quieres saber cuán único eres en la red? Pincha en este enlace , haz click en Test Me y si quieres ver los resultados detallados pulsa en "Show full results for fingerprinting". Esta herramienta analiza todas las características y configuraciones de tu navegador y las compara con las del resto de usuarios.