Big Data

De FdIwiki ELP
Saltar a: navegación, buscar

Introducción

Podríamos decir que el Big Data es la huella que deja tu paso como usuario por internet (actividad, datos personales… etc) y con el uso de cualquier tecnologia del internet de las cosas. Existen tantos usuarios en la red que esta cantidad de datos que circulan es tan voluminosa que son necesarios métodos no convencionales para analizar y organizar toda esta información (Big Data).


Big Data != Un montón de datos

¿Cómo diferenciamos Big Data de un “Monton de Datos”? Mucha gente piensa en el Big Data como un conjunto muy amplio de datos, muchísimos datos que se almacenan y son utilizados, pero esto va más allá: por ejemplo la base de datos de Loterías del Estado almacena todos los décimos vendidos y premiados desde su origen, esto por supuesto son un montón de datos que se pueden almacenar en una base de datos, pero no forman Big data, no ofrecen información útil. Sin embargo, como hemos dicho el Big Data es la información que se genera en internet a tiempo real, cada segundo por cada usuario.


Ejemplo recolección de datos del usuario

Cuando abrimos el buscador Google existen do posibilidades: navegar logeado con tu cuenta de google o navegar sin haber iniciado sesión. En el primero de los casos sabemos que Google puede registrar nuestra actividad como las búsquedas, nuestros favoritos, el tiempo empleado en cada página… pero, y si no estamos logeado, ¿podría google identificarnos?

La respuesta es SI, podría perfectamente a través de cualquier configuración que tengamos establecida en nuestro dispositivo habitual como el navegador utilizado, la resolución de pantalla, el uso de applets como Java, Flash…, la fuente instalada, la IP… etc.

Objetivo

El objetivo consiste en que las empresas utilicen estos datos para realizar tomas de decisiones a largo, corto plazo e incluso a tiempo real. Conociendo estos datos, podremos hacer un análisis de los usuarios o, en el caso de una empresa, sus clientes conocéis la satisfacción de estos sobre los productos que venden; el punto clave es conocer los deseos de los clientes para anticiparse a futuras compras.

Algunas empresas como Apple o Amazon muestran anuncios personalizados gracias a las búsquedas en internet realizadas por los usuarios. Pero el uso del Big Data puede ir mucho más allá y emplearse en áreas como la política, conociendo las necesidades de los votantes para realizar campañas o discursos favorables a estos; o la seguridad ciudadana, y es que en 2013 la policía de los ángeles tomó datos de las zonas más conflictivas de la ciudad y gracias a ello se redujeron los actos delictivos de forma progresiva. Aun así, esta recogida y clasificación de datos supone un esfuerzo enorme ya que cada día se generan cantidades de datos inimaginables (Datos generados en 1 min ) y una de las mayores desventajas es la dificultad de mantener asegurados todos estos datos que, al final, son propiedad de los usuarios.

Esto implica que el Big Data podría convertirse en el mayor ventaja de pero también en un gran peligro si no se manejan adecuadamente estos datos.


Internet-un-minuto.jpg


Crecimiento y negocio

Hype Cycle Curve

El término Big Data fue introducido en el año 2006 por Roger Magoulas que mas tarde publicó el primer paper sobre este término en el año 2008. A partir de entonces el big Data ha ido creciendo siguiendo la curva denominada "Hype Cycle Curve" que muestra el desarrollo de una nueva tecnología durante sus 5-20 primeros años.

En la curva se ve una primera fase donde crece de forma muy rápida y llega a su máximo (Hype); a partir de pasa a decrecer pero después le sigue una fase de producción. En la imagen se puede ver el Hype Cycle de las tecnologías en el año 2012 y se ve al Big Data en la primera fase o fase de Ilusión. ¿Que pasó después? Si observamos la misma curva para el año 2015 veremos que el Big Data no aparece por ningún lado y es que ha supuesto algo tan convencional, que se ha asentado de forma definitiva en la fase de producción.


Hype Cycle.png

Constante innovación

Por tanto, como se ha mencionado anteriormente, el Big Data ha ganado tantos "jugadores" que hoy en día supone una tecnología cada vez más complicada, más dificil de dominar. Al no consolidarse, necesita estar constantemente en fase de innovación para que constituya un mercado aprovechable por las empresas.

Big Data Vs. Privacidad

User Agent

Como hemos visto, es muy difícil mantener nuestros datos invulnerables. Una de las "fingerprints" dejadas por el usuario en la red y que es muy utilizada para identificarnos es el User Agent. Con este identificador es posible averiguar nuestro navegador, sistema operativo utilizado e incluso nuestra IP (click aquí para comprobar). Existen algunas técnicas de hacking sencillas para falsear nuestro User Agent y dejar un huella errónea, pero también existen otras muchas técnicas para evitar estos engaños. Ultimamente se han profesionalizado otras muchas técnicas que son capaces, a través del uso de applets como Adobe Flash, conocer la red de área local que hemos montado en nuestra red doméstica, lo que supone una amenaza para nuestra red privada.


Panopticlick

A parte del User Agent existen otros términos como la singularidad de los individuos en la red. Esto quiere decir que, cuanto más distinto (único) seas, más fácil será identificarte; es decir, si tu configuración y actividad de tu paso por internet supone el 1% de lo habitual (solo 1 de cada 100 personas utilizan los mismos parámetros/configuraciones que tú a la hora de navegar) serás fácil de distinguir mientras que si tu configuración supone algo similar al 80% de los usuarios en red, quiere decir serás mas difícil de distinguir y por tanto más difícil de rastrear.

¿Quieres saber cuán único eres en la red? Pincha en este enlace , haz click en Test Me y si quieres ver los resultados detallados pulsa en "Show full results for fingerprinting". Esta herramienta analiza todas las características y configuraciones de tu navegador y las compara con las del resto de usuarios.