Big Data vs Smart Data, la ciencia de datos que ayudará a tu negocio

La sociedad 3.0

La participación en el mundo digital ha dado lugar a un cambio en el perfil del cliente y consumidor. De personas que tenían un conocimiento mínimo del mercado proporcionado por los medios de comunicación y los grupos de pertenencia, se ha pasado a compradores cada vez más informados y exigentes.

Esto obliga a las empresas a pasar de ser reactivas a proactivas, detectando las necesidades de sus potenciales y actuales clientes incluso antes de que estos se den cuenta de las mismas, adelantándose de esta forma también a la competencia.

Para conocer a este nuevo consumidor, las empresas se valen del Big Data y del más reciente Smart Data, conceptos que cada vez cobran más fuerza y que permiten a las mismas analizar los diferentes datos proporcionados por la huella digital de sus clientes para detectar oportunidades y necesidades, ofreciéndoles así aquello que necesitan en el momento que lo necesitan.

Big Data Smart Data MediaRoom Solutions
Big Data Smart Data MediaRoom Solutions

No obstante, debido al grado de novedad de estos términos, muchas empresas carecen de la experiencia o los recursos para sacar el máximo partido a las ventajas que ofrecen sus estudios, siendo necesario acudir a consultoras tecnológicas que les proporcionen asesoramiento en materia.

Para amenizar esta tarea, se proporciona una introducción al concepto de Big Data y Smart Data junto con elementos relacionados a los mismos, así como ejemplos de empresas que los ponen en práctica en la actualidad.



Métodos de extracción Big Data vs Smart Data

En la línea de la definición dada por Michael Frampton (2014), el Big Data son aquellos datos cuya dimensión y complejidad es tan grande que las herramientas tradicionales de análisis son incapaces de procesarlos en un lapso de tiempo o coste aceptable.

Dicho tamaño y complejidad genera problemas en la recogida, almacenamiento, tratamiento y en el análisis de estos datos, no obstante librerías de software como Hadoop permiten solventar parte de esta problemática.

Otra forma de definir al Big Data es, tal y como cita Diya Soubra (2012), a través de las denominadas “ 3V de Gartner” definidas por Doug Laney (2001) en su artículo “3DManagement: Controlling Data Volume, Velocity and Variety”.

Volumen: El tamaño total de la base de datos. La constante utilización y creciente de internet y las redes sociales (RRSS) está generando grandes volúmenes de información que es necesario almacenar y tratar para ser utilizada.

Velocidad: El tiempo que se tarda en recopilar y procesar la información. Es importante que los volúmenes de información sean almacenados y tratados en tiempo real. Analizando datos en tiempo real, la empresa podrá ser más ágil y competitiva al poder predecir sucesos con poco margen de error, anticipándose así al mercado y el cliente.

Variedad: Los distintos tipos de datos que forman las bases de datos (imágenes, bases de datos numéricas, comentarios en las redes sociales…).

A estas 3 V anteriores conviene añadir una V más. La de veracidad de los datos, ya que por muy grandes y diversos que sean, si estos no son veraces, todo análisis que se realice carecerá de sentido al ser los resultados ajenos a la realidad.

Por otro lado, Juan Martín (2017) define el Smart Data como la transformación de grandes listas de datos en información con valor disponible y utilizable que permita dar respuesta a incógnitas y sirva a un determinado fin.

Es decir, el fin del Smart Data es convertir los grandes volúmenes de datos del Big Data en información útil y relevante lista para ser usada en tiempo real mediante el uso de análisis y la posterior interpretación de los resultados.

Además, a diferencia del Big Data, el Smart Data opera a través de 5V: volumen, velocidad, variedad, veracidad de las fuentes empleadas y valor de los datos, siendo esta última la más importante ya que representa la definición del concepto.

Big Data Smart Data MediaRoom Solutions

Clases de datos que almacenan

Tanto el Big Data como el Smart Data pueden recopilar datos de diverso tipo. Tal y como indica Luis Joyanes (2016), pueden clasificarse en estructurados, semiestructurados y no estructurados.

Datos estructurados: Aquellos con un formato definido y específico además de campos fijo. Poseen información conocida a priori que aparece y se genera en un orden específico. Las bases de datos relacionales, las hojas de cálculo y los archivos se engloban en esta categoría.

Datos no estructurados: No tienen un formato predefinido, por lo que se almacenan como documentos u objetos sin estructura similar entre sí. Se trata de los datos más complejos de analizar. Ejemplos de datos no estructurados son aquellos que carecen de campos fijos como las imágenes, los archivos de audio y video o los mensajes y correos electrónicos entre otros.

Datos semiestructurados: Son una combinación de los dos anteriores. No tienen un formato fijo, pero contienen elementos como etiquetas o marcadores que permiten identificar los elementos que en él se incluyen. Para poder leerlos, es necesario utilizar procedimientos que indican cómo actuar después de la lectura de cada segmento de información. Las etiquetas HTML y XML se engloban dentro de esta categoría.



¿Qué se necesita para poner en marcha un proyecto de Big Data o Smart Data?

Al igual que cita Carlos Pérez (2016), para que pueda llevarse a cabo el Big Data, y por consiguiente el Smart Data, es necesario una serie de elementos imprescindibles:

Recursos humanos: Se distingue entre aquellas personas que poseen conocimientos técnicos, y entre aquellas que tengan conocimientos del negocio o del sector en el que se opere.

Infraestructuras tecnológicas: Hardware y software con la dimensión y potencia necesaria para almacenar tanto proyectos de Big Data como de Smart Data.

Hay destacar que, a diferencia del Big Data, el Smart Data no precisa disponer de grandes volúmenes de datos para su realización, por lo que las infraestructuras que requiere no necesitan ser tan potentes ni disponer de tanta capacidad de almacenamiento.

Fuentes de datos: Hacen referencia tanto a sistemas de captación de información, bases de datos o datos históricos como a nuevas fuentes actuales como pueden ser internet, las redes sociales o información abierta al público por las instituciones públicas.



El Big Data y el problema de la dimensionalidad

Por otro lado, tal y como indica José Antonio Guerrero (2016), uno de los problemas que afectan al Big Data está relacionado con la dimensionalidad de los datos.

Se puede definir el problema de la dimensionalidad del Big Data como los posibles efectos negativos producidos por el aumento del número de las variables frente al número de observaciones.

Una elevada dimensionalidad tiene como resultado un sobreajuste, es decir, las predicciones realizadas por el modelo serán pobres debido a que el mismo se ha vuelto más complejo por introducir un mayor número de variables.

Además, en el caso de que haya colinealidad (cuando una variable es combinación lineal de otras ya introducidas en el modelo), ésta puede afectar a los algoritmos empleados o la estabilidad de las soluciones. Para solucionar el problema de la dimensionalidad, existen 3 tipos de métodos que se exponen a continuación:

Métodos de filtrado: Se basan en un criterio para elegir las variables independientemente del algoritmo con el que se ajuste el modelo. Son rápidos de aplicar, pero pueden rechazar una variable debido a que su efecto principal no sea significativo, aunque podría tener una interacción con otras variables. Ejemplos de métodos de filtrado pueden ser la correlación o el test de contraste de hipótesis.

Métodos envolventes: Se diferencian de los anteriores en que buscan seleccionar un conjunto de variables que proporcione el mejor ajuste con un algoritmo concreto. Un ejemplo son los procedimientos stepwise (o paso a paso) utilizados en la regresión lineal múltiple (backward, forward y enter).

Métodos de extracción: Buscan convertir un conjunto de variables iniciales en otro conjunto más reducido que retenga la mayor parte de información. Su principal ventaja es que no utilizan la información de las variables respuesta, por lo que se pueden utilizar datos no etiquetados consiguiendo una mejor representación de la información. Su inconveniente está en la dificultad a la hora de interpretar los resultados.

El análisis de componentes principales o ACP, el análisis de correspondencias o el análisis cluster son algunos ejemplos de este tipo de métodos.



Aplicaciones prácticas del Big Data en la actualidad

Actualmente es posible encontrar numerosos casos de empresas que llevan a cabo actividades de Big Data, Bernard Marr (2016) recoge algunos ejemplos:

Walmart: En 2004, con la llegada del huracán Sandy, en Walmart detectaron que los cambios en las condiciones meteorológicas no solo habían incrementado la demanda en equipamiento de emergencia, sino que también aumentó la demanda de Strawberry Pop Tarts en diversas localidades. En 2012, a raíz de este descubrimiento, y con la llegada del huracán France, se enviaron suministros de este producto los cuales tuvieron la acogida esperada.

Netflix: Sus proyectos de Big Data consisten en combinar los datos que posee con diversas técnicas analíticas, lo que permite a la plataforma recomendar al usuario el contenido más apropiado a sus gustos. Este sistema de recomendaciones se basa en un proceso de etiquetado del contenido. Netflix paga a miles de espectadores para que visualicen contenido y etiqueten distintos aspectos que observan. Esto le ha permitido crear 80.000 nuevos microgéneros que se recomiendan al espectador.

Big Data Smart Data MediaRoom Solutions
Netflix

Narrative Science: Comenzaron generando informes automáticos de juegos deportivos para Big 10 Network, y actualmente producen noticias empresariales y financieras para Forbes, MasterCard o el servicio nacional de salud de Reino Unido. Para ello, utiliza el proceso conocido como Generación de Lenguaje Natural (NLG), que consiste en obtener información y cifras de bases de datos y con ellas construir historias de manera automática que parecen haber sido escritas por personas. Actualmente en MediaRoom Solutions trabajamos en proyectos de NLG, siendo uno de ellos financiado por la iniciativa Google DNI.

Big Data Smart Data MediaRoom Solutions
Narrative Science

Aplicaciones prácticas del Smart Data en la actualidad

Juan Martín (2017), por su parte, explica que es posible encontrar ejemplos de aplicaciones de Smart Data tanto en un entorno empresarial como en uno cotidiano.

A nivel empresarial, las organizaciones emplean las conclusiones obtenidas en los análisis de Smart Data para mejorar la vida diaria de las personas. Tal es el caso de IMB y Microsoft, que trabajan conjuntamente para reducir el número de atascos que se crean diariamente en las carreteras, o Google que, mediante Google Flu Trends (actualmente ha dejado de usarse), buscaba relativizar los datos para detectar la expansión de epidemias.

El SmartData también es aplicable a nivel de departamentos de empresa. Por ejemplo, el departamento de Recursos Humanos de una empresa podría obtener una mayor información de sus potenciales candidatos utilizando el Smart Data que le proporcionan las redes sociales.

Además, el hecho de que el Smart Data no implique una gran cantidad de datos permite a las pymes poder emplearlo, utilizándolo por ejemplo para fidelizar a sus clientes creando ofertas personalizadas a partir de los datos recopilados en su CRM.

A nivel cotidiano, es posible encontrar aplicaciones de Smart Data en las Smart TV que emplean los datos recogidos del consumo de la televisión para ofrecer propuestas de contenido multimedia como series o películas adaptadas a los gustos del usuario.

También las denominadas Smart cities utilizan el Smart Data para llevar a cabo la gestión del empleo de los servicios públicos.

Sectores como la sanidad pueden emplear el Smart Data para un mayor control de la salud de sus pacientes y proporcionarles tratamientos más adecuados a partir de la información de sus constantes vitales y resultados clínicos.

MediaRoom Solutions cuenta con servicios de consultoría TIC, asesorando y orientando a sus clientes en la correcta gestión y empleabilidad de sus bases de datos para sacarles el máximo provecho. Contacta con nosotros y te asesoraremos.




Compartir

Solicita la demo de MediaRoom CMS

Teléfono

+34 678 698 958

Email

support@mediarooms.es

Dirección

Avenida Ordoño II, Nº 39, Entresuelo

24001 - León