El Big Data hace referencia a un conjunto de datos cuyo tamaño, complejidad y velocidad de crecimiento dificultan la captura, gestión y procesamiento de dichos datos. Es por ello que hablando de Big Data, los datos son imprescindibles.
Calidad de los datos:
Al tener un gran volumen de datos, es importante la calidad de los mismos, ya que, por ejemplo, unos datos de calidad proporcionan ventajas competitivas y, por el contrario, unos datos con una calidad insuficiente, pueden acarrear errores estratégicos y operacionales graves.
Aquí entran en juego las 5 Vs del Big Data. Las empresas tienen dificultades para encontrar datos reales y de alta calidad en conjuntos de datos tan masivos y cambiantes. Las 5 Vs de las que estamos hablando son:
Volumen: lo que antes era grande ya no lo es tanto. En Big Data se habla de Petabytes.
Velocidad: es un factor fundamental. En algunos casos, el tiempo de procesamiento de los datos puede llevar horas, incluso días.
Variedad: los datos tienen origen heterogéneo. La misión del Big Data es combinar y configurar unos datos con otros.
Veracidad: es inevitable dudar de los datos con tanta información. Por ello, es recomendable hacer limpieza de datos, aunque esto suponga un gran esfuerzo.
Valor: muy costoso por las infraestructuras informáticas empleadas.
¿De dónde vienen de datos?
Almacenamos y creamos información constatemente. Para hacernos una idea, se generan alrededor de 2,5 quintillones de Bytes diariamente en el mundo.
1 quintillón = 1.000.000.000.000.000.000.000.000.000.000
No sólo generamos datos los humanos, sino que también las máquinas. Hoy en día, existe la comunicación M2M (machine-to-machine) por medio de sensores digitales. Se calcula que hay aproximadamente 30 millones de sensores en los sectores: automotriz, transportación, industria, servicios, comercial, etc.
La pregunta típica de las industrias es: ¿què datos busco? Y la mejor respuesta sería: ¿qué problema tratas de resolver?
Podemos encontrar los datos en diferentes fuentes:
Web y redes sociales: twitter, Facebook, contenido web, ...
M2M: sensores, señales, ...
Biométricas: reconocimiento facial, genética, ...
Generados por humanos: e-mails, notas de voz, ...
Grandes movimientos de datos: datos de telecomunicaciones, de salud...
Clasificación de los datos:
Los datos se pueden clasificar en estructurados, semi-estructurados o no estructurados.
Datos estructurados: son aquellos que corresponden a la mayoría de la información que encontramos en bases de datos. Se almacenan en archivos de tipo texto que se muestran en filas y columnas con títulos. Este tipo de datos son fáciles de ordenar y procesar. Actualmente se calcula que sólo el 20 % de los datos son estructurados.
Datos no estructurados: este tipo de datos no tienen una estructura interna identificable. Los podemos encontrar en: documentos, vídeos, audios, correos electrónicos, publicaciones en las redes sociales, etc. Centrándonos en el ejemplo del correo electrónico, la mayoría de las herramientas de gestión de datos no son capaces de analizar la información a pesar de que ésta sea relevante.
Datos semi-estructurados: son una mezcla de los dos anteriores. No presentan una estructura perfectamente definida como en los datos estructurados, pero sí cierta organización. Los podemos encontrar en: software, hojas de cálculo, informes, etc.
¿Dónde se almacenan estos datos?
Casi toda la información está almacenada en centros de datos que cuentan con muchos servidores que tienen discos duros de gran capacidad. Estos datos están en continuo movimiento entre diferentes centros, y se crean copias de seguridad para evitar su desaparición frente a errores.
Actualmente en el mundo hay 2.200 centros, de los cuales más de 1.000 se encuentran en EE.UU. En España se localizan 36 y 22 de ellos están en Madrid y Barcelona.
Facebook, al igual que Google, cuentan con varios centros de datos repartidos por todo el mundo, pero el Data Centre más grande lo tiene la empresa Digital Realty (dedicada a la adquisición, venta y alquiler de centros de datos) en Chicago con más de 100.000 metros cuadrados.
En el pasado, las empresas almacenaban sus datos en bases de datos tradicionales, que ya no son suficientes para almacenar, recuperar y procesar tanta información. Hoy en día nos encontramos con el problema de almacenar datos no estructurados. Para solucionarlo se han creado las bases de datos NoSQL con modelos de consistencia más laxos que las bases de datos tradicionales para trabajar con datos cuya naturaleza no requiere un modelo relacional.
Almacenamiento por niveles.
Este tipo de almacenamiento permite separar los datos por clases y asociarles un nivel. Cada nivel tendrá una importancia estratégica para la empresa. Es importante tener en cuenta que el conjunto de datos más importante para el negocio puede cambiar con el tiempo, por lo que la empresa debe reaccionar adecuadamente ante esos cambios.
Las tres clases principales de datos son:
Datos críticos: son los que se consultan con mucha frecuencia y por eso cuentan con los recursos más avanzados y con mayor capacidad de procesamiento.
Datos templados: se consultan con menos frecuencia que los anteriores.
Datos fríos: se consultan raramente, pero son importantes para consultas a largo plazo.
Bibliografía:
https://www.fractaliasystems.com/big-data-donde-se-almacena/
https://www.t-systemsblog.es/big-data-almacenamiento-datos-niveles/
https://smarterworkspaces.kyocera.es/blog/diferencia-datos-estructurados-no-estructurados/
https://www.powerdata.es/big-data
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/big-data-el-reto-de-gestionar-datos-estructurados-y-no-estructurados
https://www.ibm.com/developerworks/ssa/library/bd-almacenamiento-datos/index.html
http://hbase.apache.org/
https://idgrup.com/gestionar-almacenamiento-big-data/
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html
https://www.quanticsolutions.es/blog/las-5-vs-del-big-data/
https://www.iebschool.com/blog/5-vs-del-big-data/
https://www.cisco.com/c/es_es/about/press-2013/2013-04-02-big-data-gran-potencial-y-prioridad-de-negocio.html
http://www.diegocalvo.es/tipos-de-datos-estructurados-semiestructurados-y-no-estructurados/
https://www.ionos.es/digitalguide/hosting/cuestiones-tecnicas/base-de-datos-en-memoria/