La Arquitectura Lambda o ‘Lambda Architecture’ surge en los últimos años con el objetivo de dar respuesta global a diferentes necesidades de análisis Big Data.
El objetivo central de la arquitectura lambda es reconstruir los sistemas de tratamiento masivos de datos con el objetivo de que su diseño sea el adecuado a la hora de trabajar bajo el paradigma Big Data, integrando los enfoques de tratamiento en tiempo real y en diferido.
La aproximación global al procesamiento Big Data integrando ambos enfoques, se ha ido adoptando de manera progresiva al diseño de sistemas y en la actualidad contamos con ejemplos notables que ya siguen esta estrategia.
La premisa fundamental de la arquitectura lambda es proporcionar una aproximación al diseño de sistemas Big Data que integren diferentes modalidades de tratamientos de datos y que puedan concretarse en cada caso con las tecnologías específicas adecuadas.
El hecho de repensar los sistemas de tratamiento de datos desde cero para que su diseño sea el adecuado para trabajar con Big Data da pie a obtener una arquitectura genérica que integre todos los conceptos y que guíe el proceso de diseño del sistema y la elección de las tecnologías específicas a integrar en casa caso.
Esta es la idea en la que Nathan Marz ha estado trabajando en los últimos años y cuyo desarrollo se recoge en el libro “Big Data” publicado junto con James Warren.
La arquitectura lambda consta de cuatro grandes capas:
1. Capa de recolección de datos. Engloba las tecnologías y dispositivos que obtienen los datos en bruto como la analítica web, el Open Data o los datos monitorizados por sensores.
2. Capa de pre-procesado. Se llevan a cabo servicios de preparación, limpieza, transformación, evaluación e integración de datos con el objetivo de preparar de forma óptima los datos para la siguiente capa.
3. Capa de análisis Big Data. En este nivel se engloban varias subcapas en función del tipo de procesado que se lleva a cabo en cada una de ellas:
– Capa de velocidad: se encarga de realizar el cómputo en tiempo real.
– Capa batch (por lotes): es la responsable de almacenar los datos monitorizados y pre-procesados, permitiendo realizar los cómputos necesarios para dar acceso a vistas concretas de los datos almacenados o a información arbitraria de los mismos.
– Capa de servicios: se encarga de indexar y exponer las vistas de la capa anterior para que puedan ser buscadas a través de querys.
4. Capa de aplicación. En esta última capa se desarrollan los servicios concretos asociados en torno a múltiples sectores como el financiero, salud, administraciones públicas, medio ambiente, etc. En base a la información detectada, pre-procesada y analizada.
En el siguiente artículo sobre Arquitectura Lambda y tecnologías para el diseño de soluciones Big Data hablaremos sobre las tecnologías más importantes y utilizadas en cada caso.
Leave a Comment