Fractalia está llevando a cabo en colaboración con el Grupo de Aplicación de Telecomunicaciones Visuales (G@TV), grupo de investigación de la Universidad Politécnica de Madrid, el proyecto LPS-Bigger. El proyecto consiste en el desarrollo de software de técnica de visión artificial para el entorno Smart Retail.
En este artículo nos centramos en las aproximaciones que se han llevado a cabo en los distintos módulos: substracción de fondo, detección y seguimiento, así como la caracterización de visitantes y optimización de los puntos de venta (PDV).
En lo que respecta al primero de los módulos mencionados, ‘Substracción de fondo’, se ha utilizado la técnica Mixture of Gaussians, que utiliza las características obtenidas mediante el flujo óptico propuesto en la solución iterativa de Lucas & Kanade, como se puede observar en la siguiente figura:
Figura 1 Pirámide propuesta por Lucas & Kanade para el cálculo de flujo óptico
En el caso del módulo ‘Detección’, se ha utilizado el descriptor de características Histogram of Oriented Gradients (HOG) capaz de describir las formas incluidas en la ventana que está siendo analizada. Para ello extrae los gradientes en diferentes direcciones en la ventana especificada. Esta técnica es complementada mediante el uso de Support Vector Machine (SVM). Esta máquina es entrenada previamente con ventanas previamente etiquetadas con el resultado esperado por el sistema, lo que permite establecer una separación en el espacio vectorial para una correcta clasificación entre humanos y no humanos. En la siguiente figura se puede ver de forma gráfica:
Figura 2 a. Imagen media del gradiente sobre los datos de entrenamiento, b. Pesos de los vectores de soportel c) Pesos negativos de los vectores de soporte d)Imagen de prueba e) Resultado del descriptor HOG f) Resultado del descriptor HOG combinado con los pesos.
Para el módulo ‘Seguimiento’, con el objetivo de identificar las diferentes personas que se encuentran en el interior del establecimiento se ha seguido el algoritmo jerárquico de seguimiento basado en plantillas de apariencia.
Figura 3 Explicación gráfica del algoritmo de seguimiento jerárquico utilizado.
En la figura se puede observar que una vez se ha realizado la detección del Bounding Box correspondiente se transforma la región de la imagen correspondiente a los espacios de color HSV y CIELab. Posteriormente se define la plantilla correspondiente, dónde G y L son los dos canales seleccionados de los tres espacios vectoriales, 2DHist es el histograma generado a partir de esos dos canales y ShiftVector es un vector 2D de desplazamiento respecto a las detecciones previas. En los pasos posteriores se puede observar cómo se utiliza una ventana más pequeña (dentro del Bounding Box de la detección) para usarla como área perteneciente al foreground, e incluir sus valores en la plantilla correspondiente que define unívocamente a cada sujeto para su identificación. Esta identificación permite almacenar las trayectorias de las diferentes personas y con ello poder realizar un análisis del comportamiento de los mismos frente a la distribución del establecimiento propuesta.
Por último, para la caracterización de visitantes y optimización de Puntos de Venta (PDV) se considera que los sujetos son estáticos, puesto que su movimiento será mucho menor al del módulo anterior. Además el campo de visión es más reducido lo que permite la implementación de técnicas de análisis facial y técnicas de reconstrucción 3D que permiten efectuar una mejor gestión de oclusiones.
En la técnica de análisis facial, se procederá a la implementación de un algoritmo basado en técnicas de regresión que utilice las características biométricas de los sujetos en la escena para determinar propiedades como edad, género o etnia. Por el contrario para el método de reconstrucción 3D, se utilizará la información capturada mediante un sensor RGB-D para realizar la reconstrucción de la escena, y determinar los casos es que se necesitan más recursos humanos, o analizar los casos en los que el visitante decide finalmente no realizar la compra.
Sobre G@TV
El Grupo de Aplicación de Telecomunicaciones Visuales (G@TV) es un grupo de investigación perteneciente al Departamento de Señales, Sistemas y Radiocomunicaciones (SSR) de la Universidad Politécnica de Madrid. Las actividades docentes e investigadoras del G@TV se desarrollan en la Escuela Técnica Superior de Ingenieros de Telecomunicación. Las principales líneas de investigación llevadas a cabo por el grupo y sus miembros son: Visión artificial, procesado digital de video, tecnologías de audio y vídeo, entre otras.
Sobre LPs- Bigger
LPB- Bigger es un Proyecto CIEN que tiene como objetivo el diseño de una herramienta semiautomática para la creación de soluciones de Big Data. Está conformado por un consorcio líder en medios y tecnología como Indra, Yahoo, Havas Group, Fractalia y Taiger.
Sobre Grupo Fractalia
Fractalia es una compañía global líder en el desarrollo e implantación de soluciones tecnológicas e ingeniería de vanguardia que cuenta con más de 15 años de experiencia y una sólida presencia internacional con actividad en 12 países de todo el mundo. Nuestra actividad permite al cliente mejorar su productividad a través de la eficiencia, reducir costes a través de la tecnología y crear nuevas fuentes de ingresos a través de innovadoras soluciones tecnológicas.
Leave a Comment