Plataforma para la gestión inteligente de fuentes de datos Big Data basada en tecnología Oracle.
Abstract
Con el crecimiento de las fuentes de datos en Velocidad, Volumen y Variedad, impulsadas por el auge de las redes sociales y el Internet de las cosas, que han dado lugar al mundo del Big Data, se ha creado la necesidad en las empresas de aprovechar toda esta cantidad de datos, analizándola e interpretándola para obtener ventajas competitivas como conocer mejor a su público o tomar mejores decisiones de negocio integrándola en sus procesos de BI.
Para cubrir dicha necesidad, se ha desarrollado una arquitectura híbrida Hadoop-Oracle. Por una parte aprovecha la escalabilidad y bajo coste de los clústeres Hadoop para procesar cantidades masivas de datos, por otra la alta disponibilidad y potencia de los sistemas RDMS Oracle con Oracle R Enterprise incorporado para realizar análisis avanzado de datos.
Tal arquitectura, puede integrar fuentes de datos Big Data en sus procesos de BI, además de extender el proceso de ETL (Extraction, Transform & Load) tradicional con dos nuevas fases: Análisis y Visualización, en lo que se ha dado en llamar ETLAV. Estas dos nuevas fases se desarrollan ambas en el mismo lenguaje, minimizando el tiempo de desarrollo y reduciendo riesgos.
Se usará ETLAV empleando como fuente de datos Big Data las redes sociales, para inferir mediante aprendizaje no supervisado, los temas de interés de sus usuarios. También empleará aprendizaje supervisado para realizar predicciones sobre otras fuentes de datos heterogéneas y finalmente presentará los resultados de forma interactiva a través de una interfaz web.