Lectura extra 3er parcial.
1
ANALÍTICA DE DATOS (BIG DATA ANALYTICS)
El tratamiento y análisis de grandes volúmenes de datos requiere de una gran potencia
analítica. El análisis de Big Data debe ayudar a tomar mejores decisiones y evaluar las
medidas que se han de tomar del modo más eficiente y rentable posible. En este capítulo, y
en los dos siguientes, se estudiará el análisis de datos en sentido general y el análisis de Big
Data, analítica Web, analítica móvil y analítica social como pilares del proceso de análisis de
Big Data, integrando todo tipo de datos, no estructurados y semiestructurados con los datos
estructurados tradicionales.
2
UNA VISIÓN GLOBAL DE LA ANALÍTICA DE BIG DATA
El análisis de Big Data es el proceso de examinar, a una gran velocidad, grandes volúmenes
de datos de una amplia variedad de tipos y de gran valor (el modelo de las 4V) para descubrir
patrones ocultos, correlaciones desconocidas y otra información útil, de modo que los
resultados del análisis puedan proporcionar ventajas competitivas a las organizaciones en
relación con la competencia y producir beneficios para el negocio, tales como un marketing
(mercadotecnia) más efectivo y eficaz, y mayores ingresos.Los grandes retos a los que se enfrentan las organizaciones es la necesidad de integrar las
nuevas infraestructuras de Big Data con las infraestructuras de datos existentes, y tal vez
más complicado, la contratación de profesionales con experiencia en analítica de Big Data,
como analistas y científicos de datos.
3
UNA VISIÓN GLOBAL DE LA ANALÍTICA DE BIG DATA
Así entonces, el tratamiento de los grandes volúmenes de datos requiere de las siguientes etapas: Adquisición. Los datos procederán de fuentes de datos tradicionales (almacenes de datos de empresa EDW, bases de datos relacionales y archivos con datos transaccionales), y de una gran cantidad de fuentes de datos no estructurados que se podrán almacenar en de bases de datos NoSQL y “en memoria”. Organización de la información. Preparar y tratar la información para así obtener de ella los mejores resultados posibles, y sobre los cuales se puedan aplicar lo más eficientemente posible las técnicas de analítica avanzada. Análisis. Analizar toda la información con acceso a todos los datos con herramientas estadísticas avanzadas como puede ser la minería social y de opinión, o aplicar técnicas desarrolladas con el lenguaje de programación específico para el diseño de estadística avanzada. Desde un punto de vista global, sería conveniente que el proveedor de analítica pudiera ofrecer herramientas de quering y reporting, minería de datos, visualización de datos, modelado predictivo y optimización Decisión. Tomar decisiones en tiempo real o lo más rápido posible de modo que pueda afectar positivamente en los negocios de la empresa. Esta etapa se encuentra indisolublemente unida a la etapa de análisis, de hecho muchos vendedores ofrecen estas herramientas integradas con las de decisión (este es el caso de Oracle). La decisión se ha de realizar en tiempo real sobre la base de los resultados obtenidos en el análisis, de modo que se conviertan los datos en crudo en conocimiento accionable para integrarlo en los tableros de control (dashboards), cuadros de mando (balanced scorecards), y herramientas de visualización; y así, predecir el comportamiento de un producto o servicio a los consumidores.
4
¿QUÉ ES ANALÍTICA DE DATOS?
Analítica de datos se considera también a la ciencia de examinar datos en bruto (crudos)
con el propósito de obtener conclusiones acerca de la información contenida en ellos. Se
utiliza en muchas industrias para permitir a organizaciones y empresas mejoras en la toma
de decisiones. Este término se utiliza con gran profusión en el campo de la inteligencia de
negocios (business intelligence), y según los fabricantes de herramientas de software puede
abarcar una gran variedad de términos: OLAP, CRM, dashboard (tableros de control),
etcétera.
5
¿QUÉ ES ANALÍTICA DE DATOS?
La analítica de datos (data analytics) “implica los procesos y actividades diseñados para
obtener y evaluar datos para extraer información útil”. Los resultados de la AD (DA) se pueden
utilizar para: identificar áreas clave de riesgos, fraudes, errores o mal uso; mejorar los
procesos de negocios; verificar la efectividad de los procesos e influir en las decisiones del
negocio. Existen muchos temas para considerar cuando arranca un nuevo programa de AD,
incluyendo la maximización del retorno de inversión (ROI), cumplimiento de presupuesto de
proyectos, gestión de falsos resultados, aseguramiento de la protección, y confidencialidad de
las fuentes de datos y resultados.
Existe una gran variedad de herramientas de software que se utilizan en analítica de datos
y métodos utilizados. Las técnicas más utilizadas son: consultas e informes (quering y
reporting), visualización, minería de datos, análisis de datos predictivos, lógica difusa,
optimización, streaming de audio, video o fotografía, etcétera.
Analítica de datos se considera también a la ciencia de examinar datos en bruto (crudos)
con el propósito de obtener conclusiones acerca de la información contenida en ellos. Se
utiliza en muchas industrias para permitir a organizaciones y empresas mejoras en la toma
de decisiones. Este término se utiliza con gran profusión en el campo de la inteligencia de
negocios (business intelligence), y según los fabricantes de herramientas de software puede
abarcar una gran variedad de términos: OLAP, CRM, dashboard (tableros de control),
etcétera.
6
¿QUÉ ES ANALÍTICA DE DATOS?
En la era de los grandes volúmenes, podemos considerar cinco grandes categorías en
análisis de datos: Analítica de datos (analytics) en organizaciones y empresas que analizan datos
tradicionales: transaccionales y operacionales. Analítica Web o analítica del tráfico de datos en un sitio Web. Analítica social o análisis de datos de los medios sociales (blogs, wikis, redes
sociales, RSS…). Analítica móvil en dispositivos móviles con el objeto de analizar los datos que
envían, reciben o transitan dichos dispositivos. Analítica de Big Data o analítica de los grandes volúmenes de datos.
7
TIPOS DE DATOS DE BIG DATA
DATOS ESTRUCTURADOS
Los datos estructurados siguen manteniendo la hegemonía sobre los restantes tipos, pese al
rápido crecimiento de los no estructurados y semiestructurados. La mayoría de los datos
manipulados, actualmente, mediante plataformas analíticas caen hoy bajo la categoría de
datos estructurados. Principalmente son tablas y otras estructuras de datos de bases de
datos relacionales, además de registros de muchas aplicaciones y archivos planos. DATOS SEMIESTRUCTURADOS
Los datos semiestructurados son todos aquellos con formatos tipo XML y estándares
similares. También agruparemos en esta categoría, a aquellos tipos más complejos,
provenientes de fuentes jerárquicas o antiguas (heredadas, legacy). DATOS NO ESTRUCTURADOS
Datos provenientes de las actividades humanas, tales como datos de texto (documentos,
correos electrónicos, faxes…). DATOS EN TIEMPO REAL
Hoy día existen una enorme cantidad de datos que proceden de las tecnologías más típicas
existentes, y que producen grandes volúmenes de datos tales como datos espaciales, de
sistemas de información geográfica, de geolocalización, generados por máquinas (M2M o
Internet de las cosas) como chips móviles (NFC, RFID…), sensores, robots, códigos QR,
antenas, sistemas de medios de comunicación, datos de acontecimientos o eventos,
etcétera.
La analítica de Big Data (Big Data analytics) es el uso de técnicas analíticas aplicadas a
conjuntos de grandes volúmenes de datos. Por consiguiente, analítica de Big Data es
realmente dos cosas: analítica y Big Data. La primera ayuda a descubrir aquellos datos que
han cambiado en el negocio para saber cómo reaccionar; los grandes datos deben ayudar a
convertir en oportunidades los retos producidos por el crecimiento espectacular de los Big
Data. La analítica es el mejor medio para descubrir nuevos segmentos de clientes, identificar
a los mejores proveedores, asociar productos por afinidad, entender las ventas por la
estacionalidad, etcétera.
Analítica de Big Data es el proceso de examinar grandes cantidades de datos de una
variedad de tipos para descubrir patrones ocultos, correlaciones desconocidas y otra
información útil. Dicha información puede proporcionar ventajas competitivas sobre
organizaciones rivales y brindar beneficios en los negocios tales como un marketing más
eficiente y un aumento de los ingresos
9
TECNOLOGÍAS, HERRAMIENTAS Y TENDENCIAS EN ANALÍTICA DE BIG DATA
La lista incluye herramientas recientes (nubes, privadas, MapReduce, procesamiento de
eventos complejos…), herramientas tradicionales en analítica de negocios, pero que han
adquirido gran notoriedad por la presencia de los grandes datos (visualización de datos y
analítica predictiva), y otras herramientas clásicas (análisis estadísticas o herramientas SQL).
La lista de las opciones de analítica de grandes datos es la respuesta a las preguntas
planteadas, en una encuesta realizada a CIO y directivos de TI, publicada en el artículo de
Teradata: “¿Qué tipos de técnicas y herramientas está utilizando su empresa para analítica
avanzada y Big Data, tanto hoy día como en los próximos tres años?”. En la estadística
publicada, se observa el uso de todo tipo de herramientas tradicionales de analítica
(visualización de datos, informes en tiempo real, tableros de control (dashboards), analítica
predictiva, minería de datos, minería de textos junto con herramientas de analítica de datos en organizaciones grandes datos: bases de datos in-memory (“en memoria”), nubes privadas, Hadoop, analítica
online, bases de datos no indexadas o NoSQL, motores de almacenamiento orientados a
columnas, nubes públicas, software como servicio, etcétera.
10
PROVEEDORES DE ANALÍTICA DE BIG DATA (DISTRIBUCIONES COMERCIALES)
Cloudera
Esta herramienta, una de las más demandadas; centra su línea de negocio comercializando
software de fuente abierta (open source) basada en Apache Hadoop. El personal de TI
demanda un número de características y servicios de los que Hadoop carece. Cloudera
Enterprise está diseñada específicamente para mejorar la gestión de los despliegues de
Hadoop Cloudera, proporcionando soporte técnico, actualizaciones (upgrades), herramientas
administrativas, servicios profesionales, formación y certificación. Facilita la escalabilidad de
Big Data y la flexibilidad a través de una amplia gama de tipos de datos. EMC Greenplum
EMC Corporation es el proveedor líder mundial de plataformas de almacenamiento de datos y
otras soluciones de infraestructuras de información. En 2010, EMC adquirió una herramienta
Greenplum que era ya entonces una herramienta de analítica de Big Data. Los clientes de
Greenplum son algunas de las grandes empresas del mundo, que despliegan sus
herramientas para productos en la nube o en plataformas grids para grandes volúmenes de
datos. Google BigQuery
Google lanzó a mediados del 2012, la herramienta Google BigQuery3
, que posibilita el
análisis de los Big Data en la nube y la obtención de datos de negocios en tiempo real. Google
BigQuery publica en su página Web que permite tomar ventajas de la potencia de cómputo
masivo de Google, almacenar tantos datos como sea necesario, pagando solo aquellos que
se utilizan; también Google señala, en sus páginas, que los datos del cliente están protegidos
con múltiples capas de seguridad, replicados en múltiples centros de datos, y pueden ser
exportados fácilmente
11
PROVEEDORES DE ANALÍTICA DE BIG DATA (DISTRIBUCIONES COMERCIALES)
HP Vertica
Es una base de datos basada en almacenamiento por columnas (columnar), que entrega
compresión de datos para un almacenamiento eficaz, y una rápida consulta en aplicaciones
de analítica. Soporta procesamiento masivamente paralelo (capítulo 8) en hardware básico
(hardware commodity). HP Vertica corre en procesadores de Intel x86. La escalabilidad MPP
ayuda a muchas aplicaciones a ser más eficaces, tales como en comercio electrónico,
mercadotecnia digital, y puede llegar hasta órdenes de petabytes. AOL, Twitter y Groupon son
clientes de Vertica.IBM
IBM es uno de los distribuidores con mejor oferta de productos de software y también de
hardware en el campo de la analítica de negocios y optimización (BAO, Business Analytics and
Optimization)
5
. En 2010, IBM adquirió Netezza, uno de los productos clave en aplicaciones de
data warehouse, y que definió en su día la plataforma de bases de datos de la analítica
moderna. En 2011, lanzó IBM InfoSphere BigInsights, una solución basada en Hadoop que
combina la potencia de Hadoop con el código abierto de IBM para direccionar requisitos de
empresas. Sus características incluyen analítica de textos, descubrimiento de datos estilo
hoja de cálculo, herramientas de exploración y administrativas, y alto grado de seguridad. Kognitio
Kognitio es un proveedor de soluciones de Big Data que ofrece una plataforma analítica de
bases de datos que se puede desplegar de tres formas distintas:
1. Como licencia únicamente de software (software-only).
2. Como una aplicación de data warehouse ejecutándose sobre un hardware
estándar de la industria.
3. Como un servicio basado en la nube, económico y adaptable, con su solución de
datawarehousing como un servicio (DaaS).
Kognitio ha desarrollado muchas innovaciones en el área de analítica de grandes datos “en
memoria”, configuración de aplicaciones de data warehouse, arquitecturas de procesamiento
paralelo masivo (MPP), bases de datos de alta disponibilidad, software como servicio (SaaS).
También es muy conocida Kognitio, por su potencia de proceso de codificación SQL aplicada
a analítica de descubrimiento con Big Data.
12
PROVEEDORES DE ANALÍTICA DE BIG DATA (DISTRIBUCIONES COMERCIALES)
Microsoft
HDInsight es una solución de Microsoft compatible cien por ciento con Apache Hadoop, y
disponible tanto en Windows Service como en el servicio Windows Azure. A primeros de enero de 2013, Microsoft presentó la solución Big Data & Analytics, definida por Microsoft como un
completo ecosistema para la toma de decisiones en su organización. Permite el uso de
cualquier dato, de cualquier tamaño, o el acceso y generación de todo tipo de información,
donde quiera que se encuentre el usuario. Oracle tiene también una herramienta de analítica de Big Data de gran potencia y
competitividad en el mercado actual de grandes datos. La herramienta más completa es
Oracle Exalytics In-Memory Machine, herramienta de ingeniería hardware/software integrada
que ofrece un software de analítica in-memory junto con un hardware de analítica in-memory,
ambos integrados en una suite (paquete de software integrado) para soluciones de
inteligencia de negocios.Sybase
Sybase fue adquirida por SAP y, en la actualidad, se integra en la unidad de negocio Sybase
IQ, también, se oferta de modo autónomo. Sybase fue el primer sistema de gestión de bases
de datos con almacenamiento basado en columnas (columnar) y sus características
específicas se han ido integrando en las herramientas de SAP antes comentadas, facilitando
la gestión del análisis de datos con el método de bases de datos columnares.
13
PROVEEDORES DE ANALÍTICA DE BIG DATA (DISTRIBUCIONES COMERCIALES)
ParAccel
ParAccel Analytic Database (PADB) es una plataforma de bases de datos analítica de
procesamiento paralelo masivo (MPP) y columnar (por columnas) con características muy
potentes para optimización y compilación de consultas, compresión e interconexión de redes.
PADB es desplegable en entornos empresariales incluso en otros entornos operativos
estándares como cloud computing y virtualización.
SAND Technology
La plataforma SAND Analytic es una plataforma analítica de bases de datos columnar que
consigue escalabilidad lineal de datos a través de procesamiento masivamente paralelo
(MPP). SAND soporta miles de usuarios concurrentes con cargas de trabajo mezcladas,
optimización infinita de consultas, analítica “en memoria”, búsqueda de texto completa. La
plataforma SAND se centra fundamentalmente en tareas de analítica compleja, incluyendo
tareas de marketing de clientes y analítica financiera.
SAP
SAP, uno de los primeros fabricantes mundiales de software empresarial de inteligencia de
negocios/almacenes de datos data warehouses (BI/DW), y altamente especializado en
soluciones ERP (planificación de recursos empresariales), dio un giro radical en sus líneas de
negocio, manteniendo sus soluciones empresariales tradicionales. Lanzó SAP In-memory
Appliance (conocido como SAP HANA, High-Performance Analytic Appliance).SAS
SAS es otro de los grandes proveedores mundiales de analítica predictiva que incluye gestión
de datos, herramientas de visualización de datos y soluciones de negocio pre-empaquetadas.
Ofrece numerosas herramientas de analítica de Big Data, además de sus herramientas
clásicas de analítica.
SAS High Performance Analytics está diseñada específicamente para soportar iniciativas de
Big Data, incluyendo bases de datos “en memoria” (in-memory, in-database) y soporte de
computación grid. SAS, en el día de la presentación de su herramienta, planteó el caso de
una tienda minorista de los Estados Unidos, a la que le llevaba 30 horas calcular más de 270
millones de precios de tiendas específicas cada semana, y con la solución de SAP
implementada, el tiempo se acortó a dos horas.
14
PROVEEDORES DE ANALÍTICA DE BIG DATA (DISTRIBUCIONES COMERCIALES)
Tableau Software
Tableau es una herramienta muy centrada en características de visualización que puede
soportar analítica de descubrimiento y exploratorio. La empresa considera que como
característica fundamental de un modo fácil y rápido que posibilita el acceso a una base de
datos, identificación de estructuras de datos de interés y poder llevar los Big Data a la
memoria de un servidor para tareas de análisis o de reporting.
Teradata
Teradata es una de las empresas pioneras especializadas en data warehouse empresariales
(EDW) con buenas características de escalabilidad y rápidos desempeños. Teradata Database
facilita el soporte concurrente de cargas de trabajo mixtos, realización de informes OLAP,
analítica avanzada y análisis de flujos de datos en tiempo real.
15
TECNOLOGÍAS DE CÓDIGO ABIERTO DE BIG DATA
La prestigiosa revista CIO en su edición digital del 8 de junio de 20127
, publicó su lista de
tecnologías de fuente abierta para Big Data. CIO considera que las tecnologías de fuente
abierta son el núcleo de la mayoría de las iniciativas de Big Data. Estas tecnologías, algunas
ya analizadas anteriormente, son: 1. Hadoop (Apache Hadoop) 2. R 3. Cascading 4. Scribe 5. ElasticSearch 6. Apache HBase 7. Cassandra 8. MongoDB 9. CouchDB
El buen uso o el correcto uso de toda la información que todos los proveedores nos pueden proporcionar nos ayudará en las decisiones que necesitemos tomar, con los datos y su correcta interpretación ya sea con gráficos o imágenes todo es más fácil de interpretar que si solo vemos números.
|