Monday, November 7, 2016

Sistema De Comercio Hadoop


Bienvenido a Apachetrade Hadoopreg Qué es Apache Hadoop? El proyecto Apachetrade Hadoopreg desarrolla software de código abierto para computación distribuida, confiable, escalable. La biblioteca de software Apache Hadoop es un framework que permite el procesamiento distribuido de grandes conjuntos de datos a través de clusters de computadoras usando modelos de programación sencillos. Está diseñado para escalar desde servidores individuales a miles de máquinas, cada una ofreciendo computación y almacenamiento local. En lugar de confiar en hardware para entregar alta disponibilidad, la propia biblioteca está diseñada para detectar y manejar fallos en la capa de aplicación, por lo que ofrece un servicio altamente disponible encima de un grupo de equipos, cada uno de los cuales puede ser propenso a fallas. El proyecto incluye estos módulos: Hadoop Common. Las utilidades comunes que soportan los otros módulos de Hadoop. Sistema de archivos distribuido Hadoop (HDFStrade). Un sistema de archivos distribuido que proporciona acceso de alto rendimiento a los datos de la aplicación. Hadoop hilado Un marco para la programación de tareas y la gestión de recursos de clúster. Hadoop MapReduce. Un sistema basado en YARN para el procesamiento en paralelo de grandes conjuntos de datos. Otros proyectos relacionados con Hadoop en Apache incluyen: Ambaritrade. Una herramienta basada en web para el aprovisionamiento, gestión y monitoreo de clústeres Apache Hadoop que incluye soporte para Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig y Sqoop. Ambari también ofrece un tablero de instrumentos para ver la salud del clúster, como mapas de calor y la capacidad de ver aplicaciones MapReduce, Pig y Hive visualmente junto con características para diagnosticar sus características de rendimiento de una manera fácil de usar. Avrotrade. Un sistema de serialización de datos. Cassandratrade. Una base de datos multi-master escalable sin puntos únicos de falla. Chukwatrade. Un sistema de recopilación de datos para la gestión de grandes sistemas distribuidos. HBasetrade. Una base de datos distribuida y escalable que admite el almacenamiento estructurado de datos para tablas grandes. Hivetrade. Una infraestructura de data warehouse que proporciona resumen de datos y consultas ad hoc. Mahouttrade. Una biblioteca escalable de aprendizaje automático y de minería de datos. Pigtrade. Un lenguaje de flujo de datos de alto nivel y un marco de ejecución para el cálculo paralelo. Sparktrade. Un motor de cálculo rápido y general para los datos de Hadoop. Spark proporciona un modelo de programación simple y expresivo que soporta una amplia gama de aplicaciones, incluyendo ETL, aprendizaje automático, procesamiento de flujos y computación gráfica. Teztrade. Un marco de programación de flujo de datos generalizado, basado en Hadoop YARN, que proporciona un motor potente y flexible para ejecutar un DAG arbitrario de tareas para procesar datos tanto para casos de uso discontinuos como interactivos. Tez está siendo adoptado por Hivetrade, Pigtrade y otros marcos en el ecosistema de Hadoop, y también por otro software comercial (por ejemplo, herramientas ETL), para reemplazar a Hadooptrade MapReduce como el motor de ejecución subyacente. ZooKeepertrade. Un servicio de coordinación de alto rendimiento para aplicaciones distribuidas. Primeros pasos Para comenzar, empiece aquí: Aprenda sobre Hadoop leyendo la documentación. Descargue Hadoop desde la página de lanzamiento. Hable sobre Hadoop en la lista de correo. Descargar Hadoop Por favor diríjase a la página de lanzamientos para descargar una versión de Apache Hadoop. Quién utiliza Hadoop Una gran variedad de empresas y organizaciones utilizan Hadoop tanto para la investigación como para la producción. Se anima a los usuarios a agregarse a la página wiki de Hadoop PoweredBy. Noticias 08 Octubre, 2016: Lanzamiento 2.6.5 disponible Una liberación puntual para la línea 2.6. Consulte las Notas de la versión de Hadoop 2.6.5 para obtener la lista de las 79 correcciones críticas de errores y desde la versión anterior 2.6.4. 03 de septiembre de 2016: Versión 3.0.0-alpha1 disponible Este es el primer alfa de una serie de alfas y betas previstos que conducen a una versión 3.0.0 de GA. La intención es liberar temprano, lanzar a menudo para iterar rápidamente en la regeneración recogida de usuarios de la parte inferior. Tenga en cuenta que las versiones alfa no incluyen garantías de calidad ni estabilidad API y no están diseñadas para su uso en producción. Se recomienda a los usuarios leer el resumen de los cambios importantes que vienen en 3.0.0. El conjunto completo de notas de lanzamiento y el registro de cambios detallan todos los cambios desde la versión secundaria anterior 2.7.0. 25 de agosto de 2016: liberación 2.7.3 disponible Una liberación puntual para la línea 2.7. Consulte las Notas de la versión de Hadoop 2.7.3 para obtener la lista de 221 correcciones de errores y parches desde la versión anterior 2.7.2. 11 de febrero de 2016: liberación 2.6.4 disponible Una liberación puntual para la línea 2.6. Consulte las Notas de la versión de Hadoop 2.6.4 para obtener la lista de 46 correcciones críticas de errores y desde la versión anterior 2.6.3. 25 de enero de 2016: liberación 2.7.2 (estable) disponible Una liberación de punto para la línea 2.7. Consulte las Notas de la versión de Hadoop 2.7.2 para obtener la lista de 155 correcciones de errores y parches desde la versión anterior 2.7.1. 17 de diciembre de 2015: Liberación 2.6.3 disponible Una liberación puntual para la línea 2.6. Consulte las Notas de la versión de Hadoop 2.6.3 para ver la lista de 35 correcciones críticas de errores y desde la versión anterior 2.6.2. 28 de octubre de 2015: Liberación 2.6.2 disponible Una liberación de punto para la línea 2.6. Consulte las Notas de la versión de Hadoop 2.6.2 para la lista de 15 correcciones críticas de errores y desde la versión anterior 2.6.1. 23 de septiembre de 2015: Versión 2.6.1 disponible Una liberación puntual para la línea 2.6. Consulte las Notas de la versión de Hadoop 2.6.1 para la lista de 158 correcciones críticas de errores y desde la versión anterior 2.6.0. 06 Julio, 2015: Release 2.7.1 (estable) disponible Un punto de liberación para la línea 2.7. Esta versión ahora se considera estable. Consulte las Notas de la versión de Hadoop 2.7.1 para obtener la lista de las correcciones y parches de 131 errores desde la versión anterior 2.7.0. Consulte la sección 2.7.0 siguiente para ver la lista de mejoras permitidas por esta primera versión estable de 2.7.x. 21 de abril de 2015: versión 2.7.0 disponible Apache Hadoop 2.7.0 contiene una serie de mejoras significativas. A continuación se enumeran algunos de ellos. Notas IMPORTANTES Esta versión suprime el soporte para JDK6 runtime y sólo funciona con JDK 7. Esta versión aún no está lista para su uso en producción. Los problemas críticos se están solucionando a través de las pruebas y la adopción aguas abajo. Los usuarios de producción deben esperar una versión 2.7.1 / 2.7.2. Hadoop Common Support Almacenamiento de Windows Azure - Blob como un sistema de archivos en Hadoop. Hadoop HDFS Compatibilidad con archivos truncados Soporte para cuotas por tipo de almacenamiento Compatibilidad con archivos con bloques de longitud variable Hadoop YARN Habilita autorización YARN Almacenamiento automático compartido y global de recursos localizados YARN (beta) Hadoop MapReduce Capacidad para limitar la ejecución Map / Reduce tasks of a Job Acelerar FileOutputCommitter para trabajos muy grandes con muchos archivos de salida. Toda la información sobre este lanzamiento de hitos está disponible en Hadoop Releases. 18 de noviembre de 2014: versión 2.6.0 disponible Apache Hadoop 2.6.0 contiene una serie de mejoras significativas, tales como: Hadoop Common Key servidor de gestión (beta) Hadoop HDFS Heterogeneous Storage Tiers - Fase 2 APIs de aplicaciones para almacenamiento heterogéneo Memoria como nivel de almacenamiento (beta) Soporte para archivado Almacenamiento Datos transparentes en cifrado de reposo (beta) Operación del DataNode seguro sin necesidad de acceso root Acción Hot Swap: admite añadir / eliminar volúmenes de nodo de datos sin reiniciar el nodo de datos AES beta Para un cifrado de cable más rápido Hadoop YARN Soporte para servicios de larga duración en YARN Registro de servicio para aplicaciones Soporte para actualizaciones sucesivas Restablecimiento de recursos de ResourceManager Reinicio de preservación de contenedores de NodeManager Apoyo a reservas de recursos en Capacity Scheduler ) Caché global y compartida para artefactos de aplicación (beta) Soporte para ejecutar aplicaciones de forma nativa en contenedores Docker (alpha) La información completa sobre esta versión de hitos está disponible en Hadoop Releases. 19 de noviembre de 2014: liberación 2.5.2 disponible La información completa sobre este lanzamiento de hitos está disponible en Hadoop Releases. 12 de septiembre de 2014: versión 2.5.1 disponible La información completa sobre este lanzamiento de hitos está disponible en Hadoop Releases. 11 de agosto de 2014: versión 2.5.0 disponible Toda la información sobre este lanzamiento de hitos está disponible en Hadoop Releases. 30 de junio de 2014: versión 2.4.1 disponible La información completa sobre este lanzamiento de hitos está disponible en Hadoop Releases. 27 Junio, 2014: release 0.23.11 available Toda la información sobre este lanzamiento de hitos está disponible en Hadoop Releases. 07 de abril de 2014: versión 2.4.0 disponible Toda la información sobre esta versión de hitos está disponible en Hadoop Releases. 20 de febrero de 2014: versión 2.3.0 disponible La información completa sobre este lanzamiento de hitos está disponible en Hadoop Releases. 11 December, 2013: release 0.23.10 available Toda la información sobre este lanzamiento de hitos está disponible en Hadoop Releases. 15 de octubre de 2013: versión 2.2.0 disponible Apache Hadoop 2.x alcanza el hito de GA Información completa sobre esta versión de hito está disponible en Hadoop Releases. 25 de agosto de 2013: release 2.1.0-beta disponible Apache Hadoop 2.x llega al hito beta La información completa sobre esta versión de hitos está disponible en Hadoop Releases. 27 de diciembre de 2011: versión 1.0.0 disponible Hadoop llega a 1.0.0 Información completa sobre esta versión de hito está disponible en Hadoop Releases. Marzo 2011 - Apache Hadoop obtiene el primer premio en los premios de innovación Media Guardian Descrito por el jurado como un cuchillo suizo del siglo 21, Apache Hadoop recogió el premio innovador del año por tener el potencial para cambiar el rostro de las innovaciones de los medios de comunicación. Enero 2011 - Graduados de ZooKeeper El subproyecto de ZooKeeper de Hadoops se ha graduado para convertirse en un proyecto de alto nivel de Apache. Septiembre de 2010 - Los subproyectos Hive y Cerdo de Hive y Cerdo se han graduado para convertirse en proyectos Apache de alto nivel. Mayo 2010 - Avro y HBase Graduate Hadoops Los subproyectos Avro y HBase se han graduado para convertirse en proyectos Apache de alto nivel. Julio 2009 - Nuevos subproyectos de Hadoop Hadoop está creciendo Hadoop Core es renombrado Hadoop Common. MapReduce y el Sistema de Archivos Distribuidos Hadoop (HDFS) son ahora subproyectos separados. Avro y Chukwa son nuevos subproyectos de Hadoop. Consulte las descripciones resumidas de todos los subproyectos anteriores. Visite los sitios individuales para obtener información más detallada. Marzo 2009 - ApacheCon EU Noviembre 2008 - ApacheCon US Julio 2008 - Hadoop Gana Terabyte Sort Benchmark Hadoop Gana Terabyte Sort Benchmark. Uno de los clústeres de Yahoos Hadoop ordenó 1 terabyte de datos en 209 segundos, lo que superó el récord anterior de 297 segundos en el punto de referencia de tipo terabyte de propósito general anual (Daytona). Esta es la primera vez que un programa de Java o de código abierto ha ganado. Copyright copy 2014 La Fundación Apache Software. Apache Hadoop, Hadoop, Apache, el logotipo de la pluma Apache y el logotipo del proyecto Apache Hadoop son marcas registradas o marcas comerciales de Apache Software Foundation en los Estados Unidos y otros países. 10 de octubre de 2009 MapReduce está ganando tracción, especialmente pero por No significa sólo en la forma de Hadoop. En las secuelas de Hadoop World. Jeff Hammerbacher de Cloudera me acompañó rápidamente a través de 25 clientes que sacó de los archivos de Cloudera8217s. Los hechos y la métrica variaron extensamente, por supuesto: Algunos están en la producción pesada con Hadoop, y estrechamente con Cloudera. Otros son usuarios activos de Hadoop pero son muy secretos. Sin embargo, otros se inscribieron para el entrenamiento inicial de Hadoop la semana pasada. Algunos tienen agrupaciones Hadoop en los miles de nodos. Muchos tienen clústeres Hadoop en el rango de 50-100 nodos. Otros sólo están prototipando el uso de Hadoop. Y uno parece ser 8220OEMing8221 un pequeño grupo de Hadoop en cada pieza de equipo vendida. Muchos exportan datos de Hadoop a un DBMS relacional, muchos otros lo dejan en HDFS (Hadoop Distributed File System), p. Con Hive como el lenguaje de consulta, o en exactamente un caso Jaql. Algunos son nombres familiares, en empresas web o de otra manera. Otros parecen bastante oscuros. Las industrias incluyen servicios financieros, telecom (Asia solamente, y absolutamente nuevo), bioinformática (y otra investigación), inteligencia, y porciones de tela y / o publicidad / medios. Las áreas de aplicación mencionadas 8212 y estas superposiciones en algunos casos 8212 incluyen: Análisis de log y / o clickstream de diversos tipos Análisis de marketing Aprendizaje de máquina y / o sofisticada minería de datos Procesamiento de imágenes Procesamiento de mensajes XML Rastreo y / o procesamiento de texto Archivo general, Datos relacionales / tabulares, por ejemplo Para el cumplimiento Hemos revisado esta lista tan rápidamente que no hemos entrado en mucho detalle en ningún usuario. Pero un ejemplo que se destacó fue de una empresa de servicios de publicidad que tenía un pipeline de 8220aggregation8221 que constaba de 70-80 empleos MapReduce. También hablé ayer con Omer Trajman de Vertica, quien me sorprendió al indicar un alto número de un dígito de Vertica8217s clientes estaban en producción con Hadoop 8212, es decir, más de 10 de Vertica8217s clientes de producción. Vertica / Hadoop uso parece haber comenzado en Vertica8217s servicios financieros bastión 8212 específicamente en el comercio financiero 8212 con la web analítica y similares que viene después. (Vertica ha hecho su 100ª venta, y por supuesto no todos los compradores están en producción todavía. Basándose en los esfuerzos actuales de prototipado, Omer espera que la bioinformática sea el tercer mercado de producción de Vertica / Hadoop, con las telecomunicaciones en cuarto lugar. No sorprende que el modelo general de uso de Vertica / Hadoop parece ser: Hacer algo a los datos en Hadoop Dump en Vertica para ser consultado Lo que encontré sorprendente es que los datos a menudo no son reducidos por este análisis, sino explotados en tamaño. P. ej. Un almacén completo de datos de comercio de hipotecas podría ser de unos terabytes de tamaño, pero el post-procesamiento basado en Hadoop puede aumentar esa cantidad en 1 ó 2 órdenes de magnitud. (Analogías a la importancia y la magnitud de 8220cocinados8221 datos en el procesamiento de datos científicos vienen a la mente.) Y, por último, he hablado con Aster hace unos días sobre el uso de su nCluster / Hadoop conector. Aster caracterizó a los usuarios de Aster / Hadoop8217 El uso de Hadoop como de la variedad de lotes / ETL, que es el caso de uso clásico que se concede a Hadoop aunque se crea que MapReduce debería hacerse comúnmente en el DBMS. Suscribirse a nuestro feed completo Comentarios 9 Respuestas a 8220How 30 empresas están utilizando Hadoop8221 Vlad el 11 de octubre de 2009 3:34 am He hecho algunos cálculos basados ​​en los datos disponibles públicamente en Internet. El famoso registro de Yahoo Terasort 8211 clasificó 1 TB de datos (en realidad 10 mil millones de registros de 100 bytes) en un cluster de servidores Hadoop 3400 en 60 segundos. Voy a omitir los detalles de cálculo, pero la CPU promedio. La E / S de disco y la utilización de E / S de red durante la ejecución fueron: 1, 5-6 y 30 respectivamente. Estos no son números exactos, por supuesto, pero las estimaciones basadas en el algoritmo de clasificación utilizado, la configuración cluster8217s, la potencia de las CPUs del servidor, el rendimiento máximo de NIC (1 Gb) y la capacidad de E / S de 4 discos SATA. Por lo tanto, el cuello de botella definitivamente es red (creo que no es sólo para la clasificación, sino para muchos otros problemas). Pero parece que cualquiera de los clústeres de Yahoo es subóptimo desde el punto de vista del rendimiento máximo sostenido o Hadoop no puede saturar el enlace de 1Gb. Aceptar, vamos a imaginar que no usamos hardware de productos básicos, sino servidores más optimizados y configuraciones de red. Qué tal 2 NIC de puerto de 10 Gb por servidor y 128 8211 de puerto 10 GB cambiar. Solo uno. Al aumentar el rendimiento de la red de 30MB / s a ​​2GB / s (2 NG de puerto de 10Gb por servidor), podemos reducir el número de servidores en un clúster por factor de 70 (50 servidores) y mantener la misma ejecución de 60 segundos. Es posible ordenar 2 GB por segundo (20 millones de registros de 100 bytes) en un servidor. Claro que lo es. El cluster de Yahoo cuesta aproximadamente 7 millones. Puedo construir mi cluster por menos de 1 millón y no estamos hablando de consumo de energía y otros costos asociados. MapReduce y el hardware de la materia won8217t excepto usted dinero. No compre barato. Curt, sabes cuántos de estos clientes de V están 8220 en la nube8221 (es decir: they8217re funcionando en V AMIs en EC2) y cuántos de ésos están en ese 10 o así que usted menciona a Vlad el 11 de octubre de 2009 10:40 pmMapReduce es Fuertemente promovido, por alguna razón, por Yahoo y Facebook pero no por Google. Google (y Microsoft) han desarrollado ya la próxima generación 8220Hadoops8221 (Pregel y Dryad), pero todavía no están disponibles para el público en general y no de código abierto. Incluso la información sobre Pregel es limitada. Para mí, la situación recuerda a la Unión Soviética a mediados de los 80s. Al no ser capaces de crear sus propios supercomputadores, los soviéticos intentaron invertir la ingeniería de los estadounidenses (Cray, etc.). Usted puede reproducir lo que se ha hecho ya, pero siempre estar detrás. UPD. Dryad se puede descargar desde el sitio de MS, pero sólo para la investigación académica. RC el 12 de octubre de 2009 3:46 am La dríada es mucho mejor que la de Hadoop Si es así, cuáles son las mejoras? Vlad el 12 de octubre de 2009 3:53 pmRC De Dryad whitepaper: 8220La diferencia fundamental entre los dos sistemas (Dryad y MapReduce) es que Una aplicación Dryad puede especificar un DAG de comunicación arbitrario en lugar de requerir una secuencia de operaciones de mapa / distribución / ordenación / reducción. En particular, los vértices de los gráficos pueden consumir múltiples entradas, y generar salidas múltiples, de diferentes tipos. Para muchas aplicaciones esto simplifica el mapeo desde el algoritmo hasta la implementación, nos permite construir una mayor biblioteca de subrutinas básicas y, junto con la capacidad de explotar las tuberías TCP y la memoria compartida para los bordes de datos, puede aportar ganancias de rendimiento sustanciales. Al mismo tiempo, nuestra implementación es lo suficientemente general como para soportar todas las características descritas en el documento de MapReduce.8221 Andrew S el 19 de octubre de 2009 7:54 pmVlad, la diferencia es que los soviéticos no tenían código abierto detrás de ellos. Un patrón más común en la historia reciente ha sido: 1. Solución de software propietario sale 2. Una buena solución de código abierto con capacidades similares sale más tarde. 3. La solución de código abierto gana grandes patrocinadores, desarrolladores de primer nivel, empresas tecnológicas de vanguardia, académicos líderes 4. Solución de código abierto eclipsa la solución propietaria en el uso debido a la fácil disponibilidad y documentación 5. Solución propietaria muere porque resulta rentable cambiar a abierto Fuente solución. Hadoop está en algún lugar en (3) y parcialmente en (4). 8230 Nada de esto es incompatible con las encuestas anteriores de los casos de uso de Hadoop. 8230 8230 ser el director gerente de Bank of Americas para grandes datos y análisis. Hace un año, Vertica indicó que aproximadamente el 10 por ciento de sus clientes estaban en producción con Hadoop una tendencia encabezada por sus clientes de servicios financieros. En la 8230 Buscar en nuestros blogs y documentos oficiales Monash Blogs de investigación DBMS 2 cubre la gestión de bases de datos, análisis y tecnologías relacionadas. Text Technologies cubre minería de texto, búsqueda y software social. La mensajería estratégica analiza la estrategia de marketing y mensajería. El Informe Monash examina cuestiones relacionadas con la tecnología y las políticas públicas. Memorias de software cuenta la historia de la industria del software. Consultoría de usuarios Construyendo una lista corta Refinando su plan estratégico Podemos ayudar. Asesoramiento de vendedores Le contamos a los vendedores lo que está sucediendo - y, lo que es más importante, lo que deben hacer al respecto. Monash Research highlightsModern Financial Services Architectures Construido con Hadoop Este es el séptimo de nuestra serie sobre arquitecturas modernas de datos a través de verticales de la industria. Otros de la serie son: Arquitectura moderna de la salud Construido con Hadoop Moderno Fabricación de arquitecturas Construido con Hadoop Moderno Telecom Arquitecturas construido con Hadoop Moderno minorista arquitecturas Construido con Hadoop Moderno arquitecturas de publicidad Construido con Hadoop Moderno aceite de gas y gas arquitecturas Construido con Hadoop Cualquier empresa de servicios financieros se preocupa Minimizando el riesgo y maximizando las oportunidades. Los bancos sopesan el riesgo de abrir cuentas frente a la oportunidad de mantener depósitos. Las compañías de seguros equilibran el riesgo de pagar reclamaciones con la oportunidad de tomar las primas. Las compañías de inversión persiguen una apreciación de la cartera a largo plazo sabiendo que algunos valores perderán valor. El riesgo regulatorio está presente en todos estos negocios y siempre hay riesgo interno. Algunos individuos pícaros pueden causar pérdidas extraordinarias si sus actividades maliciosas pasan desapercibidas. Los bancos, compañías de seguros y empresas de valores que almacenan y procesan enormes cantidades de datos en Apache Hadoop tienen una mejor visión de sus riesgos y oportunidades. Un análisis más profundo y una mejor comprensión pueden mejorar los márgenes operativos y protegerse contra eventos únicos que podrían causar pérdidas catastróficas. El siguiente diagrama de arquitectura de referencia representa una combinación de enfoques que nuestros clientes financieros adoptan en sus negocios bancarios, de seguros y de inversión. Aquí hay algunos casos de uso que describen formas específicas en las que las compañías de servicios financieros utilizan Apache Hadoop para ganar más dinero para los clientes y accionistas. Pantalla de nuevas aplicaciones de cuenta para el riesgo de incumplimiento Todos los días, los grandes bancos minoristas tomar miles de solicitudes de nuevas cuentas de cheques y ahorros. Los banqueros que aceptan estas aplicaciones consultan los servicios de puntuación de riesgo de terceros antes de abrir una cuenta. Pueden (y no) anular las recomendaciones de no abrir para los solicitantes con historiales bancarios deficientes. Muchas de estas cuentas de alto riesgo se sobretraen y cargan debido a mala administración o fraude, lo que cuesta a los bancos millones de dólares en pérdidas (y parte de este costo se transmite a los clientes que gestionan responsablemente sus cuentas). Apache Hadoop puede almacenar y analizar múltiples flujos de datos y ayudar a los administradores de bancos regionales a controlar el riesgo de nuevas cuentas en sus sucursales. Pueden emparejar las decisiones de los banqueros con la información de riesgo presentada en el momento de la decisión. Esto les permite controlar el riesgo sancionando a los individuos, actualizando las políticas e identificando patrones de fraude. Con el tiempo, los datos acumulados informan algoritmos que pueden detectar patrones de comportamiento sutiles y de alto riesgo que no son vistos por los analistas de riesgo de los bancos. Monetizar datos bancarios anónimos en mercados secundarios Los bancos poseen enormes cantidades de datos operacionales, transaccionales y de balance que contienen información sobre las tendencias macroeconómicas. Esta información puede ser valiosa para los inversores y los encargados de formular políticas fuera de los bancos, pero las regulaciones y las políticas internas exigen que estos usos protejan estrictamente el anonimato de los clientes bancarios. Los bancos minoristas han recurrido a Apache Hadoop como un lago de datos común entre empresas para datos de diferentes LOBs: hipoteca, banca de consumo, crédito personal, mayorista y banca de tesorería. Tanto los gerentes internos como los consumidores del mercado secundario derivan el valor de los datos. Un único punto de administración de datos permite al banco operacionalizar las medidas de seguridad y privacidad como la desidentificación, la enmascaramiento, el cifrado y la autenticación del usuario. Mejorar la eficiencia de suscripción para el seguro de auto basado en el uso Los tradicionales intentos de auto-seguro para diferenciar y recompensar a los conductores seguros por su historial histórico de conducción de los accidentes y las infracciones de tráfico que han ocurrido (o no). El nuevo seguro basado en el uso (también llamado Pay as You Drive, o PAYD) intenta alinear las primas con el riesgo empírico, basado en cómo manejan los asegurados. Los conductores más seguros pagan menos, porque la compañía de seguros realmente sabe cómo conducir. Debido a que los asegurados saben esto, el seguro PAYD promueve un ciclo virtuoso que mejora la seguridad general y reduce el riesgo moral entre los conductores que toman más riesgos en la carretera porque saben que están cubiertos. Los avances en las tecnologías de GPS y telemetría han reducido el costo de captura de los datos de conducción utilizados para el precio de las políticas PAYD, pero la transmisión de datos de los vehículos crece muy rápidamente, y debe almacenarse para su análisis. Una importante aseguradora estaba almacenando sus datos PAYD en una plataforma RDBMS, pero los costos de almacenamiento eran demasiado altos, por lo que la compañía sólo retenía 25 de los datos disponibles. El procesamiento de ese subconjunto de datos tomó una semana de trabajo. Después de adoptar HDP, la compañía retiene a 100 de los asegurados PAYD geo-localización de datos y procesos que se cuadruplicaron el flujo de datos en tres días o menos. Más datos. Procesamiento más rápido. Hadoop. Analizar las reclamaciones de seguros con datos compartidos El cliente de Lake One Hortonworks es un asegurador mundial de propiedades y accidentes que ya contaba con sistemas para analizar datos estructurados a escala. Las notas de siniestros menos estructuradas o el análisis de los medios de comunicación social se utilizó sobre una base de reclamación por demanda, pero no se escaló fácilmente. La combinación de todos los datos textuales o sociales con todos los datos estructurados no era económicamente viable. Apache Hadoop cambió eso. Es un esquema en el sistema de lectura que permite ingerir una gama mucho más amplia de tipos de datos. Los charcos de datos que antes estaban dispersos ahora están unidos en un lago de datos, para obtener una imagen mucho más clara y holística del riesgo real. Este profundo depósito de datos todavía puede analizarse utilizando las herramientas existentes de inteligencia empresarial y las habilidades de los empleados, gracias a la estrecha integración entre HDP y los socios de Hortonworks SAS. Tableau y QlikView. Mantener los SLAs secundarios con una planta de Ticker de Hadoop Las plantas de Ticker recogen y procesan flujos de datos masivos, exhibiendo los precios para los comerciantes y alimentando los sistemas de negociación computarizados lo suficientemente rápido para capturar las oportunidades en segundos. Esto es útil para tomar decisiones en tiempo real, y años de datos históricos del mercado también se pueden almacenar para el análisis a largo plazo de las tendencias del mercado. Un cliente de Hortonworks reinstaló su planta de ticker con HDP como piedra angular. Antes de Hadoop, la planta de ticker no pudo retener más de diez años de datos comerciales. Ahora cada día gigabytes de flujo de datos de miles de servidores de registro de feeds. Estos datos se consultan más de treinta mil veces por segundo y Apache HBase permite consultas super rápidas que cumplen con los objetivos SLA de los clientes. Todo esto, y también un horizonte de retención extendido más de diez años. Vigilancia de los registros de comercio para el análisis contra el blanqueo de dinero Otro cliente de Hortonworks que proporciona servicios de inversión procesa quince millones de transacciones y trescientas mil operaciones diarias. Debido a las limitaciones de almacenamiento, la compañía utilizó para archivar los datos comerciales históricos, lo que limitó la disponibilidad de los datos. En el corto plazo, cada día los datos de negociación no estaban disponibles para el análisis de riesgo hasta después del cierre de los negocios. Esto creó una ventana de tiempo con una exposición inaceptable al riesgo de lavado de dinero o comercio de pícaros. Ahora, la plataforma de datos de Hortonworks acelera la velocidad de las empresas a la analítica y también amplía su línea de tiempo de retención de datos. Un repositorio de datos compartido a través de múltiples LOB proporciona más visibilidad en todas las actividades comerciales. El grupo de riesgo comercial accede a este lago de datos compartidos para procesar más datos de posición, ejecución y balance. Pueden hacer este análisis sobre los datos de la jornada de trabajo actual, y está disponible durante al menos cinco años más que antes. Vea nuestro blog en las próximas semanas para arquitecturas de referencia en otras verticales de la industria. Categorías:

No comments:

Post a Comment