华为大数据介绍-江苏

更新时间:2023-05-08 16:14:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

可信、敏捷、智慧的大数据云服务华为Cloud BU

目录

华为大数据云服务介绍华为大数据整体介绍12案例3

大数据是华为ICT 战略的重要支柱

Source: Huawei corporate presentation 华为公司战略地图华为大数据研发全球配置?全球8个研究所,保持千人+的规模投入?拥有PMC/Committer 、IEEE Fellow 等世界级数据挖掘和人工智能专家

?大数据专利190+Professional Service Big Data Analytics Platform Data Center Infrastructure

Core Network IP+Optical

FBB Enterprise

Network MBB

Things (M2M Module)People

(Smart Device)Enterprise Apps SDP BSS/OSS 3rd

Partners

Content & App 3rd ISVs 西安/北京研究所:Hadoop 产品化大数据算法Elk/MPP DB

深圳研发基地/香港:大数据洞察平台数据挖掘算法印度研究所:Hadoop 数据可视化MOLAP 美研所:Spark MPP DB/Elk 大数据系统加速欧研所:分布式技术杭州究所:Hadoop&Spark 流计算大数据算法加研所:Yarn/大规模调度硬件加速金融大数据分析俄研所:算法

?敏捷-行业最优化

-强大的SQL 能力,业务移植便捷-丰富的工具支持,开发运维高效-完善的云服务,无缝迁移

?智慧-场景最优化

-全量建模,深刻洞察-自研算法,高效精准-汇聚最优AI 云服务

?可信-企业级的质量和体验

-全组件HA 、异地容灾、金融等保-开放共赢,可信赖的合作伙伴-企业级的大数据云服务

大数据平台&云服务架构:分层解耦开放

数据集成Porter

Sqoop 批量采集HDFS 分布式文件系统

Hbase

NoSQL 数据库

Spark 一站式分析框架

Elk

标准SQL 引擎

Storm/Flink 流处理框架

YARN 资源管理

Weaver 图分析引擎数据洞察

Miner

Miner Studio 挖掘平台

RTD 实时决策引擎

数据智慧Farmer

Farmer Base 推理框架

LibrA MPPDB

ZooKeeper

协作服务

CarbonData 新型文件格式

Flume

实时采集

Oozie 作业调度

Kafka

消息队列

FtpOnHDFS

文件传输

管理平台

Manager

数据处理HD

大数据云服务

电信行业金融行业电力行业平安城市

租户管理配置管理

故障管理

性能管理

安全管理… …

华为云大数据&AI 云服务

DIS 服务数据集成服务

CDM 服务,…..

MRS 服务数据处理服务

CloudTable 服务,…..

Stream 服务实时计算服务

RTD 服务,…..

DWS 服务数据分析服务

UQuery 服务,…..

MLS 服务机器学习服务

搜索服务,…..

图像标签服务人工智能服务

NLP 服务,…..

车联网

FusionInsight 套件

会使用Hadoop 会定位周

边问题

会定位内核级问题

(拔尖的个人)

定位内核级问题的

团队(依赖团队而

不是精英个人)

能够独立完成支

撑关键业务特性

的内核级开发

能够带领社区,引领

社区完成面向未来的

内核级特性开发

能够创建新的社区

顶级项目,并且得

到生态系统认可

Apache开源社区生态系统

组件多,代码量大

组件更新块

特性无有效整合强大的Hadoop内核团队支持的开发与产品交付能力,电信级运营支撑能力

Apache

CarbonData

回馈社区:业界第一阵营

拥有核心项目PMC和committer

Hadoop Core/HBase: 7 PMC+Committer

Spark+Carbondata: 8 PMC+Committer

华为大数据市场地位-中国区第一

华为大数据成功实践-行业标杆企业的共同选择

60%

中国TOP 10+金融企业

25%

全球TOP 50+电信运营商

30%

中国平安城市建设

Database&Data Warehouse

Data Integration

BI&Analytics

华为大数据成功实践-生态集成

华为大数据成功实践-ISV

公共安全交通

政务

电信

电力/石油金融综合

星火电子

华为云上大数据全球部署规划

华为大数据技术栈:开放(100%兼容社区API )、企业级

Infrastructure –Huawei and industry standard x86 servers

Open source (slight Huawei enhancements)

HDFS / HBase

Open source (Deep Huawei enhancements)

Huawei developed / proprietary

Distributed Storage

Yarn / Zookeeper

Distributed Computing Framework

DSL

MapReduce Spark Storm Superior Scheduler

Sqoop Kafka

FTP

Data Integration

Batch Processing Elk

Interactive Query

MPP DB

Hive

Solr

Search

HiGraph

Machine Learning

MLlib

Streaming

Spark Streaming

Event Stream Processing CQL

On-line Query CTBase

Phoenix

Huawei O&M Tools,IDE, Integrated Console

Authorization Authentication

Kerberos OS Auth

ORC File RC File Parquet CarbonData

SQL on Hadoop

多租户

异构环境

企业级能力Huawei Confidential

Spark SQL Cloud (Private, Hybrid and Public)

简化开发

Flume

Oozie

Redis

Flink

SparkSQL:兼容、稳定、高性能

SQL兼容性

SQL语句0修改通过所有99 个TPC-DS 用例!

同时支持数据更新

?SQL兼容性–SQL 2003 标准, 0修改通过所有99 个TPC-DS 用例

?数据更新和删除–使用CarbonData文件格式的时候, SparkSQL支持数据插入、更新和删除.稳定和高性能的大规模Spark

进行100TB 规模的99 TPC-DS 长稳测试

?内存优化–解决内存泄漏, 去中心化广播, Spark 堆内存优化

?通讯优化–RPC 增强, shuffle fetch 优化, shuffle网络配置

?调度优化–GetSplits(), AddPendingTask() acceleration(), DAG序列化重用

?极限压力测试–7x24 压力测试, HA 测试

?运维增强–日志安全审核,DAG UI优化

某合作伙伴测试,FI SparkStream 比CDH快3倍

OLAP 类型(多维分析)CarbonData: 单一文件格式满足不同类型访问随机访问(小范围扫描)

顺序访问

(大范围扫描) 随机访问(小范围扫描): 7.9 to 688倍

OLAP /交互查询:20 to 33倍顺序访问(大范围扫描):1.4 to 6倍Apache CarbonData-融合数仓的数据格式

可视化的多级租户管理,与企业组织结构相匹配,简化系统资源分配与管理◆与企业组织结构相匹配的多级的租户模型,不同部门对应不同的租户,按需动态增删租户◆

一站式管理租户资源管理:计算资源(CPU/内存/IO )、存储资源(HDFS )、服务资源(HBase…)◆

基于linux cgroup 容器机制的租户资源隔离,为租户SLA 保驾护航◆租户资源使用情况实时监控一站式租户管理

多层级租户管理

公司租户公司部门A Yarn Queue(CPU/内存/IO)计算资源

HDFS (存储空间/文件综述)存储资源

HBase……

服务资源部门B 子部门B_1子部门B_2部门B 租户

子部门B_2租户

子部门B_1租户部门A 租户与企业组织结构相匹配的多级租户管理

关键价值点:●利用3点融合能力丰富在线应用查询能力?数据融合:(半)结构化数据与非结构化数据融合存储?表融合:多个关联业务表融合成聚簇表结构?索引融合:HBase 二级索引、全文索引、位图索引

提升在线应用接入大数据平台的易用性?

友好的融合数据访问API ?降低90%应用层二次开发代码量●提升在线应用系统可用性典型应用场景:?实时征信?

历史数据在线查询?技侦人员档案实时查询?票据/影像文件存储/查询?实时过车信息查询?

用户画像标签存储/查询?…………JDBC DSL

Data Manipulation API

HBase

Coprocessor Solr Filter Plungins Secondary Index Bitmap Index Schema Manager

Table Def Column Def Index Def Fulltext Index

Luna API

HDFS HFS Blob HFile(Normal)

HFile(mob)Bitmap Checkpoint CTBase: 在线主题应用SDK ,减少90%应用开发代码

CTBase: Tagram 标签位图表

Tagram 出现的背景:1.用户画像领域的标签数据,通常可枚举值较少(Low Cardinality),关于这类数据的存储与查询缺乏一个专业的系统。2.

基于Solr/ElasticSearch 来存储标签数据的方案,读写性能得不到保障,即使基于Cache 技术来提升读取的性能,当有实时数据写入时,Cache 容易失效从而导致读取性能急剧恶化。Tagram 方案介绍:基于位图索引及数据分片技术,实现了标签数据的分布式存储与查询,任意标签组合条件查询可在ms 级别响应,并且能够很好的支持标签数据的实时与批量更新。Condition GENDER:Male AND MARRIAGE:Married AND AGE:25-30 AND BLOOD_TYPE:A AND CAROWNER Tagram Client

查询执行标签组合条件查询语法树查询优化器查询计划TagZone 101111010010...011001011110...

101001011010...101111011010...101010011010...&&

&&查询执行标签组合条件查询语法树查询优化器查询计划TagZone

001111010010...

111001011110...

001101011010...

101001011010...

000010011010...&&&&101111010010101...

每一个位代表某一个用户是否拥有这个标签每一个标签值都关联一个位于内存中的Bitmap

可视化集群管理,运维便捷Step2:配置集群拓扑

Step3:配置集群参数

自动完成安装配置

可视化集群管理,一切尽在掌握

向导式/一键式集群安装部署和扩容,简单快速◆

服务组件配置项可视化◆

全面的系统监控与告警管理,服务状态、节点状态(CPU 、内存、硬盘、网络等)一目了然,◆SNMP/FTP/SYSLOG 标准接口与企业已有管理系统无缝对接集群节点状态集群服务状态HBase RS 状态

图形化的健康巡检工具

工具定位

●FusionInsight Tool是为技术支持工程师和维护工程师提供的一套健康检查工具,能够检查集群相关节点、服务的健康状态,提前发现集群中潜在的问题,并生成

健康检查报告。方便技术支持工程师和维护工程师快速了解系统的健康状况。

基本原理

●FusionInsight Tool由两部分组成:FusionCare和SysChecker。

●FusionCare提供巡检界面可视化、环境管理、任务管理、报告管理功能。

●SysChecker提供对FusionInsight的巡检功能。

适用场景

可信产品:全面的产品安全性

系统安全数据安全

认证安全

完全开源

组件增强

操作系统安全加固用户组件

权限控制

用户权限

认证管理

数据完整

性校验

组件数据

加密

安全活动

DCP/TR 检查点

IPD

安全活动融入决策检查点,合同和技术评审/其他评审或检查点

安全需求安全设计安全开发安全测试安全交付和维护

●安全需求分析●安全威胁分析

安全架构/特性设计●

开源及第三方软件选型

●代码安全检视●

代码安全扫描报告

●安全测试方案和用例●

安全测试报告(包括开源软件)●

安全补丁

(含开源软件及第三方软件)

软件外包(安全需求传递,设计评审,代码安全审查,安全测试验收)

配置管理(代码,文档,研发工具,开源软件)

安全基线、规范、标准、指导书

Concept

TR1

Plan

TR2

TR3

Development

TR4

TR4A

TR5

Qualify

TR6

Launch

GA

Lifecycle

Charter

CDCP

PDCP

ADCP

可信开发流程:安全活动贯穿IPD 开发流程

21目录华为大数据云服务华为大数据整体介绍12

案例

3

本文来源:https://www.bwwdw.com/article/t1ve.html

Top