产品展示
中欧体育,云计算和大数据基础知识
中欧体育,中欧体育,*1:100.云计算(一)大数据(BigData)1.定义:海量数据或巨量数据,其规模巨大到无法用当前主流的计算机系统在合理时间内获取、存储、管理、处理并提取以帮助使用者决策。2.特点:1)数据量大(Volume)-----PB级以上2)快速(Velocity)-----数据增长快3)多样(Variety)-----数据来源及格式多样4)价值密度低(Value)-----从大量、多样数据中提取价值的体系结构5)复杂度(Complexity)-----对数据处理和分析的难度大3.大数据与云计算的关系:从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。(二)云计算(CloudComputing)1.定义:1)云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。//分布式计算2)云计算是通过网络按需提供可动态伸缩的廉价计算服务。2.特点:1)超大规模2)虚拟化3)高可靠性4)通用性5)高可伸缩性6)按需服务7)极其廉价3.服务类型分类:1)SaaS(软件即服务::SoftwareasaService)//针对性更强,它将某些特定应用软件功能封装成服务如:SalesforceonlineCRM2)PaaS(平台即服务:PlatformasaService)//对资源的抽象层次更进一步,提供用户应用程序运行环境如:GoogleAppEngine,MicrosoftWindowsAzure3)IaaS(基础设施作为服务:InfrastructureasaService)//将硬件设备等基础资源封装成服务供用户使用,如:AmazonEC2/S34.云计算的实现机制(体系结构)1)SOA(面向服务的体系结构):它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来。使得其服务能以一种统一的、通用的方式进行交互。SOA可以看作是B/S模型、XML/WebService技术之后的自然延伸。2)管理中间件:(关键部分)3)资源池层:将大量相同类型的资源构成同构或接近同构的资源池。4)物理资源层:计算机、存储器、网络设施、数据库和软件等5.云计算与网格计算1)网格是基于SOA、使用互操作、按需集成等技术,将分散在不同地理位置的资源虚拟化为一个整体。2)关系类似于TCP/IP协议之于OSI模型6.云计算与物联网1)物联网有全面感知,可靠传递、智能处理三个特征。云计算提供对智能处理所需要的海量信息的分析和处理支持。2)云计算架构与互联网之上,而物联网依赖于互联网来提供有效延伸。因而,云计算模式是物理网的后端支撑关键。*1.1:1.Google云计算原理(一)文件系统GFS1)系统架构2)实现机制:①节点分类:Client----
Master----
ChunkServer②Master负责管理。Client与Master之间只有控制流,而没有数据流【数据流与控制流分离】③Client可以同时访问多个ChunkServer。【高度的I/O并行】3)特点①采用中心服务器【Master掌握ChunkServer情况,方便实现负载均衡】②不缓存数据③在用户态下实现4)容错机制①Master容错:a.对应ChunkServer留有备份②ChunkServer容错:a.多个副本备份(3个)b.GFS每个文件被分为多个Chunk(64MB)c.Chunk分为Block(64kb),每个Block对应一个32bit校验和(二)分布式计算编程模型MapReduce1)编程模型①划分为M个Map,每一个Map针对不同的原始数据,互相独立、并行操作。②Reduce操作则是对每个Map产生的中间结果进行合并。每个Reduce 所处理 的最终结果互不交叉,通过简单相连即可形成完整的结果集。 PS: Map: (in key, in value ) ---
N 个 Map Reduce: ( key(value1,value2,... ) ) ---
对相同的 Key 对应的 value 进行 并行处理 // 统计单词出现次数,每个 Map 统计一部分文本,Reduce 进 行合并。 2) 实现机制 3) 容错机制 ① Master 失效: 周期性地设置检查点,一旦任务失效,则从最近一个检查点重 新执行 ② Worker 失效: Master 周期性地 ping Worker , Worker 不答复即失效,任务调 度分配给其他Worker (三)分布式锁服务 Chubby 1) 作用: Chubby 是 Google 设计的提供粗粒度锁服务的一个文件系统,它基于松耦 合分布式系统,解决了分布的一致性问题 2) Paxos 算法 ① proposers (提议) ---
② acceptors (接收并做出选择) ----
③ leaner (决策) // 条件? 3) 实现 (四) 分布式结构化数据表 BigTable 1) 作用 ① 基于GFS 和Chubby 的分布式存储系统。 //类似数据库,存储了Google 海量数据 ,用户通过 Key 查询 2)数据模型 行、列、时间戳 : (row:string, column:string, time:int64)→string //依次对应于三级索引 3)系统架构 Chubby 保证同一时间内只有一个主服务器(Master Server) 4)主服务器 ①新子表分配 ②子表服务器状态监测 ③子服务器之间的负载均衡 5)子表服务器 ① BigTable 中的实际数据以子表的形式保存在子表服务器上中欧体育,。 子表服务器数据存 储格式: SSTable 。 (SSTable 文件存储于 GFS 中) ② 较新的数据存储于 内存表(写操作) && 较早的数据存储在 SSTable 中(读操作)。 (五) 分布式存储系统 Megastore 1)一种介于传统的关系型数据库和NoSQL 之间的存储技术,尽可能达到高可用性和高 可扩展性的统一 2)底层数据存储于 BigTable // 应 用 于Google 旧时的系统, 目前新技术为 Spanner (六) 分布式监控系统 Dapper 1)Google 基于故障驱动 而设计的分布式系统的监控基础架构。 *核心技术: ①最关键的代码基础是基本RPC、线程和控制流函数库的实现 ②主要功能是实现区间创建、抽样和在本地磁盘上记录日志。 ③将复杂的功能实现限制在一个轻量级的核心功能库中保证了Dapper 的 监控过程基本对应用层透明中欧体育,。 * 二次抽样技术 * 1.2: 2. Amazon 云计算 * 1.3: 100. 桌面云 (一)云计算(Cloud Computing) 1)是一种互联网上的 资源利用新方式,可为大众用户依托互联网上异构、自治的服务 进行 按需即取的计算 , 云计算的资源是动态易扩展而且虚拟化的,通过互联网提供。 (二)云桌面 1)基本定义: 云桌面是云计算时代的典型应用: 基于分布式云计算存储技术, 集成互联网精华应用,依托高度加密算法, 为接入用户提供服务。 2) 价值体现: ①信息安全(数据存储在云平台) ②维护、部署方便(云管理软件) ③节能、节约(只需提供终端) 3) 建设方案: ①在企业内部集中部署服务器、磁阵,建设好云平台的IT 环境, 安装相关的云桌面软件,和企业需要的办公软件。 ②在员工办公桌上,部署云终端+显示器+键盘+鼠标,插上网线连上 云桌面即可实现正常的办公。 4)Citrix : ① 简介: Citrix 即美国思杰公司,是一家致力于云计算虚拟化、 虚拟桌面和远程接入技术领域的高科技企业 (三)桌面云 1)桌面云: 可以通过 瘦客户端 或者其他任何与网络相连的设备来 访问跨平