纸箱厂家
免费服务热线

Free service

hotline

010-00000000
纸箱厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

RonaldoAma虚拟环境中大数据需要安全优化

发布时间:2019-10-11 18:19:46 阅读: 来源:纸箱厂家


VMware研发副总裁Ronaldo Ama

和讯科技消息 2012年11月30日至12月1日,Hadoop与大数据技术大会在北京新云南皇冠假日酒店举行。本次会议由中国计算机协会(CCF)主办,CCF大数据专家委员会协办,CSDN承办。大会以“大数据共享与开放技术”为主题,着眼于Hadoop生态系统优化管理与数据分析与挖掘,深度聚焦大数据共享平台与实践与应用。VMware研发副总裁Ronaldo Ama发表主题演讲。

Ronaldo Ama表示,大数据在虚拟环境中,最重要的是安全的优化,要运行各种不同的运行,但这并不意味着我们有一些私有的信息,当然我们还要遵守信息的隐秘性。

以下为演讲实录:

Ronaldo Ama:你好!非常感谢邀请我来参加这个会议。

今天大数据和云结合在一起了,而且是非常合理的一个结合。首先黄色的小象已经见到了几次了,现在这个时代不管问什么问题一般都是关于大数据的时候,大家都会说用Hadoop来解决吧,因为毕竟今天是Hadoop的会议,实际上Hadoop能解决大家所有的问题,所以我看到来自于英特尔的同事们都做了发言,而且在他的图片上都用了一个黄色的大象,实际上我也有同样的感觉。但我觉得对接下来要考虑什么要谈什么得考虑一下。从大数据的角度来看,看到在最左边ETL的旁边有很多的数据,包括企业数据或者是政府部门等,这些数据都被用来运营业务。除此之外在最左上边可以看到各种各样的数据,包括社交媒体、流媒体、传感器搜集来的数据,每次大家路过一个视频的时候都会看到,比如说一个车路过摄像头的时候都有数据产生,所以这两种数据都会搜集到,这些数据要存储起来,要么以一种结构的方式,要么是非结构的数据的形式,这样的存储一般的情况下都得到了比较好的管理,有一些架构来进行管理的,这也是为什么我要谈把这个架构叫做云机构。接下来我会给大家介绍一下为什么把它叫做云架构。大家有自己的电脑和一些存储,当然还有一些计算的能够或者是内存或者是硬盘存储和网络。我们把所有的电脑放到一起,尤其是在一个典型的大数据的群集里面,你需要考虑所有的矢量,把所有矢量的资源放在一起需要有一个架构,一般情况下我们谈到VMware和云的时候,就像有很多的数据。

Hadoop的数据是非常重要的一点。一般来说有三种方法来应对处理和存储,一种方法是实时的分析工具,同时还有一些数据的操作性的工作。也就是说得到了什么到底怎么做?同时还需要进行对数据的操作,这需要处理多种不同的数据得到一个结果,这就是Hadoop在早期的时候超越其他工具的地方。而且我们必须要处理数据,用这个数据来在培训过程中引用到,或者引用来进行一些可视化,帮助来使用一些。可能在大数据的时代我们确实有这个机会来把一些工作的负担和一些传统的数据处理从传感器这方面进行转换,不仅仅只是在实时地互动的方式来处理,我们必须进行可视化的工作,这就是我们工作的背景。我们要谈的数据和在这里要谈的问题。

我现在更多地谈一下这个问题,我们看到有基础设施的层面还有云的基础设施,中间的这层叫数据层,我们在这里有很多的分布式的文件的系统还有很多的大数据存在在里面,而且还会有一些彼此缠绕在一起的数据,而且还有计算机层。在左侧可以有实时处理数据的能力。这些都是Hadoop、英特尔等范围以内的。基础结构方面可以有多个不同的部分,包括本地的和一些共享的存储的能力。还有一些分布式的管理的系统。所以我们可以看到这里有多个不同的管理。如果我们来看一下,这种实时的虚拟的基础设施的架构首先可以看到有人谈到了美国的应用我们对数据库进行了安装,我们可以看到有很多不同的集群建立起来了,它是遍布整个的公司和组织的。有时候可以用,有时候并不是可以充分地利用。所以它们需要更多的空间,因为他们要存储更多的数据,也是因为数据计算的能力在增加。所以资源并没有完全地用到,因此虚拟的架构是非常重要的。

因此在右侧可以看到,不仅仅是进行了简化,而且把基础和架构进行了优化,所以我们在这里有一个单一的性能环境可能是运行的是NPP的运营或者是Hadoop的集群或者是其他的集群,而且它还能够将存储和计算的能力独立进行。其中一个集群运行得比其他的更长更热,就可以进行应用,这是云的基础架构能够,特别是在私有的运行情况下可以运行得更好。而且我们可以看到在某一个APP的环境Hadoop是一个独立的集群,也许它管理起来并不是那么容易,虽然效率并不是很高,但它是独立运行的,把它放在一起可以看到是单一数据的分享。但是如果彼此在一起运行的话是做得很好的,首先如果我做的是很复杂的计算我不希望有人进入我只是希望有人做这个动作,控制这个过程,避免产生一些噪音和杂音,如果问一个问题可能后面的人要等很久,而且要看到英特尔的朋友谈到了2.2等等很好的一些版本,但也还在运行,第一个版本和第二个版本而且是在同一个地方运行,这样要用到不同的集群,这样要把整个的虚拟化应用起来可以帮助我们解决很好的问题。

最重要的是安全的优化,要运行各种不同的运行,但这并不意味着我们有一些私有的信息,当然我们还要遵守信息的隐秘性,如果客户有要求的话。如果我们在虚拟的系统中可能也有这样的问题,所以这也是在虚拟环境中解决的问题,这样的一些元素和问题包括了其可视化,这是可以帮助我们解决的,但确实也需要从资源的分享中获得更好的益处。而且我们也看到了很多的数据,把它放到了云的计算中,比如说基础设施可能是同一个基础架构对资源进行分享。但在分享存储这方面可以看到有一些大数据都可以有一些优势,但问题并不是完全需要这样的。资源的分享、存储的分享确实是可以的,你可以用SAN or NAS进行分享,你可以对集群进行评论的工作,还可以帮助你不断地改善虚拟的架构。但是,并不是完全地需要这么做,还可以用本地的存储,可以用本地的磁盘。

对Hadoop来说它可以给你更多的可扩展的带宽,所以有很重要的选项。最重要的是把资源进行简化,并不把它对某种方式进行锁定才能进行这种工作。

在这个行程中我们也看到了一些合作的人,如何对他们进行可视化,所以我们确实非常相信计算中有很多大数据的应用。第一,能够运行简化,可以帮助我们做很好的准备。也可以帮助我们很好地进行生命周期的管理,如果是一个生命周期的管理可以很好地对其进行管理,而且可以很好地确定把一个集群进行整合,而且需要进行一些重新配置,所以并不一定是有虚拟的需求,它们都是虚拟的。因此这是一个集合资源的过程,运行起来更简单。而且它的可运行性、可用性很高。这样的话可以运行一些基础设施进行优化,而且我们可以看到在技术这方面虚拟技术可以帮助你达到很高的容忍度,而且并不需要人类的处理。放在潜在的平台中,所以能够用到这样的系统。用现有的Hadoop的版本把它放在其他的版本之上,我并不需要对它进行改变,只需要对潜在的架构进行运行就可以了。这也是很高的可是度的优势。另外计算中很重要的概念是,一个多功能性。

在中国的新年期间我们会做更多的工作,而且可以同时做更多的工作,不一定是我在用还有其他的人在用,可以很弹性地把能力进行收缩或者是增大。而且我们可以通过现有的数据知道这里有很多VMDisk,可以把资源集成在云资源中,而且可以把Hadoop的能力运行多个集群,这种能力是非常重要的一个因素,也是为什么我们这么多的投资于Hadoop的开发之中的原因。再谈一些经验,我们用了典型的Hadoop的25节点的集群,有20个磁盘,这在一个Hadoop的集群中是很典型的应用,它是非常经典的Hadoop的应用。我们还测量了有多长的时间,我们运行了这样的一些系统,而且进行了测试。这样一个虚拟的点。我们在同样的系统中消耗同样的资源来运行的。

可能它要超过一点,那么看一下它有不同的特点,例如说它是虚拟的,好像是24个机器,但实际上可能会有48个是同样的配置吗?我们再对它进行测试,它没有改变任何的东西为什么会这样?为什么会得到的结果更好呢?但发生的事情是对资源的安排,有时候会把情况变得更好,更好的简化和可视化。它没有改变任何一行Hadoop的代码,这是第一个需要看到的问题。

有的人说可视化会带来很大的影响,不知道大家有没有这种意识,但他花了30年的时间加入到其他的公司,所以他在英特尔的时候是46line芯片的主要的设计者,他也负责引用了很多芯片中的制造帮助我们进一步可视化。人们当然是非常喜欢的,这是一个非常好的例子。但我也会说,这不仅仅是软件,但到底发生了什么样的情况呢?很有意思的是,如果用的是一个传统的典型的工作量,也就是70%的工作量能产生10个软件上的量,所以这就是很大的数据了。有时候这并不一定是必要的数据,但存储起来是很复杂是会消耗资源的,所以我们也做了非常明确的实验,在这里用共同的存储分享,我们把所有的暂时的文件放在本地的磁盘中,之后在输出这方面放在了分享磁盘上,所以极大地增加了工作的效率,同时也可以很好的支持可扩展的带宽,同时也可以把你的成本控制在一个很合理的水平上,使你的股东可以接受,所以你并不一定选择一个,但可以从这方面获益帮助提高运行的效率。

而且我们还开发了其他方面的项。比如说这是一个攀援的项目这是今年推出的,我们也为他们进行了三四轮的更新,而且在2013年会有新的版本,在这里可以把你最喜欢的一些Hadoop的应用方面上面,我们也欢迎其他的合作伙伴把他们Hadoop的应用进行认证放在我们这方面,这有很多的资源,中各种各样的资源,这样你就能在开源的系统上创造出100个工作,10分钟就可以作出很好的工作。而且可以对它进行配置和优化,你所做的就是提供了一个自动的自我服务,它是独立的,独立于现有的、具体的Hadoop的分布,但又很具有价值,是在一个虚拟的架构下,所以这就是我对于大数据部分的重要的投资,我也欢迎大家能更多地关注这个项目。我们看到这些产品已经有一些客户,而且已经获得了商业上的支持。但是在Hadoop这方面可以在我们的网站上获得更多的信息。但这两个白皮书是要我给大家更多地介绍一下的。但是在这下面可以看到更多的联系。

在这里我想跟大家说,大数据很好,可以带来很多的价值。谢谢大家!

相关阅读