首页 > 技术 > 雾计算

迭代算法大数据丨大数据流式计算原理

人阅读 2023-05-12 01:11:59

【迭代算法大数据丨大数据流式计算原理】lot物联网小编为你整理了的相关内容,希望能为你解答。

一、定义

FogComputing 是一种分布式计算模型,由虚拟化、异构、商品计算和存储资源组成,用于托管应用程序、分析、内容和服务,可以访问客户端所在的广域网边缘的延迟,同时还具有与云计算资源的后端连接。

二、背景

自从计算机可以通过网络连接以来,计算范例在网络中经历了周期性的阶段,即在网络内部计算的各个阶段。在20世纪70年代以前,最初的大型机是大型中央分时机,由多个用户通过远程终端访问,但是在1980年代的个人计算机(PC)预示着为个人信息进行本地处理的时代已经到来。局域网(LAN)、Internet和万维网(WWW)的发展在20世纪90年代带来了客户端-服务器模型,其中许多客户可以访问驻留在单个服务器上的内容,尽管大多数工作处理仍然是在PC上完成。2000年的Web服务和电子商务导致了云计算的发展,计算再次向集中的数据中心倾斜,但是使用服务器而不是由PC使用的单个服务器托管服务。这十年中的一个互补现象就是点对点(P2P)系统,其中分布式在互联网上的PC将协同工作共享内容,以解决因特网的带宽限制。云计算和P2P都标志着大数据时代的到来,在大数据时代,收集大型企业、科学和网络数据集以及媒体内容的能力强调能够大规模的共享和处理。

2010年也出现了类似的周期性转变,但由于多项技术的进步,这种转变的速度加快了。从托管数千台虚拟机的更集中的云计算模型开始,我们看到了普及的带宽互联网和蜂窝网络通信的推出,以及智能手机作为云计算支持的通用计算平台的快速增长。物联网(IoT)是另一种范例,通过这些其他技术的融合实现。连接到互联网的传感器和受限设备正在被部署到垂直互联网领域,如使用可穿戴设备的个人健身,使用计量基础设施的智能公用事业,甚至是自动驾驶汽车。智能手机和物联网都标志着边缘计算(或移动云计算)的到来。在这里,数以十亿的无处不在的设备出现在广域网(WAN)的边缘,也就是Internet.并且主机应用程序可以在本地运行,或者作为轻量级客户端,向云服务器发布数据或者使用云服务中的内容。

Satyanarayanan等人认识到了仅限边缘或仅限云模型的局限性,他们引入了Cloudlets(Cloudlet是一种移动性增强的小型云数据中心,位于Internet的边缘)的概念。与云数据中心相比,这些资源丰富的服务器可以托管VM,同时在网络拓扑上也更接近边缘设备。它们旨在克服边缘平台上可用的有限资源,同时减少为交互式应用程序连接到云中所消耗的网络延迟。Fog计算概括(并普及)了cloudlets的概念。

“Fog Computing”一词是由Cisco公司创造的,最早出现在2011年国际计算机体系结构研讨会(ISCA)上,思科系统副总裁兼研究院Flavio Bonomi的一次演讲中,作为网络边缘网络优化计算的一部分。这进一步将云计算的概念扩展到网络边缘,以支持移动和物联网领域的低延迟和地理分布式应用。此后,雾计算已经发展成为一个概念,涵盖了位于网络拓扑上的边缘设备和云数据中心之间的各种资源,具有边缘设备和商品集群之间的容量,并且可以作为智能网关或专业的计算基础设施进行管理。

Fog Computing 和广域分布式系统相关,许多客户端位于互联网的边缘。这些客户端可以是移动设备或消费设备(如智能手机、智能手表、虚拟VR设备),也可以是物联网的一部分(如智能电表、交通摄像头、信号、无人驾驶汽车),用于机器对机器(M2M)的交互。

对于应用程序和分析来说,目前有两种计算模型,它们使用来自Internet边缘客户端的数据,或者为这些客户端生成内容和控件。如图所示。以云为中心的模型中,也称为云计算,来自这些客户端的数据被发送到一个中央数据中心,在那里进行处理,如果有响应,则被发送回相同或者不同的客户端。在以边缘为中心的模型或边缘计算中,部分(甚至全部)处理都是在数据源上完成的,其余是在部分云中完成。

这些都有其相对优势。云计算将计算基础设施架构外包给供应商,这些供应商提供弹性访问,按需提供无限的计算资源,这些资源可以按分组来租用。由于集中地区的规模经济,它们也更便宜。边缘计算利用现有捕获设备的计算能力并减少网络传输,这两者都降低了成本。在更接近边缘的地方,还可以增强信任和上下连接。

虽然雾计算仍处于成熟期,但由于这两种常用计算方法存在差距,雾计算的兴起是不可避免的。从边缘客户端到云数据中心的网络延迟非常高,并且是可变的,根据客户端到数据中心的位置,平均延迟在20-250ms之间。类似地,边缘和云之间的网络带宽平均约为800-1200KB/S。这两种情况都意味着,由于边缘和云之间的往返时间,使用以云为中心的模型,延迟敏感或带宽密集型应用程序将提供较差的性能。另一个因素是设备与互联网之间的连接。移动设备可能会定期脱离网络覆盖,导致以云为中心的应用程序降级或功能松散。

边缘计算在避免网络时间问题的同时,也会受到电池、计算、和内容存储容量有限的设备的限制。这降低了应用程序的性能,并限制了持续的进程可能耗尽电池。这些设备也可能不够稳定,其网络连接的可用性较低。

三、特性

雾计算是一种不断发展的计算模型。因此,基于研究界和行业的不同观点,其感知特征是广泛的。人们普遍认为雾计算的一个明确特征是它与边缘的网络距离较小,但存在多种网络拓扑结构,如图2所示。一些模型认为存在一个扁平的雾层,例如,距边缘设备一跳,并允许与云连接。每个雾计算设备可能负责连接到它的一组边缘设备。该责任区可以基于逻辑分组或者是空间区域。另一些人则考虑分层方法,其中雾设备分层,其中每一层都远离边缘设备,并负责位于其子树中的雾/边缘设备,云形成根。另外,还有一些网格设计,其中雾资源可以相互通信,也可以和云通信,每个边缘设备都给分配一个单个的雾节点。这种变化不能区分边缘设备和雾设备,他们中任何一个都可以互相通信,或者和云通信。这接近以边缘为中心或者是P2P模型。雾中的资源容量可以是动态变化的。一方面,拥有1GHz处理器、1GB RAM和100 Mbps以太网的Raspberry Pi设备可以用作低端边缘设备的网关Fog资源。另一方面,Fog资源可以配置为“微米”或“纳米”数据中心,并提供服务器集群甚至加速器,单独的雾也可以具有异构性。

雾资源往往比边缘资源更可靠和可用,但是由于资源池较大,缺乏云中可靠地故障转移机制。这使得它们非常适合作为短期和中期数据和服务的持久化层。雾资源本身可以部署在固定环境中(如咖啡厅、机场、手机信号塔)或移动平台中(如火车、出租车等)。这可能会影响雾与云的网络连接,如果雾使用蜂窝网络接入互联网,甚至会影响其能源足迹。Fog部署模型仍在不断涌现。在这些资源根据最终的用途不同都可以部署到公共或专有网络中。智能城市的部署可以让城市网络内的公用服务机构来使用,而零售商店和交通服务可以让客户来使用。例如,蜂窝网路供应商,城市甚至云计算提供商按需提供更广泛的公共服务部署,将使其在可访问性方面与云计算媲美。这些对运营成本也有影响。

雾资源可以作为服务提供,类似云资源 。这些可能是虚拟化的或非虚拟化的基础架构,其中容器提供了基于管理管理程序的VM的有用替代方案,这些VM可能对于低端雾计算资源而言过于沉重。然而,目前仍然缺乏一个通用的平台,编程模型刚刚兴起。大多数使用Fog的应用程序都是自定义设计的,在边缘计算和雾计算和云计算上调度应用程序方面只有一些理论工作。

四、大数据的作用

部署和使用雾计算的关键原因之一在网络边缘生成大数据。物联网的部署加速了这一进程。传统的Web客户端只使用来自WWW的服务和内容,而内容分发网络(CDN)的发展则为这些服务提供了低延迟。来自物联网传感器的数据正在被推送到云的客户端生成数据。在这种情况下,雾计算被描述成一个逆CDN。大量的物联网数据来自分布广泛的传感器观测流或时间序列数据。这些数据流的速率不同-智能电表每15分钟一次,其次是智能电网中相量测量单位(PMU)通过健身手表检测心率到50Hz每秒,传感器的数量在城市规模的部署中可以达到数百万个。这些是高速数据流,对延迟敏感,需要在线分析和决策,以提供健康警报或管理电网行为。在这,雾计算可以帮助将决策制定靠近边缘的位置,以减少延迟。

另一类海量数据来自交通和监控摄像头的视频流,用于公共安全、智能交通管理甚至是无人驾驶汽车。这里讲数据从边缘移动到云端所消耗的带宽可能是巨大的,因为高清相机变得便宜了,但网络容量的增长却没有跟上。需要支持的应用程序可以跨越实时视频分析扩展到只记录镜头以供未来使用。雾计算可以减少核心Internet中消耗的带宽,并限制数据向本地网络的移动。此外,它还可以提供更高的计算资源和加速器来部署复杂的分析。

此外,来自检测物联网结构本身健康状况的遥测数据可能会形成一个大型语料库。与此相关的是描述在分布式设备上进行的源和处理的起源,这对于确定数据的质量和准确性可能是必不可少的。Fog还可以帮助收集和管理这些辅助数据流。

数据存档是此类应用程序中的另一个关键需求。除了在线分析之外,原始或预处理的观测数据可能要需要中期或长期的持久保存,用于机器学习训练(ML)算法模型,进行审计以证明自动化决策的合理性,或者基于外部因素进行随需应变分析。

根据持久性的持续时间,数据可以在雾中进行短暂缓存,也可以在非高峰时间移动到云中以形成带宽使用。

最后,描述生态系统中实体的元数据对于来自不同领域的信息整合至关重要。它们可以是静态的或缓慢变化的数据,甚至可以是构造的复杂知识或语义图。它们可能需要与实时数据结合以支持决策。Fog层可以在更接近边缘的分布式资源之间复制和维护该功能。

云和集群的大数据平台取得了快速发展,Spark、Storm、Flink、HBase、Pregel和TensorFlow等框架帮助存储和处理大量数据、速度和半结构化数据。云还将这些平台作为服务提供。然而,目前缺乏编程模型、平台和中间件来支持网络边缘的大数据所需的各种处理模式,这些模式可以有效地利用边缘、雾和云资源。

五、应用实例

驱动雾计算部署和需求的应用程序是多种多样的。但是有些需求是重复出现的:低延迟处理、高容量数据、高计算和存储需求、隐私和安全性以及稳定性。这些涵盖了虚拟现实和增强现实(VR/AR)应用和游戏,工业物联网和战场支持的军事。下面重点介绍了一些新兴的和影响力很大的应用程序。

5.1智慧城市

智慧城市是雾计算的一个关键驱动因素,目前已经开始部署。巴塞罗那市的“街边橱窗”提供雾资源,作为城市基础设备的一部分。在这里,音频和环境传感器,视频摄像机和店里设备监视器与计算资源和网络回程容量一起打包,作为沿街道放置的雾柜的一部分。这些设备有助于汇总来自传感器的数据,进行基本的分析还可以为公众提供WiFi热点。例如,雾中的音频有助于识别噪音,然后触发监控摄像头捕捉一段视频进行进一步分析。其他城市也在进行类似的情况。这些将支持城市和应用程序开发人员在电力和供水设施、智能交通、公共安全等方面的各种智慧城市应用。

城市规模的雾基础设备的主要驱动因素之一可能是视频监控,这种监控已经开始在城市中普及。当与深度神经网络(DNN)的最新进展相结合时,这样的城市甚至是众包的视频源就形成了元传感器。

5.2医疗

可穿戴设备不仅在个人健康方面发挥着重要的作用,在医疗保健领域也扮演着辅助技术的角色。项目研究了如何使用这种现场设备来检测患者跌倒时并需要外部帮助的情况。其他人使用眼镜摄像头和平视显示器(HUDs),根据视觉分析,为患有记忆丧失的阿尔茨海默症患者提供语言和认知提示。从脑电图耳机检测的脑信号的预测分析已被用于实时精神状态检测。然后将这些用于缓解可能影响患者精神状态的外部条件和刺激。

所有这些应用程序都需要对可穿戴设备收集的观察数据进行低延迟和可靠的分析。考虑到这些设备需要很轻的重量,计算通常是外包给智能手机或充当雾计算的服务器,并将观测数据传递给这些服务器进行计算。为了平衡设备的能耗,还需要决定可穿戴设备上应该计算什么,以及应该与雾进行哪些通信。

5.3移动设备

无人驾驶汽车和无人机是新兴的应用领域,雾计算在其中发挥着关键作用。这两种平台都具有许多机载传感器和用于自主移动的实时分析。车载网络允许联网车辆之间彼此通信(V2V),协作共享信息,对交通和道路状况做出决策。这些可以扩展为共享计算容量用来执行这些分析。允许停放或缓慢移动的车辆在相邻车辆之间形成雾资源。这些可能补充偶尔与云连接的路边单元。在这里,形成雾的实体可以动态变化,并且需要分布式资源协调。

无人机正被用于资产监控,例如检查远程地区的天然气管道和输电塔。在这,移动基站有一个数据控制绳,其中有一组无人机,遵循预先设定好的路径来收集观测数据。无人机的计算能力有限,无法提高其耐久性,需要优先考虑自主导航。然而,当感兴趣的情况出现时,他们可以利用本地的容量,附近可用无人机的资源,或者基站地中的雾资源,同时旅行也在进行中。这有助于帮助是否需要额外的飞越。

六.研究方向

雾计算在本质上仍处于探索阶段。虽然它最近引起了研究人员的注意,但是还有很多课题需要进一步研究。

6.1雾架构

很多拟议的雾架构设计并没有看到大规模部署,只是一些貌似合理的建议。尽管城市有100台Fog设备即将上线,但它们的运行经验将为未来的设计提供信息。随着城域网(MAN)内的流量管理变得越来越重要,网络管理很可能成为一个关键的技术挑战。与静态雾资源不同,车辆雾等移动或特设资源将对资源的发现、获取和协调带来挑战。资源变动需要通过智能调度来处理。

跟踪和管理边缘、雾和云的内容将是一项关键挑战。有一部分是因为物联网中的设备充当数据源和计算平台,这就需要在网络和物理世界进行协调。瞬态事件流的生成需要及时处理,这对大数据的速度维度提出了新的挑战。数据发现、复制、放置和持久性需要在广域网和瞬态计算资源的环境中仔细检查。感知需要与“感觉制作”相辅相成,以便通过整合多个来源正确的解释数据。

6.2编程模型和平台

尽管边缘和雾资源在不断增长,但仍然缺乏用于在这些资源上定义和执行分布式应用程序的通用编程抽象或运行时环境。它们使用空间分区将边缘设备分配给Fog。ECHO平台提供了一个数据流模型来组合应用程序,然后将这些应用程序在边缘、雾和云资源上的分布式运行时引擎上进行调度。它支持各种执行引擎,如NiFi、Storm和TensorFlow,但用户将任务耦合到特定的引擎。声明式应用程序规范和大数据平台对于简化此类复杂环境中的应用程序组合是很必要的。

与此相关的是应用程序部署和资源调度。在云中使用VM所需的配置环境,但是对于Fog来说,可能过于消耗资源。一些人已经检查了虚拟机的一部分虚拟空间的使用情况,并跨资源迁移该映像,以跟踪访问其服务的用户的迁移情况。在边缘、雾和云上的资源也进行了研究,但由于缺乏对大规模的雾设置的访问,通常仅通过模拟进行验证。空间意识和能量意识是这类调度程序中所包含的独特特征。对雾进行了正确的建模。用户体验质量(QoE)作为服务质量(QoS)的一个以用户为中心的替代指标,也正在进行研究。

随着雾计算的架构和应用模型变得更加清晰,资源的移动性,可用性和能源使用提供了独特的挑战,需要重新进行此类研究。

6.3安全、隐私和信任

与云计算不同,在云计算中,服务提供者具有一定程度的信任,而fog计算可能包含来自不同的临时提供者的资源。此外,fog设备可能不像数据中心那样具有物理安全性,第三方也可以访问。容器化不像虚拟化那样在多个租户应用程序之间提供相同程度的沙箱。因此,雾中的数据和应用程序在受信任和不受信任区域的组合中运行。这需要多个利益相关者对设备,结构,应用程序和数据进行持续监控,以确保安全性和隐私不受损害。需要用到异常检测、入侵检测、移动目标防御等技术。需要凭证和身份管理。原产地和审计机制也将证明是必不可少的。 在设计雾部署或应用程序时,需要将这些视为一流特性。

以上内容为【迭代算法大数据丨大数据流式计算原理】的相关内容,更多相关内容关注lot物联网。

LOT物联网

iot产品 iot技术 iot应用 iot工程

Powered By LOT物联网  闽ICP备2024036174号-1

联系邮箱:support1012@126.com