博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[Spark]Spark Streaming 指南三 DStreams
阅读量:6971 次
发布时间:2019-06-27

本文共 391 字,大约阅读时间需要 1 分钟。

离散流或者DStreams是Spark Streaming提供的基本抽象,它代表一个连续的数据流。从源中获取输入流,或者是输入流通过转换算子生成的处理后的数据流。在内部,DStreams由一系列连续的 RDD组成。这是Spark对不可变,分布式数据集的抽象(更多细节参见Spark编程指南)。 DStream中的每个RDD包含来自特定间隔的数据,如下图所示:

image

对DStream应用的任何操作都会转换为DStream隐含的RDD的操作。 例如,在指南一示例将行数据流转换单词数据流例子中,flatMap操作应用于lines这个DStreams的每个RDD,生成words这个DStreams的 RDD。过程如下图所示:

image

这些隐含RDD转换操作由Spark引擎计算。 DStream操作隐藏了大部分细节,并为开发人员提供了更高级别的API以方便使用。 这些操作将在后面的章节中详细讨论。

转载地址:http://ojosl.baihongyu.com/

你可能感兴趣的文章
codevs 3115 高精度练习--减法
查看>>
使用 Swoole 来加速你的 Laravel 应用
查看>>
9月15日学习内容整理:类的命名空间和组合
查看>>
SSD详解
查看>>
关系数据模型的数据结构及约束定义
查看>>
BFS(双向) HDOJ 3085 Nightmare Ⅱ
查看>>
二分搜索 2015百度之星初赛1 HDOJ 5248 序列变换
查看>>
RecycleView的简单使用
查看>>
常用内置函数
查看>>
求空间一点到另外一点(如原点)的距离
查看>>
EditText设置文字改变时的监听
查看>>
Oracle学习笔记安装篇之在Redhat Enterprise Linux 7.0 x86_64下安装Oracle11g R2
查看>>
C++重载赋值运算符
查看>>
NO.7:别让异常逃离析构函数
查看>>
在textarea中鼠标指定的位置插入字符或表情
查看>>
c fopen文件读写
查看>>
(转)UIColor,CGColor,CIColor三者的区别和联系
查看>>
linux基础(5)-用户及权限
查看>>
自己动手写GC
查看>>
hybris 提高订单生成效率
查看>>