目录

Flink初探

Flink 是一个开源的分布式流式处理框架:

  1. 提供准确的结果,甚至在出现无序或者延迟加载的数据的情况下。
  2. 它是状态化的容错的,同时在维护一次完整的的应用状态时,能无缝修复错误。
  3. 大规模运行,在上千个节点运行时有很好的吞吐量和低延迟。

更早的时候,我们讨论了数据集类型(有界 vs 无穷)和运算模型(批处理vs流式)的匹配。Flink的流式计算模型启用了很多功能特性,如状态管理,处理无序数据,灵活的视窗,这些功能对于得出无穷数据集的精确结果是很重要的。

Flink 保证状态化计算强一致性。”状态化“意味着应用可以维护随着时间推移已经产生的数据聚合或者,并且 Filnk 的检查点机制在一次失败的事件中一个应用状态的强一致性。

Flink的一些学习资料

Apache Flink 中文文档

关于Flink的窗口

聚合事件(比如计数、求和)在流上的工作方式与批处理不同。比如,对流中的所有元素进行计数是不可能的,因为通常流是无限的(无界的)。相反,流上的聚合需要由窗口来划定范围,比如 “计算过去的5分钟” ,或者 “最后100个元素的和” 。

窗口可以是事件驱动的(比如:每30秒)或者数据驱动的(比如:每100个元素)。窗口通常被区分为不同的类型,比如 滚动窗口(没有重叠),滑动窗口(有重叠),以及会话窗口(由不活动的间隙所打断)。

警告
本文最后更新于 2017年2月1日,文中内容可能已过时,请谨慎参考。