史上最全最详细的flink 中文教程(一千多页pdf).pdf
最全最详细的flink 中文教程,详细介绍各个接口,并附带demo(一千多页pdf)最全最详细的flink 中文教程,详细介绍各个接口,并附带demo(一千多页pdf)执行配置1.5.7.1程序打包和分布式执行1.5.7.2并行执行1.5.73执行计划1.5.74重启策略1.5.7.5类库158FlinkCeP-Fink的复杂事件处理1.5.8.1风暴兼容性Beta158.2Gelly Flink Graph AP158.3图AP1.5.84迭代图处理1.5.8.4.1类库方法1.584.2图算法1.5.8.4.3图形生成器1.5.844二分图1584.5FlinkML- Flink的机器学习1.5.85快速入门指南1.5.8.5.1如何贡献5.8.5.2交义验证1.58.5.3Distance metrics5.8.54K-Nearest Neighbors关联158.55MinMax scaler1.5.8.5.6Multiple Linear regression1.5.8.5.7在管道的引擎盖下看158.5.8Polynomial Features158.59随机异常值选择1.5.8.5.10Standard scaler158.5.11Alternating Least squares1.5.8.5.12SVM using COCoA1.58.5.13最佳实践1.59AP迁移指南1.5.10部署和运营集群和部署1.6.1独立群集1.6.1.1YARN设置1.6.1.2Mesos设置1.6.1.3Kubernetes设置1.6.14Docker设置1.6.1.5亚马逊网络服务(AWS)1.6.1.6Google Compute Engine设置1.6.1.7MapR设置1.6.1.8Hadoop集成1.6.19JobManager高可用性(HA)1.6.2状态和容错16.3检查点1.6.3.1保存点1.6.3.2状态后台1.6.3.3调整检查点和大状态1.6.3.4配置1.64生产准备清单1.6.5命令行界面166Scala REPl1.6.7Kerberos身份验证设置和配置168SSL设置6.9文件系统1.6.10升级应用程序和Fnk版本1.6.11调试和监控度量1.7.1如何使用日志记录1.7.2历史服务器1.7.3监控检查点1.74监测背压1.7.5监控 REST AP1.7.6调试 Windows和事件时间1.7.7调试类加载1.7.8应用程序分析1.7.9Flink Development1.8将 Flink导入|DE1.8.1从 Source建立Fink8.2内幕组件堆栈1.9.1数据流容错19.2工作和调度19.3任务生命周期194文件系统19.55Apache Flink文档Apache Flink文档译者: flink. sob.cn在线阅读●PDF格式EP∪B格式●MOB格式代码仓库本文档适用于 Apache Flink17 SNAPSHOT版。这些页面的建立时间为09/08/18,中部标准时同07:53:00°Apache Flink是一个用于分布式流和批处理数据处理的开源平台Fnk的核心是流数据流引擎’为数据流上的分布式计算提供数据分发’通信和容错。 Flink在流引擎之上构建批处理’覆盖本机达代支持,托管内存和程序优化。第一步概念∶从Fink的教据流编程模型和分布式运行时环境的基本概念开始。这将有助于您了解文档的其他部分·包括设置和编程指南σ我们建议您先闖读这些部分教程:o实现并运行 Data strean应用程序o设置本地Fink群集编程指南:您可以阅读我们关于基本AP|概念和 Data Stream A門或 Data Set APl的指南’以了解如何编写您的第一个Fink程序。部署在将Fink工作投入生产之前,请阅读生产准备清单发行说明发行说明涵盖了Fink版本之间的重要更改。如果您计划将Fink设置升级到更高版本,请仔细阅读这些说明。Fink1.6发行说明Fink1.5发行说明。外部资源6Apache Flink文档● Flink Forward: Flink forward网站和 You tube上提供了以往会议的讲座。使用 Apache Flink进行强大的流处理是一个很好的起点●培训∷数据工匠的培训材料包括幻灯片·练习和示例解決方案。·博客: Apache Flink和数据工匠博客发布了有关Fink的频繁深入的技术文章概念概念数据流编程模型数据流编程模型译者: flink. sob.cn抽象层次Flink提供不同级别的抽象来开发流/批处理应用程序SQLHigh-level LanguageTable AplDeclarative dslDataStream/Data Set APICore aplsStateful Stream ProcessingLoW-level building blockstreams, state, [event] time)●最低级抽象只提供有状态流。它通过卩 rocess Function嵌入到 Datastream aF丨中。它允许用户自由处理来自一个或多个流的事件,并使用一致的容错状态此外,用户可以注册事件时间和处理时间回调,允许程序实现复杂的计算实际上,大多数应用程序不需要上逑低级抽象,而是针对 Core a叫编程,如Data stream AP(有界/无界流)和 Data set ap(有界数据集)。这些流畅的A門提供了用于数据处理的通用构建坎’例如各种形式的用户指定的转换’连接’聚合’窗口’状态等。在这些AP丨中处理的数据类型在相应的编程语言中表示为类低级尸 rocess function与 Data stream A尸/集成’因此只能对某些算子操作进行低级抽象。该数据集A尸隈提供的有限数据集的其他原语,如循环/迭代。●该 Table ap是为中心的声明性DSL表,其可被动态地改变的表(表示流时)。该 Table a門遵循(扩展)关系模型:表有一个模式连接(类似于在关系数据库中的表)和A門|提供可比的算子操作·如选择,项目,连接,分组依据’聚合等 Table a門程序以声明方式定乂应该执行的逻辑算子操作,而不是准确指定算子操作代码的外观。虽然 Table ap丨可以通过各种类型的用户定义西数进行扩展’但它的表现力不如 Core AP’但使用更简洁(编写的代码更少)。此外, Table a門l程序还会通过优化程序·在执行之前应用优化规则。可以在衣和 Data strean/ Data set之同无缝转换’允许程序混合7 ble aP以及Data Stream u Data Set API数据流编程模型Flink提供的最高级抽象是SQL。这种抽象在语义和表达方面类似于7ab/eA門·但是将程序表示为SQL查询表达式。在SQL抽象与 Table apl紧密地相互作用’和SQL查询可以通过定义表来执行7ab/eA尸程序和数据流Flink程序的基夲构建块是流和转换。(请注意,Fink的 Data set a|中使用的Data Set也是内部流-稍后会详细介绍。)从概念上讲·流是(可能水无止境的数据记录流’而转换是将一个或多个流作为一个或多个流的算子操作。输入’并产生一个或多个输出流。执行时’Fink程序映射到流数据流’由流和转换算亍纽成σ毎个数据流都以一个或多个源开头,并以一个或多个接收器结東。数据流类似于任意有向无环图(DAG)°尽管通过迭代结构允许特殊形式的循环,但为了简单起见’我们将在大多数情况下对此进行掩饰。Datastream lines env. addsourceSourrenew FlinkKafkaconsumer>(.)Datastream Event> events =lines. map((line)-> carse(line)了FBs∫n?ato胃Datastrearrs-atis-.cs> statskerby (id"!fransformationtimewindow (Time, seconds(10)apply(new MyWNindowAggregationFurction();stas. addsink(new Rolling sink(path),SinkLsourceT! ansforratio门sinkperatorOperatorsOperatorkey By(/Sourcemap() window()SinkapplystreamStreaming Datarow通常,程序中的转換与数据流中的算子之同存在一对一的对应关系。但是,有时一个转换可能包含多个转换算子源流和接收器记录在流连接器和批处理连接器文档中。 Data Stream算子和 Data Set转换中记录了转换。10
- 2020-11-04下载
- 积分:1