当我尝试启动 Hive 时，出现错误：“java.lang.IllegalArgumentException: Unrecognized Hadoop major version number: 3.0.0-alpha1”

Question

Андрей Козицкий

Asked:2020-06-21 18:23:01 +0800 CST2020-06-21 18:23:01 +0800 CST 2020-06-21 18:23:01 +0800 CST

如何在批处理模式下使用 spark 从 kafka 中减去完整主题

772

在 spark/kafka 上的 google 中有流式传输的示例，如何在批处理模式下使用 spark（任何 api java/scala）从 kafka 中减去数据。

1 个回答

Voted

Alex Chermenin · Answer 1 · 2020-06-27T20:34:28+08:00

Best Answer

Alex Chermenin

2020-06-27T20:34:28+08:002020-06-27T20:34:28+08:00

您可以在流模式下读取 Kafka 主题，也可以在批处理模式下执行查询，指定开始和结束偏移量，如下所示：

val df = spark
  .read
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("subscribePattern", "topic.*")
  .option("startingOffsets", "earliest")
  .option("endingOffsets", "latest")
  .load()

df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)").as[(String, String)]

您可以在文档中找到更多详细信息：https ://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html#creating-a-kafka-source-for-batch-queries

1

如何在批处理模式下使用 spark 从 kafka 中减去完整主题

将 byte[] 转换为 int

从 sql 渲染 php 表并输出到网页

如何更改按钮单击的背景？

为什么选择...更新？

如何制作最简单的倒数计时器？[关闭]

写入文件时跳转到新行

C中指针的怪异

根据浏览器窗口的大小调整背景图案的大小

理解for循环的执行逻辑

复制动态数组时出错（C++）

如何在批处理模式下使用 spark 从 kafka 中减去完整主题

1 个回答

相关问题