什么是 Maven 上下文中的依赖描述符？

Question

Sanzhar Sarsekov

Asked:2021-10-15 18:37:41 +0000 UTC2021-10-15 18:37:41 +0000 UTC 2021-10-15 18:37:41 +0000 UTC

为什么 Spark 需要很长时间才能从数据库中提取数据

772

我正在使用带有 spark sql 的 hadoop。通常当我拉出 1000 列时，需要 1-2 秒，但是当超过 2000 列时，spark 会冻结并在几分钟内加载数据

spark-submit --deploy-mode client --master yarn --num-executors=40 --executor-cores=2 --executor-memory=5G  /home/hdoop/SparkApplication/demo-0.0.1-SNAPSHOT.jar

@Configuration
@EnableAutoConfiguration(exclude = {org.springframework.boot.autoconfigure.gson.GsonAutoConfiguration.class})
public class SparkConfig {

    @Value("Test Spark Application")
    private String appName;
    @Value("local[*]")
    private String masterUri;

    @Bean
    public SparkConf sparkConf() {
        return new SparkConf()
                .setAppName(appName)
                .setMaster(masterUri)
                .set("spark.sql.debug.maxToStringFields", "1000")
                .setJars(new String[]
                {"/home/hdoop/SparkApplication/demo-0.0.1-SNAPSHOT.jar"
                ,"/home/hdoop/SparkApplication/spark-core_2.12-3.0.1.jar"
                ,"/home/hdoop/SparkApplication/postgresql-42.2.10.jar"});
    }

@Service
@EnableAutoConfiguration(exclude = {org.springframework.boot.autoconfigure.gson.GsonAutoConfiguration.class})
public class StackOverFlow implements Serializable {

    @Autowired
    private SparkConf sparkConf;

    public List<Order> getObject(String param, String value, Long limit) {
        Encoder<Order> orderEncoder = Encoders.bean(Order.class);

        SparkSession session = SparkSession
                .builder()
                .config(sparkConf)
                .getOrCreate();

        if (!session.sqlContext().isTraceEnabled()) {
            SparkSession.setActiveSession(session);
        }
                                                                        
        Dataset<Row> jdbcDF = session.read()
                .format("jdbc")
                .option("url", "jdbc:postgresql:postgres:5432//orders")
                .option("driver", "org.postgresql.Driver")
                .option("query", "select * from orders o where " + param + " = '" + value + "' limit " + limit)
                .option("user", "root")
                .option("password", "password")
                .load();

        List<Order> orders = jdbcDF.as(orderEncoder).collectAsList();
        session.stop();
        return orders;
    }

1 个回答

Voted

Alex Ott · Answer 1 · 2021-10-18T19:46:54Z

Best Answer

Alex Ott

2021-10-18T19:46:54Z2021-10-18T19:46:54Z

这里需要从两方面来看：

PostgreSQL 生成什么计划 - 使用的索引等。对于这些请求。
Spark 在一个线程中从数据库中读取数据，即使有多个 executor。有一些并行读取的技术，例如指定多个查询，或参数如 numPartitions 等。（文档）例如，以下是有关此主题的答案：1 , 2
一些驱动程序没有很好的初始参数，因此您可以查看fetchsize文档中描述的调整和其他参数。例如，如果fetchsize默认值为 50，则需要执行 20 次读取才能获取 1000 行，如果增加到 1000 次，则每次都会发生这种情况。

1

为什么 Spark 需要很长时间才能从数据库中提取数据

如何从列表中打印最大元素（str 类型）的长度？

如何在 PyQT5 中清除 QFrame 的内容

如何将具有特定字符的字符串拆分为两个不同的列表？

导航栏活动元素

是否可以将文本放入数组中？[关闭]

如何一次用多个分隔符拆分字符串？

如何通过 ClassPath 创建 InputStream？

在一个查询中连接多个表

对列表列表中的所有值求和

如何对齐 string.Format 中的列？

为什么 Spark 需要很长时间才能从数据库中提取数据

1 个回答

相关问题