RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / user-310823

Sanzhar Sarsekov's questions

Martin Hope
Sanzhar Sarsekov
Asked: 2021-12-29 12:24:28 +0000 UTC

为什么在 Docker postgresql 中数据库比服务器更重

  • 0

我在 Docker 容器中有一个数据库,我将它传输到服务器,但是在转储之后,我发现数据大小有 2-10 mb 的不同。只是没有发现数据丢失

为什么会发生这种情况

我像这样从docker转储数据

sudo docker exec -i docker_container pg_dump -U username -d database > /home/plazun/dump.sql

sudo -u postgres -i

psql -d database < /home/plazun/dump.sql

在码头工人

                           List of relations
 Schema |      Name      | Type  |   Owner    |   Size   | Description
--------+----------------+-------+------------+----------+-------------
 public | table1         | table | owner      | 24 MB    |
 public | table2         | table | owner      | 127 MB   |
 public | table3         | table | owner      | 16 kB    |
 public | table4         | table | owner      | 10232 kB |
 public | table5         | table | owner      | 320 kB   |
(5 rows)

在服务器上

                           List of relations
 Schema |      Name      | Type  |   Owner    |   Size   | Description
--------+----------------+-------+------------+----------+-------------
 public | table1         | table | owner      | 19 MB    |
 public | table2         | table | owner      | 71  MB   |
 public | table3         | table | owner      | 16 kB    |
 public | table4         | table | owner      | 10216 kB |
 public | table5         | table | owner      | 296 kB   |
(5 rows)
postgresql
  • 1 个回答
  • 10 Views
Martin Hope
Sanzhar Sarsekov
Asked: 2021-11-30 18:19:56 +0000 UTC

如何在系统启动ubuntu时使minikube自动启动

  • 1

我是 Kubernetes 的新手。我注意到当我重新启动系统时,minikube 在 vi​​rtualbox 中停止。我怎样才能让它在系统重新启动时自动打开?

ubuntu
  • 1 个回答
  • 10 Views
Martin Hope
Sanzhar Sarsekov
Asked: 2021-11-09 20:13:40 +0000 UTC

从 csv 文件转储数据库时如何使用 RETURNING

  • 0

我正在尝试通过 psql 将 csv 文件中的数据解析到 postgresql,但我不明白如何编写查询以将数据从 csv 写入表,该表应返回一个 ID,我将立即将其写入另一个表多对一链接

这是写入一个表的示例

\copy table1(column1, column2...) from 'path' delimiter ';' csv header
postgresql
  • 1 个回答
  • 10 Views
Martin Hope
Sanzhar Sarsekov
Asked: 2021-11-02 22:03:36 +0000 UTC

为什么 Spark Core 很慢?

  • 1

仅使用 spark sql 时,对数据库的请求处理得非常快,但是当 JavaPairJDD 连接时,它开始变慢。

我想知道是否可以加快数据处理速度或以某种方式改进代码以使其不会冻结?

这是没有 JavaPairRDD 的运行

collectAsList at StackOverFlow.java:56, took 0.883860 s

在这里使用 JavaPairRDD

collectAsMap at StackOverFlow.java:61, took 128.340516 s

这是代码

public List<Order> getAllWithoutPairRDD(Optional<String> search, Optional<Integer> size) {

    SparkSession session = SparkSession.builder().config(config).getOrCreate();

    Properties properties = new Properties();

    properties.setProperty("partitionColumn", "id");
    properties.setProperty("fetchsize", "1000");
    properties.setProperty("driver", "org.postgresql.Driver");
    properties.setProperty("user", "postgres");
    properties.setProperty("password", "password");

    Dataset<Row> jdbc = session.read().jdbc("jdbc:postgresql://localhost/orders"
            , "orders"
            , "id"
            , 1L
            , 60000000L
            , 100
            , properties
    );
    Dataset<Row> ordersData = jdbc.select(col("*")).where(col("city_id").equalTo(3L)).limit(size.orElse(1));
    JavaPairRDD<Timestamp, Integer> analyticPairRDD = ordersData.toJavaRDD().mapToPair((PairFunction<Row, Timestamp, Integer>) row -> new Tuple2<Timestamp, Integer>((Timestamp) row.get(0), 1));

    JavaPairRDD<Timestamp,Integer> result = analyticPairRDD.groupByKey().mapValues(Iterables::size);
    return ordersData.as(orderEncoder).collectAsList();
}

public Map<Timestamp, Integer> getAllWithPairRDD(Optional<String> search, Optional<Integer> size) {

    SparkSession session = SparkSession.builder().config(config).getOrCreate();

    Properties properties = new Properties();

    properties.setProperty("partitionColumn", "id");
    properties.setProperty("fetchsize", "1000");
    properties.setProperty("driver", "org.postgresql.Driver");
    properties.setProperty("user", "postgres");
    properties.setProperty("password", "password");

    Dataset<Row> jdbc = session.read().jdbc("jdbc:postgresql://localhost/orders"
            , "orders"
            , "id"
            , 1L
            , 60000000L
            , 100
            , properties
    );
    Dataset<Row> ordersData = jdbc.select(col("operation_date")).where(col("city_id").equalTo(3L)).limit(size.orElse(1));
    JavaPairRDD<Timestamp, Integer> analyticPairRDD = ordersData.toJavaRDD().mapToPair((PairFunction<Row, Timestamp, Integer>) row -> new Tuple2<Timestamp, Integer>((Timestamp) row.get(0), 1));

    JavaPairRDD<Timestamp,Integer> result = analyticPairRDD.groupByKey().mapValues(Iterables::size);
    return result.collectAsMap();
}

@Bean
public SparkConf sparkConf() {
    return new SparkConf()
            .setAppName(appName)
            .setMaster(masterUri)
            .set("spark.executor.memory", "2g")
            .set("spark.executor.cores", "10")
            .set("spark.executor.memoryOverhead", "1g")
            .set("spark.driver.cores", "10")
            .set("spark.driver.memory", "3g")
            .set("spark.yarn.am.memory", "2g")
            .set("spark.yarn.am.cores", "4")
            .set("spark.sql.shuffle.partitions", "1000")
            .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");
}
java
  • 1 个回答
  • 10 Views
Martin Hope
Sanzhar Sarsekov
Asked: 2021-10-15 18:37:41 +0000 UTC

为什么 Spark 需要很长时间才能从数据库中提取数据

  • 1

我正在使用带有 spark sql 的 hadoop。通常当我拉出 1000 列时,需要 1-2 秒,但是当超过 2000 列时,spark 会冻结并在几分钟内加载数据


spark-submit --deploy-mode client --master yarn --num-executors=40 --executor-cores=2 --executor-memory=5G  /home/hdoop/SparkApplication/demo-0.0.1-SNAPSHOT.jar 

@Configuration
@EnableAutoConfiguration(exclude = {org.springframework.boot.autoconfigure.gson.GsonAutoConfiguration.class})
public class SparkConfig {

    @Value("Test Spark Application")
    private String appName;
    @Value("local[*]")
    private String masterUri;

    @Bean
    public SparkConf sparkConf() {
        return new SparkConf()
                .setAppName(appName)
                .setMaster(masterUri)
                .set("spark.sql.debug.maxToStringFields", "1000")
                .setJars(new String[]
                {"/home/hdoop/SparkApplication/demo-0.0.1-SNAPSHOT.jar"
                ,"/home/hdoop/SparkApplication/spark-core_2.12-3.0.1.jar"
                ,"/home/hdoop/SparkApplication/postgresql-42.2.10.jar"});
    }

@Service
@EnableAutoConfiguration(exclude = {org.springframework.boot.autoconfigure.gson.GsonAutoConfiguration.class})
public class StackOverFlow implements Serializable {

    @Autowired
    private SparkConf sparkConf;

    public List<Order> getObject(String param, String value, Long limit) {
        Encoder<Order> orderEncoder = Encoders.bean(Order.class);

        SparkSession session = SparkSession
                .builder()
                .config(sparkConf)
                .getOrCreate();

        if (!session.sqlContext().isTraceEnabled()) {
            SparkSession.setActiveSession(session);
        }
                                                                        
        Dataset<Row> jdbcDF = session.read()
                .format("jdbc")
                .option("url", "jdbc:postgresql:postgres:5432//orders")
                .option("driver", "org.postgresql.Driver")
                .option("query", "select * from orders o where " + param + " = '" + value + "' limit " + limit)
                .option("user", "root")
                .option("password", "password")
                .load();

        List<Order> orders = jdbcDF.as(orderEncoder).collectAsList();
        session.stop();
        return orders;
    }

spring-boot
  • 1 个回答
  • 10 Views
Martin Hope
Sanzhar Sarsekov
Asked: 2020-09-28 17:42:58 +0000 UTC

如何在 java 中将 Dataset<Row> 转换为 JavaRDD<Something>

  • 1

如何转换Data<Row> в javaRDD<User>?

我试图从数据库中提取一个包含大量列的列表并遇到这样一个问题,我必须指定每列的位置及其值,如果没有这一切,我怎么能得到它?

这是我的代码

        SparkConf sparkConf = new SparkConf()
            .setMaster("local[*]")
            .setAppName("test");

    SparkContext sparkContext = new SparkContext(sparkConf);

    SparkSession session = new SparkSession(sparkContext);

    DataFrameReader dataFrameReader = session
            .read()
            .format("jdbc")
            .option("url", "jdbc:postgresql://10.100.0.4:5432/refund_service")
            .option("driver", "org.postgresql.Driver")
            .option("dbtable", "refunds")
            .option("user", "smartplaza")
            .option("password", "smartplaza");

    Encoder<Something> somethingEncoder = Encoders.bean(Refund.class);

    Dataset<Row> response = dataFrameReader.load();

    JavaRDD<Something> rsomethingJavaRDD = response.javaRDD().map(new Function<Row, Refund>() {
        @Override
        public Something call(Row row) throws Exception {
            return new Something(row.getLong(0),
                    row.getTimestamp(1), row.getTimestamp(2),row.getTimestamp(3),
                    row.getDouble(4),
                    row.getDouble(5),
                    row.getDouble(6),
                    row.getLong(7),
                    row.getLong(8),
                    row.getDouble(9),
                    row.getLong(10),
                    row.getDouble(11),
                    (Long) row.get(12),
                    (Long) row.get(13),
                    (Long) row.get(14),
                    row.getBoolean(15),
                    (Long) row.get(16),
                    (Long) row.get(17),
                    row.getDouble(18),
                    row.getDouble(19),
                    (Long) row.get(20),
                    (Long)row.get(21));
        }
    });

    Dataset<Something> somethingDataset = session.createDataset(refundJavaRDD.rdd(),somethingEncoder);
java
  • 1 个回答
  • 10 Views

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5