您的位置：58编程 > PostgreSQL 多变量统计例子

PostgreSQL 多变量统计例子

2023-04-27 21:33

PostgreSQL 多变量统计例子

70.2.1. 函数依赖
70.2.2. N 个不同变量的计数
70.2.3. MCV 列表

70.2.1. 函数依赖

多元相关性可以用一个非常简单的数据集来演示 — 一个有两列的表，它们都包含相同的值：

CREATE TABLE t (a INT, b INT);
INSERT INTO t SELECT i % 100, i % 100 FROM generate_series(1, 10000) s(i);
ANALYZE t;

如第 14.2 节所述，规划人员可以使用从 pg_class获取的页面和行数来确定 t的基数：

SELECT relpages, reltuples FROM pg_class WHERE relname = "t";

 relpages | reltuples
----------+-----------
       45 |     10000

他的数据分布非常简单；每列中只有100个不同的值，均匀分布。

以下示例显示了在a列上估计WHERE条件的结果：

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1;
                                 QUERY PLAN                                  
-------------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..170.00 rows=100 width=8) (actual rows=100 loops=1)
   Filter: (a = 1)
   Rows Removed by Filter: 9900

规划器检查条件并确定该子句的选择性为1％。通过比较这个估计值和实际的行数，我们可以看到估计值非常准确（事实上，是因为表格非常小）。更改WHERE条件以使用b列，将生成一个完全相同的计划。但是观察一下，如果我们在两列上应用相同的条件，将它们用 AND结合起来会发生什么：

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 1;
                                 QUERY PLAN                                  
-----------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..195.00 rows=1 width=8) (actual rows=100 loops=1)
   Filter: ((a = 1) AND (b = 1))
   Rows Removed by Filter: 9900

规划器分别估算每个条件的选择性，达到与上述相同的1％估计值。然后它假定条件是独立的，因此它乘以它们的选择性，产生最终选择性估计值仅为0.01％。这是一个明显的低估，因为符合条件（100）的实际行数要高于两个数量级。

通过创建一个指示ANALYZE 计算两列上的函数依赖性多变量统计信息的统计对象，可以解决此问题。

CREATE STATISTICS stts (dependencies) ON a, b FROM t;
ANALYZE t;
EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 1;
                                  QUERY PLAN                                   
-------------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..195.00 rows=100 width=8) (actual rows=100 loops=1)
   Filter: ((a = 1) AND (b = 1))
   Rows Removed by Filter: 9900

70.2.2. N 个不同变量的计数

估计多列集合的基数时会出现类似的问题，例如由GROUP BY 子句生成的组的数量。当GROUP BY列出单个列时， n个不同估计值（作为HashAggregate节点返回的估计行数可见）非常准确：

EXPLAIN (ANALYZE, TIMING OFF) SELECT COUNT(*) FROM t GROUP BY a;
                                       QUERY PLAN                                        
-----------------------------------------------------------------------------------------
 HashAggregate  (cost=195.00..196.00 rows=100 width=12) (actual rows=100 loops=1)
   Group Key: a
   ->  Seq Scan on t  (cost=0.00..145.00 rows=10000 width=4) (actual rows=10000 loops=1)

但是，如果没有多变量统计信息，那么在GROUP BY 中包含两列的查询中的组数量估计值将在下面的示例中偏离一个数量级：

EXPLAIN (ANALYZE, TIMING OFF) SELECT COUNT(*) FROM t GROUP BY a, b;
                                       QUERY PLAN                                        
-----------------------------------------------------------------------------------------
 HashAggregate  (cost=220.00..230.00 rows=1000 width=16) (actual rows=100 loops=1)
   Group Key: a, b
   ->  Seq Scan on t  (cost=0.00..145.00 rows=10000 width=8) (actual rows=10000 loops=1)

通过重新定义统计对象以包括两列的n个不同值的计数，估计得到了很大改进：

DROP STATISTICS stts;
CREATE STATISTICS stts (dependencies, ndistinct) ON a, b FROM t;
ANALYZE t;
EXPLAIN (ANALYZE, TIMING OFF) SELECT COUNT(*) FROM t GROUP BY a, b;
                                       QUERY PLAN                                        
-----------------------------------------------------------------------------------------
 HashAggregate  (cost=220.00..221.00 rows=100 width=16) (actual rows=100 loops=1)
   Group Key: a, b
   ->  Seq Scan on t  (cost=0.00..145.00 rows=10000 width=8) (actual rows=10000 loops=1)

70.2.3. MCV 列表

如本文中第 70.2.1 节中所述，函数依赖是非常廉价和高效的统计类型，但它们的主要限制是其全局特性（仅跟踪列级别的依赖项，而不是在单个列值之间）。

本节介绍MCV（最常见值）列表的多变量变体, 第 70.1 节中描述的每列统计数据的简单扩展。这些统计数据通过存储单独的值来解决这个限制，但是就构建ANALYZE中的统计数据、存储和规划时间而言，它的成本自然更高。

让我们再看看来自本文中的第 70.2.1 节的查询，但这次在相同列集上创建了MCV列表（请确保删除函数依赖，以确保规划器使用新创建的统计数据）。

DROP STATISTICS stts;
CREATE STATISTICS stts2 (mcv) ON a, b FROM t;
ANALYZE t;
EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 1;
                                   QUERY PLAN
-------------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..195.00 rows=100 width=8) (actual rows=100 loops=1)
   Filter: ((a = 1) AND (b = 1))
   Rows Removed by Filter: 9900

The estimate is as accurate as with the functional dependencies, mostly thanks to the table being fairly small and having a simple distribution with a low number of distinct values. Before looking at the second query, which was not handled by functional dependencies particularly well, let"s inspect the MCV list a bit. 估计值与函数依赖一样准确，这主要是由于表相当小而且具有少量不同值的简单分布。在查看第二个查询之前，这个函数依赖处理得不是很好，让我们先检查一下MCV列表。

可以使用pg_mcv_list_items集返回函数检查MCV列表。

SELECT m.* FROM pg_statistic_ext join pg_statistic_ext_data on (oid = stxoid),
                pg_mcv_list_items(stxdmcv) m WHERE stxname = "stts2";
 index |  values  | nulls | frequency | base_frequency 
-------+----------+-------+-----------+----------------
     0 | {0, 0}   | {f,f} |      0.01 |         0.0001
     1 | {1, 1}   | {f,f} |      0.01 |         0.0001
   ...
    49 | {49, 49} | {f,f} |      0.01 |         0.0001
    50 | {50, 50} | {f,f} |      0.01 |         0.0001
   ...
    97 | {97, 97} | {f,f} |      0.01 |         0.0001
    98 | {98, 98} | {f,f} |      0.01 |         0.0001
    99 | {99, 99} | {f,f} |      0.01 |         0.0001
(100 rows)

这确认了在这两列中有100种不同的组合，并且它们的概率都差不多(每个的频率为1%)。基本频率是从每列统计数据中计算的频率，好像没有多列统计数据。如果任一列中有任何空值，将在 nulls列中标识。

在估计选择性时，规划器对MCV列表中的项目应用所有条件，然后对匹配项的频率求和。详情请参阅src/backend/statistics/mcv.c中的mcv_clauselist_selectivity。

与函数依赖相比，MCV列表有两大主要优点。首先，列表存储实际值，从而可以决定哪些组合是兼容的。

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 10;
                                 QUERY PLAN
---------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..195.00 rows=1 width=8) (actual rows=0 loops=1)
   Filter: ((a = 1) AND (b = 10))
   Rows Removed by Filter: 10000

第二，MCV 列表处理更广泛的子句类型，而不仅仅是类似函数依赖的相等子句。例如，请考虑对同一表的以下范围查询：

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a <= 49 AND b > 49;
                                QUERY PLAN
---------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..195.00 rows=1 width=8) (actual rows=0 loops=1)
   Filter: ((a <= 49) AND (b > 49))
   Rows Removed by Filter: 10000

阅读全文

以上是58编程为你收集整理的 PostgreSQL 多变量统计例子全部内容。

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。

全部标签 标签详情

PostgreSQL dblink_exec

05-20

dblink_exec — 在一个远程数据库中执行一个命令大纲dblink_exec(text connname, text sql [, bool fail_on_error]) returns tex...
PostgreSQL dict_xsyn

F.12.1. 配置F.12.2. 用法 dict_xsyn（扩展同义词字典）是一个附加全文搜索字典模板的例子。这种字典类型将词替换为它们的同义词...
PostgreSQL pg_prewarm

05-09

F.27.1. 函数F.27.2. 配置参数 pg_prewarm模块提供一种方便的方法把关系数据载入到操作系统缓冲区或者 PostgreSQL缓冲区。可以...
oracle外键约束 Oracle 外键

Oracle教程

外键用于与另一张表的关联。是能确定另一张表记录的字段，用于保持数据的一致性，本节教程将为大家带来Oracle中如何使用外键的方...
SQL CREATE VIEW、REPLACE VIEW、 DROP VIEW 语句

MySQL教程

SQL 视图（Views）视图是可视化的表。本章讲解如何创建、更新和删除视图。SQL CREATE VIEW 语句在 SQL 中，视图是基于 SQL 语...
sql unique约束 SQL UNIQUE 约束

MySQL教程

SQL UNIQUE 约束SQL UNIQUE 约束 UNIQUE 约束唯一标识数据库表中的每条记录。 UNIQUE 和 PRIMARY KEY 约束均为列或列集合提供了...
sql面试题 SQL MID() 函数

MySQL教程

SQL MID() 函数MID() 函数 MID() 函数用于从文本字段中提取字符。 SQL MID() 语法SELECT MID(column_na...
SQL总结与期望 SQL 总结

MySQL教程

我们已经学习了 SQL，下一步学习什么呢？ SQL 总结本 SQL 教程已经向您讲解了用来访问和处理数据库系统的标准计算机语言。我们...
nodejs mysql 连接池 Node.js 与 MySQL 连接池

MySQL教程

node.js模块的MySQL驱动程序为您提供了内置的连接池功能假设您要创建一个具有5个连接的连接池：var pool = mysql.createPool({c...
mysql 重复数据 MySQL 处理重复数据

MySQL教程

有些 MySQL 数据表中可能存在重复的记录，有些情况我们允许重复数据的存在，但有时候我们也需要删除这些重复的数据。本章节我们...