sql

412baf7b · kingreatwill · f17273a4 · 412baf7b · 412baf7b · 412baf7b
11 changed file
--- a/BigData/BI-可视化.md
+++ b/BigData/BI-可视化.md
@@ -5,6 +5,7 @@
 [数据可视化的开源方案: Superset vs Redash vs Metabase (二)](https://zhuanlan.zhihu.com/p/33164124)
 [数据可视化的开源方案: Superset vs Redash vs Metabase (一)](https://zhuanlan.zhihu.com/p/33164027)

+![](img/bi-vs.png)
 ## Superset

 Superset 最初是由 Airbnb 的数据团队开源的，目前已进入 Apache Incubator(孵化器)，算是明星级的开源项目。
@@ -68,16 +69,40 @@ https://github.com/pentaho/pentaho-platform

 https://github.com/TuiQiao/CBoard

+## Grafana
+
+目前已经支持绝大部分常用的时序数据库
+
 ## stimulsoft Dashboards

 商业，付费

-## Grafana
+## 自定义报表
+- [Stimulsoft](https://www.stimulsoft.com/en)
+- [ReportServer](https://reportserver.net/en/download/)
+- [pentaho](http://www.pentaho.com/download/)
+- [SpagoBI](http://www.spagobi.org/product/)
+支持Portal、report、OLAP、QbE、ETL、dashboard、文档管理、元数据管理、数据挖掘与地理信息分析。
+- [BIRT](http://www.eclipse.org/birt/)
+- [KNIME](https://github.com/knime)
+数据集成，数据处理，数据分析和数据勘探平台
+- Seal-Report
+https://github.com/ariacom/Seal-Report
+- JasperReports
+https://github.com/TIBCOSoftware/jasperreports
+- OpenReports
+

-目前已经支持绝大部分常用的时序数据库

 ## 其它

+- openI http://openi.sourceforge.net
+- jaspersoft http://www.jaspersoft.com/
+- spagoBI http://spago.eng.it
+- pentaho http://www.pentaho.com/
+
+[DataEase](https://github.com/dataease) 应该是最接近 Tableau 的开源软件。
+
 [16 个免费和开源商业智能工具](https://blog.csdn.net/qiansg123/article/details/80129400)

 ### Microsoft Power BI

--- a/BigData/img/bi-vs.png
+++ b/BigData/img/bi-vs.png
--- a/DB/RDBMS/mysql/README.md
+++ b/DB/RDBMS/mysql/README.md
@@ -105,4 +105,385 @@ REVOKE insert,update ON *.* FROM 'local_user'@'%';
 DROP USER 'username'@'host';
 # eg. 删除本地用户 local_user
 DROP USER 'local_user'@'localhost';
-```
\ No newline at end of file
+```
+
+# MySQL 架构总览->查询执行流程->SQL 解析顺序
+## MySQL 架构总览
+![](img/architecture_02.webp)
+
+![](img/architecture_01.webp)
+从上图中我们可以看到，整个架构分为两层，上层是 MySQLD 的被称为的‘SQL Layer’，下层是各种各样对上提供接口的存储引擎，被称为‘Storage Engine Layer’。
+
+## 查询执行流程
+### 连接
+- 客户端发起一条 Query 请求，监听客户端的‘连接管理模块’接收请求；
+- 将请求转发到‘连接进/线程模块’；
+- 调用‘用户模块’来进行授权检查；
+- 通过检查后，‘连接进/线程模块’从‘线程连接池’中取出空闲的被缓存的连接线程和客户端请求对接，如果失败则创建一个新的连接请求。
+### 处理
+- 先查询缓存，检查 Query 语句是否完全匹配，接着再检查是否具有权限，都成功则直接取数据返回；
+- 上一步有失败则转交给‘命令解析器’，经过词法分析，语法分析后生成解析树；
+- 接下来是预处理阶段，处理解析器无法解决的语义，检查权限等，生成新的解析树；
+- 再转交给对应的模块处理；
+- 如果是 SELECT 查询还会经由‘查询优化器’做大量的优化，生成执行计划；
+- 模块收到请求后，通过‘访问控制模块’检查所连接的用户是否有访问目标表和目标字段的权限；
+- 有则调用‘表管理模块’，先是查看 table cache 中是否存在，有则直接对应的表和获取锁，否则重新打开表文件；
+- 根据表的 meta 数据，获取表的存储引擎类型等信息，通过接口调用对应的存储引擎处理；
+- 上述过程中产生数据变化的时候，若打开日志功能，则会记录到相应二进制日志文件中。
+### 结果
+- Query 请求完成后，将结果集返回给‘连接进/线程模块’；
+- 返回的也可以是相应的状态标识，如成功或失败等；
+- ‘连接进/线程模块’进行后续的清理工作，并继续等待请求或断开与客户端的连接。
+
+![](img/query_01.webp)
+
+## SQL解析顺序
+首先看一下示例语句：
+```sql
+SELECT DISTINCT
+    < select_list >
+FROM
+    < left_table > < join_type >
+JOIN < right_table > ON < join_condition >
+WHERE
+    < where_condition >
+GROUP BY
+    < group_by_list >
+HAVING
+    < having_condition >
+ORDER BY
+    < order_by_condition >
+LIMIT < limit_number >
+```
+然而它的执行顺序是这样的：
+```sql
+FROM <left_table>
+ON <join_condition>
+<join_type> JOIN <right_table>
+WHERE <where_condition>
+GROUP BY <group_by_list>
+HAVING <having_condition>
+SELECT 
+DISTINCT <select_list>
+ORDER BY <order_by_condition>
+LIMIT <limit_number>
+```
+从哪里获取，不断的过滤条件，要选择一样或不一样的，排好序，那才知道要取前几条
+
+### 准备工作
+创建测试数据库
+```sql
+create database testQuery
+```
+创建测试表
+```sql
+CREATE TABLE table1
+(
+    uid VARCHAR(10) NOT NULL,
+    name VARCHAR(10) NOT NULL,
+    PRIMARY KEY(uid)
+)ENGINE=INNODB DEFAULT CHARSET=UTF8;
+
+CREATE TABLE table2
+(
+    oid INT NOT NULL auto_increment,
+    uid VARCHAR(10),
+    PRIMARY KEY(oid)
+)ENGINE=INNODB DEFAULT CHARSET=UTF8;
+```
+插入数据
+```sql
+INSERT INTO table1(uid,name) VALUES('aaa','mike'),('bbb','jack'),('ccc','mike'),('ddd','mike');
+
+INSERT INTO table2(uid) VALUES('aaa'),('aaa'),('bbb'),('bbb'),('bbb'),('ccc'),(NULL);
+```
+最后想要的结果
+```sql
+SELECT
+    a.uid,
+    count(b.oid) AS total
+FROM
+    table1 AS a
+LEFT JOIN table2 AS b ON a.uid = b.uid
+WHERE
+    a. NAME = 'mike'
+GROUP BY
+    a.uid
+HAVING
+    count(b.oid) < 2
+ORDER BY
+    total DESC
+LIMIT 1;
+```
+
+### SQL解析
+#### FROM
+当涉及多个表的时候，左边表的输出会作为右边表的输入，之后会生成一个虚拟表 VT1。
+
+- (1-J1)笛卡尔积
+计算两个相关联表的笛卡尔积 (CROSS JOIN) ，生成虚拟表 VT1-J1。
+```
+mysql> select * from table1,table2;
+-----+------+-----+------+
+| uid | name | oid | uid  |
+-----+------+-----+------+
+| aaa | mike |   1 | aaa  |
+| bbb | jack |   1 | aaa  |
+| ccc | mike |   1 | aaa  |
+| ddd | mike |   1 | aaa  |
+| aaa | mike |   2 | aaa  |
+| bbb | jack |   2 | aaa  |
+| ccc | mike |   2 | aaa  |
+| ddd | mike |   2 | aaa  |
+| aaa | mike |   3 | bbb  |
+| bbb | jack |   3 | bbb  |
+| ccc | mike |   3 | bbb  |
+| ddd | mike |   3 | bbb  |
+| aaa | mike |   4 | bbb  |
+| bbb | jack |   4 | bbb  |
+| ccc | mike |   4 | bbb  |
+| ddd | mike |   4 | bbb  |
+| aaa | mike |   5 | bbb  |
+| bbb | jack |   5 | bbb  |
+| ccc | mike |   5 | bbb  |
+| ddd | mike |   5 | bbb  |
+| aaa | mike |   6 | ccc  |
+| bbb | jack |   6 | ccc  |
+| ccc | mike |   6 | ccc  |
+| ddd | mike |   6 | ccc  |
+| aaa | mike |   7 | NULL |
+| bbb | jack |   7 | NULL |
+| ccc | mike |   7 | NULL |
+| ddd | mike |   7 | NULL |
+-----+------+-----+------+
+28 rows in set (0.00 sec)
+```
+- (1-J2) ON过滤
+
+基于虚拟表 VT1-J1 这一个虚拟表进行过滤，过滤出所有满足 ON 谓词条件的列，生成虚拟表 VT1-J2。
+
+注意：这里因为语法限制，使用了 'WHERE' 代替，从中读者也可以感受到两者之间微妙的关系。
+```
+mysql> SELECT
+    -> *
+    -> FROM
+    -> table1,
+    -> table2
+    -> WHERE
+    -> table1.uid = table2.uid
+    -> ;
+-----+------+-----+------+
+| uid | name | oid | uid  |
+-----+------+-----+------+
+| aaa | mike |   1 | aaa  |
+| aaa | mike |   2 | aaa  |
+| bbb | jack |   3 | bbb  |
+| bbb | jack |   4 | bbb  |
+| bbb | jack |   5 | bbb  |
+| ccc | mike |   6 | ccc  |
+-----+------+-----+------+
+6 rows in set (0.00 sec)
+```
+
+- (1-J3) 添加外部列
+
+如果使用了外连接 (LEFT,RIGHT,FULL)，主表（保留表）中的不符合ON条件的列也会被加入到 VT1-J2中，作为外部行，生成虚拟表 VT1-J3。
+
+```
+mysql> SELECT
+    -> *
+    -> FROM
+    -> table1 AS a
+    -> LEFT OUTER JOIN table2 AS b ON a.uid = b.uid;
+-----+------+------+------+
+| uid | name | oid  | uid  |
+-----+------+------+------+
+| aaa | mike |    1 | aaa  |
+| aaa | mike |    2 | aaa  |
+| bbb | jack |    3 | bbb  |
+| bbb | jack |    4 | bbb  |
+| bbb | jack |    5 | bbb  |
+| ccc | mike |    6 | ccc  |
+| ddd | mike | NULL | NULL |
+-----+------+------+------+
+7 rows in set (0.00 sec)
+```
+![](img/SQL_JOINS.webp)
+
+#### WHERE
+对 VT1 过程中生成的临时表进行过滤，满足 WHERE 子句的列被插入到 VT2 表中。
+
+注意：此时因为分组，不能使用聚合运算；也不能使用 SELECT 中创建的别名；
+
+与 ON 的区别：
+- 如果有外部列，ON针对过滤的是关联表，主表（保留表）会返回所有的列；
+- 如果没有添加外部列，两者的效果是一样的。
+
+应用：
+
+- 对主表的过滤应该放在 WHERE；
+- 对于关联表，先条件查询后连接则用ON，先连接后条件查询则用 WHERE。
+```
+mysql> SELECT
+    -> *
+    -> FROM
+    -> table1 AS a
+    -> LEFT OUTER JOIN table2 AS b ON a.uid = b.uid
+    -> WHERE
+    -> a. NAME = 'mike';
+-----+------+------+------+
+| uid | name | oid  | uid  |
+-----+------+------+------+
+| aaa | mike |    1 | aaa  |
+| aaa | mike |    2 | aaa  |
+| ccc | mike |    6 | ccc  |
+| ddd | mike | NULL | NULL |
+-----+------+------+------+
+4 rows in set (0.00 sec)
+```
+
+#### GROUP BY
+这个子句会把 VT2 中生成的表按照 GROUP BY 中的列进行分组，生成 VT3 表。
+
+注意：其后处理过程的语句，如 SELECT、HAVING，所用到的列必须包含在 GROUP BY 中，对于没有出现的，得用聚合函数；
+
+原因：GROUP BY 改变了对表的引用，将其转换为新的引用方式，能够对其进行下一级逻辑操作的列会减少。
+
+我的理解是：根据分组字段，将具有相同分组字段的记录归并成一条记录，因为每一个分组只能返回一条记录，除非是被过滤掉了，而不在分组字段里面的字段可能会有多个值，多个值是无法放进一条记录的，所以必须通过聚合函数将这些具有多值的列转换成单值；
+
+```
+mysql> SELECT
+    -> *
+    -> FROM
+    -> table1 AS a
+    -> LEFT OUTER JOIN table2 AS b ON a.uid = b.uid
+    -> WHERE
+    -> a. NAME = 'mike'
+    -> GROUP BY
+    -> a.uid;
+-----+------+------+------+
+| uid | name | oid  | uid  |
+-----+------+------+------+
+| aaa | mike |    1 | aaa  |
+| ccc | mike |    6 | ccc  |
+| ddd | mike | NULL | NULL |
+-----+------+------+------+
+3 rows in set (0.00 sec)
+```
+
+#### HAVING
+这个子句对 VT3 表中的不同的组进行过滤，只作用于分组后的数据，满足 HAVING 条件的子句被加入到 VT4 表中。
+```
+mysql> SELECT
+    -> *
+    -> FROM
+    -> table1 AS a
+    -> LEFT OUTER JOIN table2 AS b ON a.uid = b.uid
+    -> WHERE
+    -> a. NAME = 'mike'
+    -> GROUP BY
+    -> a.uid
+    -> HAVING
+    -> count(b.oid) < 2;
+-----+------+------+------+
+| uid | name | oid  | uid  |
+-----+------+------+------+
+| ccc | mike |    6 | ccc  |
+| ddd | mike | NULL | NULL |
+-----+------+------+------+
+2 rows in set (0.00 sec)
+```
+
+#### SELECT
+这个子句对 SELECT 子句中的元素进行处理，生成 VT5 表。
+
+(5-J1) 计算表达式 计算 SELECT 子句中的表达式，生成 VT5-J1。
+
+(5-J2) DISTINCT
+
+寻找 VT5-1 中的重复列，并删掉，生成 VT5-J2。
+
+如果在查询中指定了 DISTINCT 子句，则会创建一张内存临时表（如果内存放不下，就需要存放在硬盘了）。这张临时表的表结构和上一步产生的虚拟表 VT5 是一样的，不同的是对进行 DISTINCT 操作的列增加了一个唯一索引，以此来除重复数据。
+```
+mysql> SELECT
+    -> a.uid,
+    -> count(b.oid) AS total
+    -> FROM
+    -> table1 AS a
+    -> LEFT OUTER JOIN table2 AS b ON a.uid = b.uid
+    -> WHERE
+    -> a. NAME = 'mike'
+    -> GROUP BY
+    -> a.uid
+    -> HAVING
+    -> count(b.oid) < 2;
+-----+-------+
+| uid | total |
+-----+-------+
+| ccc |     1 |
+| ddd |     0 |
+-----+-------+
+2 rows in set (0.00 sec)
+```
+#### ORDER BY
+从 VT5-J2 中的表中，根据 ORDER BY 子句的条件对结果进行排序，生成 VT6 表。
+
+注意：唯一可使用 SELECT 中别名的地方。
+```
+mysql> SELECT
+    -> a.uid,
+    -> count(b.oid) AS total
+    -> FROM
+    -> table1 AS a
+    -> LEFT OUTER JOIN table2 AS b ON a.uid = b.uid
+    -> WHERE
+    -> a. NAME = 'mike'
+    -> GROUP BY
+    -> a.uid
+    -> HAVING
+    -> count(b.oid) < 2
+    -> ORDER BY
+    -> total DESC;
+-----+-------+
+| uid | total |
+-----+-------+
+| ccc |     1 |
+| ddd |     0 |
+-----+-------+
+2 rows in set (0.00 sec)
+```
+#### LIMIT
+LIMIT 子句从上一步得到的 VT6 虚拟表中选出从指定位置开始的指定行数据。
+
+注意：
+
+- offset 和 rows 的正负带来的影响；
+- 当偏移量很大时效率是很低的，可以这么做；
+- 采用子查询的方式优化，在子查询里先从索引获取到最大 id，然后倒序排，再取 N 行结果集；
+- 采用 INNER JOIN 优化，JOIN 子句里也优先从索引获取 ID 列表，然后直接关联查询获得最终结果。
+
+```
+mysql> SELECT
+    -> a.uid,
+    -> count(b.oid) AS total
+    -> FROM
+    -> table1 AS a
+    -> LEFT JOIN table2 AS b ON a.uid = b.uid
+    -> WHERE
+    -> a. NAME = 'mike'
+    -> GROUP BY
+    -> a.uid
+    -> HAVING
+    -> count(b.oid) < 2
+    -> ORDER BY
+    -> total DESC
+    -> LIMIT 1;
+-----+-------+
+| uid | total |
+-----+-------+
+| ccc |     1 |
+-----+-------+
+1 row in set (0.00 sec)
+```
+## 总结
+![](img/summary_01.webp)
\ No newline at end of file
--- a/DB/RDBMS/mysql/img/SQL_JOINS.webp
+++ b/DB/RDBMS/mysql/img/SQL_JOINS.webp
--- a/DB/RDBMS/mysql/img/architecture_01.webp
+++ b/DB/RDBMS/mysql/img/architecture_01.webp
--- a/DB/RDBMS/mysql/img/architecture_02.webp
+++ b/DB/RDBMS/mysql/img/architecture_02.webp
--- a/DB/RDBMS/mysql/img/query_01.webp
+++ b/DB/RDBMS/mysql/img/query_01.webp
--- a/DB/RDBMS/mysql/img/summary_01.webp
+++ b/DB/RDBMS/mysql/img/summary_01.webp
--- a/awesome/python.md
+++ b/awesome/python.md
@@ -145,6 +145,9 @@ Pandas Profiling、Sweetviz和PandasGUI都很不错，旨在简化我们的EDA
 #### Altair

 ## Python神器
+### 收集
+[轻量级 Python 流水线工具Mara Pipelines](https://github.com/mara/mara-pipelines)
+
 ### 为Python应用程序创建调用图可视化
 https://github.com/gak/pycallgraph
 https://pycallgraph.readthedocs.io/en/develop/examples/regexp_ungrouped.html#regexp-ungrouped-example
@@ -183,6 +186,11 @@ https://github.com/laike9m/Cyberbrain

 重新定义python的debug
 可视化
+### pyinstrument
+堆栈分析器
+https://github.com/joerick/pyinstrument
+
+Python 代码性能分析库，优化 Python 代码的工具。支持 Python 3.7+ 能够分析异步代码，仅需一条命令即可显示具体到函数的耗时，快速指出影响代码性能的地方，帮助提高代码性能让你的代码快人一步。

 ### Debug Visualizer
 https://github.com/hediet/vscode-debug-visualizer

--- a/golang/awesome.md
+++ b/golang/awesome.md
@@ -376,6 +376,7 @@ go tool cover -mode=count -var=CoverageVariableName xxxx.go
 ## 机器学习
 https://github.com/tensorflow/tensorflow/blob/master/tensorflow/go/README.md

+[面部检测库](https://github.com/esimov/pigo)

 ## 流程图
 https://github.com/blushft/go-diagrams

--- a/golang/go-mod.md
+++ b/golang/go-mod.md
@@ -87,6 +87,14 @@ We do this by using our good old friend go get:

 version 1.0.1. go get -u will not get version 2.0.0.

+
+### Go1.17 go get变化
+go get 只用来下载普通的包,不做编译和安装（以前go get 有一个 flag -d，指示 go get 下载对应的包，但不做编译和安装。将来的版本，-d 会成为默认行为，这样会更快。此外，因为不编译，即使目标依赖在特定平台编译报错，go get 也能正常执行完。）
+
+go install 安装可执行程序
+
+废弃 -insecure；使用 GOINSECURE 环境变量
+
 ## Module dependencies
 ![](../img/go/module_gopath.png)

@@ -215,7 +223,7 @@ index.golang.org-一个索引，用于提供新模块版本的供稿， proxy.go
 - 'limit'：返回列表的最大长度。默认值= 2000，最大值= 2000，例如 https://index.golang.org/index?limit=10


-## 
+## go mod
 go mod why
 go mod why github.com/coreos/etcd
 go mod graph 依赖输出
@@ -265,3 +273,4 @@ go list -u -f '{{if (and (not (or .Main .Indirect)) .Update)}}{{.Path}}: {{.Vers
 安装go-mod-upgrade
 ![](img/go-mod-upgrade.jpg)

+