Oracle、SQL Server和MySQL的隐式转换异同

这次的组内分享,选择了在不同数据库中的隐式转换这个话题。隐式转换是个老生常谈的问题了,不同的数据库,隐式转换的影响因素有所不同,我们通过一些例子来看一下。但是问题来了,如何避免隐式转换带来的负面影响?一方面是编程习惯的问题,另一方面就需要一些人肉/自动化的手段主动发现问题,如果两者都没有,就只能被动等着出问题,再找解决方案了。

1. Oracle的隐式转换

隐式转换的历史文章,

《如何找到隐式转换的SQL?》

《从隐式转换案例,来挖掘开发人员的技能提升》

《浅谈显式转换和隐式转换》

《隐式转换的案例场景》

《一次有意思的错选执行计划问题定位》

如下是官方文档,对显式转换和隐式转换的介绍,顾名思义,显式转换就是人为指定数据类型的转换关系,隐式转换则是数据库自动进行的类型转换,推荐前者,因为隐式转换,可能带来一些风险和隐患,例如隐式转换列不能用索引、隐式转换还受到系统参数、不同数据库版本实现功能差异的影响,

P.S. 

https://docs.oracle.com/en/database/oracle/oracle-database/21/sqlrf/Data-Type-Comparison-Rules.html

这是显式转换的矩阵,

这是隐式转换的矩阵,

这是常用到的字符串类型之间的转换矩阵,

创建测试表,

SQL> desc t0
Name Null? Type
------------- -------- -----------------
ID VARCHAR2(1000)


SQL> select count(*) from t0;
COUNT(*)
----------
97112


SQL> create index idx_t0_01 on t0(id);
Index created.

测试场景1

构造where varchar2=number,

SQL> var x number;
SQL> exec :x := 1;
PL/SQL procedure successfully completed.


SQL> select * from t0 where id = :x
no rows selected

未使用索引,而是用了全表扫,

原因就是谓词条件显示对左值用了TO_NUMBER()函数,

测试场景2

构造where varchar2=varchar2,

SQL> var z varchar2(1000);
SQL> exec :z := 'a';
PL/SQL procedure successfully completed.


SQL> select * from t0 where id = :z;
no rows selected

此时选择了索引,

这是一些在Oracle中,常见的隐式转换,各位在开发过程中务必注意,

where varchar2=number      ->  where to_number(varchar2)=number

where varchar2=nvarchar2  ->  where sys_op_c2c(varchar2)=nvarchar2

where date=timestamp         ->  where to_timestamp(date)=timestamp

2. SQL Server的隐式转换

这是官网给出的数据类型转换矩阵,

P.S.

https://docs.microsoft.com/zh-cn/sql/t-sql/data-types/data-type-conversion-database-engine?view=sql-server-ver15

《见识一下SQL Server隐式转换处理的不同》中介绍了一种SQL Server隐式转换的案例,和Oracle不同的是,SQL Server的隐式转换,还可能和排序规则相关。

测试场景1

创建一个SQL_Latin1_General_CP1_CI_AS排序规则的数据库,测试表如下,一个字段是varchar,一个字段是nvarchar,都创建了索引,

create table test(c1 nvarchar(200), c2 varchar(200));
insert into test(c1,c2) select cast(a.name as nvarchar(200)), a.name from master.dbo.spt_values a where a.number<10000;
create nonclustered index idx_test_01 on test(c1);
create nonclustered index idx_test_02 on test(c2);

(1) 构造where nvarchar=varchar,

select * from test where c1='a';

此时选择了Index Seek,再回表的操作,

(2) 构造where varchar=nvarchar,

select * from test where c2=N'a';

我们看到执行计划中提醒表达式列出现了类型转换,这会影响执行计划选择“SeekPlan”,执行了CONVERT_IMPLICIT函数的列就是左值c2,强制转换为nvarchar,“SeekPlan”的执行计划,我理解就是Oracle中的Index Unique Scan或Index Range Scan,而且当前确实选择了全表扫描,Table Scan,这就是隐式转换,导致不能使用索引的场景,

测试场景2

创建一个Latin1_General_CP1_CI_AS排序规则的数据库,和场景1相同,测试表如下,一个字段是varchar,一个字段是nvarchar,都创建了索引,

create table test(c1 nvarchar(200), c2 varchar(200));
insert into test(c1,c2) select cast(a.name as nvarchar(200)), a.name from master.dbo.spt_values a where a.number<10000;
create nonclustered index idx_test_01 on test(c1);
create nonclustered index idx_test_02 on test(c2);

(1) 构造where nvarchar=varchar,

select * from test where c1='a';

效果和场景1是相同的,此时选择了Index Seek,再回表的操作,

(2) 构造where varchar=nvarchar,

select * from test where c2=N'a';

这时就可以看出一些不同了,场景1中相同语句,因为隐式转换,导致用了Table Scan,而此处,虽然谓词提示CONVERT_IMPLICIT(c2),但未作为Warning,而且执行计划还是使用的Index Seek,路径上和场景1稍有不同,

Jonathan Kehayias在这篇文章中,提到了SQL_Latin1_General_CP1_CI_AS和Latin1_General_CP1_CI_AS这两种排序规则不同数据类型的转换关系。

P.S.

Implicit Conversions that cause Index Scans

(1) SQL_Latin_General_CP1_CI_AS排序规则

varchar到nvarchar的隐式转换,是黄色的,意思是Causes Scan,即忽略索引,

(2) Latin_General_CI_AS排序规则

varchar到nvarchar的隐式转换,是绿色的,允许用Seek,

由此看出,SQL Server中不同的排序规则对隐式转换的影响可能是不同的,但是SQL Server中有非常多的排序规则,这就比较尴尬了,难道你能列举出所有排序规则对应的隐式转换的影响?

3. MySQL的隐式转换

MySQL的官方文档,同样强调了“For comparisons of a string column with a number, MySQL cannot use an index on the column to look up the value quickly.”,

P.S.

https://dev.mysql.com/doc/refman/5.7/en/type-conversion.html?spm=5176.100239.blogcont47339.5.1FTben

译文如下,

1. 两个参数至少有一个是 NULL 时,比较的结果也是 NULL,例外是使用 <=> 对两个 NULL 做比较时会返回 1,这两种情况都不需要做类型转换。

2. 两个参数都是字符串,会按照字符串来比较,不做类型转换。

3. 两个参数都是整数,按照整数来比较,不做类型转换。

4. 十六进制的值和非数字做比较时,会被当做二进制串。

5. 有一个参数是 TIMESTAMP 或 DATETIME,并且另外一个参数是常量,常量会被转换为 timestamp。

6. 有一个参数是 decimal 类型,如果另外一个参数是 decimal 或者整数,会将整数转换为 decimal 后进行比较,如果另外一个参数是浮点数,则会把 decimal 转换为浮点数进行比较。

7. 所有其他情况下,两个参数都会被转换为浮点数再进行比较。

数值型和字符串型之间的隐式转换,可以参考如下,

MySQL中隐式转换,还可能和字符集校对规则相关,

CREATE TABLE test1 (
ID varchar(64) COLLATE utf8_bin NOT NULL,
TASK_ID varchar(64) COLLATE utf8_bin DEFAULT NULL,
TEXT varchar(4000) COLLATE utf8_bin DEFAULT NULL,
PRIMARY KEY (ID)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;


CREATE TABLE test2 (
ID int not null auto_increment,
TASK_ID varchar(64) DEFAULT NULL,
TEXT varchar(4000) DEFAULT NULL,
PRIMARY KEY (ID),
unique key unique_test2 (task_id) using btree
ENGINE=InnoDB DEFAULT CHARSET=utf8;

如下例子中,字符集校对规则有所区别,

explain select * from test1, test2 where test1.task_id=test2.task_id;

没使用上索引,

MySQL源代码中,能看到确实用到了字符集校对规则

但是能在SQL层面指定字符集校对规则,

explain select * from test1, test2 where test1.task_id COLLATE utf8_general_ci=test2.task_id;

此时就可以用到索引了,

MySQL的隐式转换,还和字符集相关,

CREATE TABLE test3 (
ID int not null auto_increment,
TASK_ID varchar(64) DEFAULT NULL,
TEXT varchar(4000) DEFAULT NULL,
PRIMARY KEY (ID)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;


CREATE TABLE test4 (
ID int not null auto_increment,
TASK_ID varchar(64) DEFAULT NULL,
TEXT varchar(4000) DEFAULT NULL,
PRIMARY KEY (ID),
unique key unique_test2 (task_id) using btree
) ENGINE=InnoDB DEFAULT CHARSET=gbk;

确实索引不可用,

explain select * from test3, test4 where test3.task_id=test4.task_id;

但是不太清楚,能否在SQL层面指定字符集解决这个问题?

上面说了这么多,其实我们也都知道隐式转换的风险,而且不同数据库,隐式转换的影响因素还不多,更增加了难度,与其冒着风险,找各种的补救,不如从源头控制,避免隐式转换,对一些常规类型(字符串、数值、日期等),结合业务需求,定义合适的字段类型,程序中的变量、SQL写法等,与定义类型保持一致,就可以解决大部分隐式转换的问题。退而求其次,如果不能做到规范的设计和开发,至少在开发测试的阶段,通过工具或人肉,检索下当前系统中用了全表扫描的语句,再根据字段是否存在索引、where条件两侧的数据类型等,判断是否因为书写不当造成了隐式转换。

近期更新的文章:

《JDK的版本号解惑》

《理财投资和个人投资的闲聊》

最近碰到的几个问题

《新增字段在数据块中的体现》

《SQL Server的索引碎片》

文章分类和索引:

《公众号700篇文章分类和索引》

声明:文中观点不代表本站立场。本文传送门:http://eyangzhen.com/136475.html

联系我们
联系我们
分享本页
返回顶部