关于分布式计算:ODPS-double类型转型精度问题总结

68次阅读

共计 2664 个字符，预计需要花费 7 分钟才能阅读完成。

简介：ODPS double 类型转型精度问题总结

从相差 0.0000000000001 说起，本文次要是对 odps 的 Double 和 Decimal 的精度应用问题做一个总结。

客户开发人员在应用 maxcompute 对 double 数据类型求和时呈现谬误（数据表由 oracle 数据库抽取到 maxcompute, 对应字段类型为 number 到 double），正确的后果是 1943.38，但求和后果为 1943.3799999999999，后果相差了 0.0000000000001，这个差值的比例能够这样类比——如果地球的周长（40076.02 千米）作为单位 1 的话，那么误差换算进去是 4 微米，差不多是一个红细胞的大小。绝大多数的状况下，咱们能够疏忽这个问题，然而在金融线，“差一微米也不行”。

double 适宜做科学计算，如果用来进行准确计算，会带来精度失落的问题。二进制的浮点数计算规范是 IEEE 二进制浮点数算术规范（ANSI/IEEE Std 754-1985），IEEE 754 规定了四种示意浮点数值的形式：单精确度（32 位）、双精确度（64 位）、延长单精确度（43 比特以上，很少应用）与延长双精确度（79 比特以上，通常以 80 位实现），double 类型通常指“双精确度（64 位）”，53 位有效数字。要了解 double 的精度问题，咱们从最根底的二机制与十进制转换看起，比方：如何用二进制示意 0.1？小数是用整数除法来示意的，0.1=1/10（十进制）=1/1010（二进制），会失去一个除不尽的值，用 double 类型来示意这个数的时候就必须要进行截断（舍入），失去的后果是 0.00011001100110011001100110011001100110011001100110011010，如果把后果转回十进制，会发现这个值曾经不是 0.1，精度问题产生了。同理，double 类型在进行计算也会造成同样的精度问题。

double 计算会有精度问题，为了失去准确的后果，就要在计算之前进行解决，转换成无损计算的类型之后，再进行计算，maxcompute 提供了这种无损类型——decimal。

可怜的是，间接转型会遇到以下两个问题：
1）转型也会有精度损失。
2）同列的某些值看起来没有精度损失，另一些有，呈现体现不统一的状况。

double 间接转 decimal 会带来精度损失，因为 double 的小数位无效位比 decimal 要少，decimal 会对最初的几位进行随机数补齐，引入了精度问题。
同列中某些值没有呈现任何精度损失，因为客户应用了 2.0 数据类型版本，在这个版本中 maxcompute 对转换进行了优化，对位数较小的数（测试后果为 7 位，供参考）采纳了不同的转型算法（相似 decimal 的解决办法，转换成整数进行计算，保障无损）。位数较大的数无奈采纳该算法，规范算法解决，会呈现精度损失。

decimal 类型的计算尽管是无损的，然而 decimal 在计算过程可能会产生精度位数的变动，导致下图中的问题：计算结果插入后果表中时呈现 ”incompatible type” 的谬误。

问题呈现的起因是混用了 1.0 decimal 类型和 2.0 decimal 类型。若想无效的防止 decimal 计算导致的问题，须要遵循：

从建表开始，始终应用同一种数据类型，不要混用。
应用 2.0 数据类型，建源表和后果表时指定具体的 decimal 精度位，如 decimal(35,6)，防止计算中精度位数的变动。

如果心愿防止精度问题，并且在计算过程中防止后果转型，那么能够将所有波及准确计算的字段在建表时就采纳 2.0 数据类型，并且指定所须要的精度，例如：

set odps.sql.decimal.odps2=true;
CREATE TABLE `ods_test` (` account_balance` DECIMAL(38, 18) COMMENT '账户余额'
)

在后续的查问和计算过程中，设置“odps.sql.decimal.odps2=true”后进行操作，例如：

set odps.sql.decimal.odps2=true;
select sum(account_balance) from ods_test

本篇次要探讨了计算（数据开发）过程中 double 类型精度问题，maxcompute 在数据集成的过程中会不会产生精度问题？最佳实际是什么？预知后事如何，且听下回分解！

[1] https://blog.csdn.net/liliuteng/article/details/8062019
[2] https://cloud.tencent.com/developer/article/1468551
[3] https://blog.csdn.net/lkforce/article/details/81564927
[4] https://www.zhihu.com/question/42024389/answer/93528601
[5] https://help.aliyun.com/product/27797.html?spm=a2c4g.11186623.6.540.615f44f675F7Wi
[6] https://baike.baidu.com/item/IEEE+754/3869922?fr=aladdin

咱们是阿里云智能寰球技术服务 -SRE 团队，咱们致力成为一个以技术为根底、面向服务、保障业务零碎高可用的工程师团队；提供业余、体系化的 SRE 服务，帮忙广大客户更好地应用云、基于云构建更加稳固牢靠的业务零碎，晋升业务稳定性。咱们冀望可能分享更多帮忙企业客户上云、用好云，让客户云上业务运行更加稳固牢靠的技术，您可用钉钉扫描下方二维码，退出阿里云 SRE 技术学院钉钉圈子，和更多云上人交换对于云平台的那些事。

版权申明： 本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

正文完

算法

发表至：算法

2021-03-24

0

关于算法:分治法之棋盘覆盖复牌问题c实现

关于算法:Elec4621-Lab2

关于算法:R语言主成分分析PCA葡萄酒可视化主成分得分散点图和载荷图

关于算法:数据处理COMP20008

关于监控:m3db资源开销聚合降采样查询限制等注意事项

关于分布式计算:ODPS-double类型转型精度问题总结

1. 问题形容

2. 问题的根因：double 求和带来精度问题

3. 如何解决——double 转型 decimal

3.1 double 间接转成 decimal 再次遇到问题

4. 转换成 decimal 就功败垂成了么？

4.1 incompatible type exception

4.2 如何防止

5. 防止转型问题的最佳实际

6. 写在最初

参考文档

Just My Socks（注册教程内含优惠码）

关于分布式计算:ODPS-double类型转型精度问题总结

1. 问题形容

2. 问题的根因：double 求和带来精度问题

3. 如何解决——double 转型 decimal

3.1 double 间接转成 decimal 再次遇到问题

4. 转换成 decimal 就功败垂成了么？

4.1 incompatible type exception

4.2 如何防止

5. 防止转型问题的最佳实际

6. 写在最初

参考文档

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）