关于kettle:Kettle知识库问答系列之八零年代

摘要：

本文由以数据之名分享，正所谓“问君能有几多愁，恰似一江春水向东流”。
人不知;鬼不觉中，“以数据之名”Kettle解忧消愁系列专题已更新了五篇知识库文章“三十而立、四十不惑、五十而耳知天命、六十而耳顺、七十古稀”，叙述了应用Kettle作为ETL开发的常见组件应用阐明、业务场景实现逻辑、异样剖析及组件性能优化相干内容。
明天，咱们跟着小编的节奏，持续探讨第六篇Kettle知识库问答系列之八零年代，做到理念和实际的活泼对立。

一.异样剖析篇

第073问：

Host '127.0.0.1' is blocked 
because of many connection errors; 
unblock with 'mysqladmin flush-hosts'Connection
closed by foreign host？

第073答：

由异样提醒能够看出起因：同一个ip在短时间内产生太多（超过mysql数据库max_connect_errors的最大值）中断的数据库连贯而导致的阻塞。

首先，咱们先查询数据库服务端的参数max_connect_errors配置
```
show variables like 'max_connect_errors';
+--------------------+-------+
| Variable_name      | Value |
+--------------------+-------+
| max_connect_errors | 10     |
+--------------------+-------+
```
max_connect_errors是一个MySQL中与平安无关的计数器值，它负责阻止过多尝试失败的客户端以避免暴力破解明码的状况。
max_connect_errors的值与性能并无太大关系，默认是10。意味着如果某一客户端尝试连贯此MySQL服务器，然而失败（如明码谬误等等）10次，则MySQL会无条件强制阻止此客户端连贯。
如果心愿重置此计数器的值，则必须重启MySQL服务器或者执行mysql> flush hosts; 命令。当这一客户端胜利连贯一次MySQL服务器后，针对此客户端的max_connect_errors会清零。如果max_connect_errors设置过小，则网页可能提醒无奈连贯数据库服务器。
解决办法1：批改max_connect_errors的值

(1)进入Mysql数据库查看max_connect_errors：
```
show variables like '%max_connect_errors%';
```
(2)批改<span style=”color:red;”>max_connect_errors</span>的值：
```
set global max_connect_errors = 80; 
```
(3)查看是否批改胜利
```
show variables like '%max_connect_errors%';
```
- 解决办法2：应用mysqladmin flush-hosts 命令清理一下hosts文件
  。
  (1)在查找到的目录下应用命令批改：
```
> mysqladmin -u xxx -p flush-hosts
```
  或者
```
> flush hosts;
```
- 解决办法3：重启mysqld。
  也能够在重启之前，在配置文件中将该参数调大。
```
> vi /etc/my.cnf
max_connect_errors = 80
```

第074问：

Kettle发送邮件附件中文乱码，如何解决呢？

第074答：

批改spoon启动脚本配置，在set OPT=%OPT% %PENTAHO_DI_JAVA_OPTIONS% 这一行开端，增加如下配置：

"-Dmail.mime.encodefilename=true" 
"-Dmail.mime.charset=utf-8" 
"-Dfile.encoding=utf-8"

第075问：

Kettle ES Bulk Insert批量数据写入，Kibana查问有提早？

第075答：

首先，很可能短时间写入数据量和并发量过大，es的master解决不过去了，segment合并是一个很是耗时的操作。
其次也可能有以下几点起因：
- 1、分片数过多，倡议单节点的分片数不要超过1000个；shard越少，写入开销越小；
- 2、通过写入数据主动建设索引最容易呈现这种情况；
- 3、大批量写入数据refresh工夫距离过短；
- 4、索引的字段数量太多（几十上百个）

二.性能剖析篇

第076问：

你了解count(*)、count(1)、count(column)的区别嘛？

第076答：

咱们能够从以下两个角度来别离对待：

执行成果上：
- 1、count(*)包含了所有的列，相当于行数，在统计后果的时候，不会疏忽列值为NULL
- 2、count(1)包含了疏忽所有列，用1代表代码行，在统计后果的时候，不会疏忽列值为NULL
- 3、count(column)只包含列名那一列，在统计后果的时候，会疏忽列值为空（这里的空不是只空字符串或者0，而是示意null）的计数，即某个字段值为NULL时，不统计。
执行效率上：
- 1、列名为主键，count(column)会比count(1)快
- 2、列名不为主键，count(1)会比count(column)快
- 3、如果表多个列并且没有主键，则 count（1）的执行效率优于 count（*）
- 4、如果有主键，则 select count（主键）的执行效率是最优的
- 5、如果表只有一个字段，则 select count（*）最优。

第077问：

怎么我的Kettle转换或者作业运行耗时那么长？

第077答：

无论应用什么组件，首先要看工作运行表象：

1、工作执行慢？（思考为什么慢，怎么找出那个环节慢）
2、找出哪个环节接慢？
- 2.1、看各环节执行耗时，做初步察看；
- 2.2、启动探测，察看metrics步骤度量信息。
3、找出了那个环节耗时最长，思考什么起因可能导致慢逻辑？
- 3.1、表输出慢，思考是否存在查问badsql，如索引未失效；
  Kettle知识库问答系列之六十而耳顺
- 3.2、数据库查问或数据库连贯，反查操作慢，是否存在索引未失效的状况，如上一步骤数据流，数据类型和查问条件数据类型不匹配，导致badsql
- 3.3、表输入慢或插入更新慢,参考我的文章：
  Kettle知识库问答系列之三十而立
  
  Kettle知识库问答系列之四十不惑
  
  Kettle知识库问答系列之六十而耳顺
4、也可能跟源数据库服务器、etl服务器、指标数据库服务器等系统资源或数据库存在性能瓶颈。
- 4.1、须要做服务器底层参数优化（如文件句柄数等）
- 4.2、数据库层面（如server实例启动分配内存等）
- 4.3、找DBA配合做性能剖析
5、抑或是组件应用问题，再或者是组件自身存在性能瓶颈

三.实战开发篇

第078问：

如何一次性把握json解析真谛？

第078答：

对于Json字段的解析有两种规范的解决形式：

1.应用自带的JsonInput输出组件解析
- 1.1 解析单层数据
  
  解析思路：JsonInput的应用标准是，解析单层数据，能够一次性搞定；
  这里咱们间接解析第4层，itemCode的门路配置，JsonArray用key[*]获取，JsonObject用key间接获取：
  - $..extendList[*]..itemCode（此处有省略门路信息）
  - 或 <span style=”color:orangered”>$..extendList[*].itemCode</span>（此处有省略门路信息）
  - 或 $.result.paySuiteDataList[*].extendList[*].itemCode
    
    解析后果,具体如下：
- 1.2 解析多层数据，须要分档次解析。还有一点，须要保障每层解析的元数据字段必须统一，否则JsonInput组件就会跑异样啦。
  - 这里咱们须要解析第3层和第4层数据，实现数据流字段组合，先解析第3层，extendList的门路为$.result.paySuiteDataList[*].extendList，其余同层key获取门路前缀统一
  解析后果,具体如下：
  - 再在第三层extendList的门路根底上，解析第4层JsonArray数据。itemCode的门路配置为$..itemCode
  解析后果,具体如下：
2.应用Java脚本组件解析（引入FastJson或Jackson等Json序列化和反序列化包），此处以FastJson为例
- 1、import 导入FastJson包；
- 2、Json反序列化成JsonArray或JsonObject，根据Json体层次结构的对象属性来具体调用JSONObject.parseObject或JSONArray.parseArray等API办法
- 3、获取当档次key字段数据getString或getObject等API办法

第079问：

怎么玩转xml解析？

第079答：

针对于XML文件或字段串解析，有以下几个关键步骤：
以如下xml构造为示例，做具体步骤解析剖析，供参考。

  <Session_header Code="xmltest">
   <InfoSession>
      <InfoSessionData User="Username1">
         <Data>Data1</Data>
      </InfoSessionData>
   </InfoSession>

   <InfoSession>
      <InfoSessionData User="Username2">
         <Data>Data2</Data>
      </InfoSessionData>
   </InfoSession>

   <InfoSession>
      <InfoSessionData User="Username3">
         <Data>Data3</Data>
      </InfoSessionData>
   </InfoSession>

   <Session>
      <SessionData>
         <Parameter>
            <User>Username1</User>
            <Password>password123</Password>
         </Parameter>

         <OutputData>
            <Step>
               <Error_Message>Please have transaction ID and related information ready. Timestamp : 20070731 01:50:06 Session : 0201</Error_Message>
            </Step>
         </OutputData>
      </SessionData>

      <SessionData>
         <Parameter>
            <User>Username2</User>
            <Password>password345</Password>
         </Parameter>

         <OutputData>
            <Step>
               <Error_Message>error occurred Timestamp : 20070731 01:53:25</Error_Message>
            </Step>
         </OutputData>
      </SessionData>

      <SessionData>
         <Parameter>
            <User>Username3</User>
            <Password>password567</Password>
         </Parameter>

         <OutputData>
            <Step>
               <Error_Message>Transaction Id :361163328</Error_Message>
               <Status>Processed according to contract/plan provisions</Status>
            </Step>
         </OutputData>
      </SessionData>
   </Session>
</Session_header>

1、指定xml数据流起源，是文件？还是数据流字段？还是接口返回报文？
2、查看xml数据标签构造，确定循环目录Session_header/Session/SessionData;
3、明确待解析字段信息，是标签属性值？还是标签值？
- Code：为Session_header的标签属性值，而循环读取门路为Session_header/Session/SessionData，所以须要往上找两层../../，加上此处获取的是标签属性值，故配置为@Code。所以整体Code字段的XML门路为“../../@Code”
- User：此处xml构造第5层的<User>的标签值，而循环读取门路为Session_header/Session/SessionData，所以须要往下找两层，此处采纳具体门路Parameter/User。Password、Status、Error_Message标签值的XML门路配置同上逻辑
- Data：此处xml构造第4层的<Data>的标签值，而循环读取门路为Session_header/Session/SessionData，所以须要先往上找两层../../，再往下找两层InfoSession/InfoSessionData。而这里的Data标签值要依据下层InfoSessionData的标签属性User对应值，与Session_header/Session/SessionData/Parameter/User的标签值一一匹配上。这里的InfoSessionData门路要调整为InfoSessionData[@User=@_User-]，最初再取第4层的<Data>的标签值，最初Data对应的标签值的XML门路配置为../../InfoSession/InfoSessionData[@User=@_User-]/Data
4、最初咱们来具体看下，示例运行输入后果，来查看配置逻辑是否正确。

第080问：

我有200+表，须要做全量数据同步，Kettle 有没有通用的解决方案？

第080答：

如果你的ETL逻辑没有特地个性化，实践上是能够搞一套通用配置，要什么字段取什么字段，指标不配置映射关系。就能够让数据流和指标数据库依照程序主动匹配。

1个入口程序Job A，负责调用查问通用配置表查问转换 Trans A，和循环调用执行Job B；
1个执行Job B ，负责调用初始化通用参数转换Trans B，和调用外围执行转换Trans C；
1个转换Trans A负责读取配置表信息，复制到后果集；
1个转换Trans B负责从后果集读取配置行信息，赋值给设置变量；
1个转换Trans C负责执行外围ETL操作，表输出（依据配置源数据库表参数信息，获取动静SQL
```
${S_SQL}
```
或动静拼接SQL
```
select ${s_column} from ${s_tb} where ${s_where}）
```
+个性化解决（非必须）+表输入（动静指标表【${t_tb}】）。

四.KETTLE专题回顾篇

Kettle插件开发之Splunk篇

Kettle插件开发之Elasticsearch篇

Kettle插件开发之KafkaConsumerAssignPartition篇

Kettle插件开发之KafkaProducer篇

Kettle插件开发之KafkaConsumer篇

Kettle插件开发之KafkaConsumerAssignPartition篇

Kettle插件开发之MQToSQL篇

Kettle插件开发之Redis篇

Kettle疾速构建根底数据仓库平台

Kettle知识库问答系列之三十而立

Kettle知识库问答系列之四十不惑

Kettle知识库问答系列之五十而知天命

Kettle知识库问答系列之六十而耳顺

Kettle知识库问答系列之七十古稀

Kettle实战系列之Carte集群利用

Kettle实战系列之动静邮件

Kettle实战系列之基于Carte构建微服务

虽小编一己之力强劲，但读者众星之光璀璨。小编敞开心扉之门，还望倾囊赐教原创之文，期待之心满于襟怀，感谢之情溢于言表。一句话，欢送分割小编投稿您的原创文章！

关于kettle:Kettle知识库问答系列之八零年代

摘要：

一.异样剖析篇

第073问：

第073答：

第074问：

第074答：

第075问：

第075答：

二.性能剖析篇

第076问：

第076答：

第077问：

第077答：

三.实战开发篇

第078问：

第078答：

第079问：

第079答：

第080问：

第080答：

四.KETTLE专题回顾篇

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于kettle:Kettle知识库问答系列之八零年代

摘要：

一.异样剖析篇

第073问：

第073答：

第074问：

第074答：

第075问：

第075答：

二.性能剖析篇

第076问：

第076答：

第077问：

第077答：

三.实战开发篇

第078问：

第078答：

第079问：

第079答：

第080问：

第080答：

四.KETTLE专题回顾篇

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复