微信消息推送之过长的文本消息拆分踩坑

场景提出

故事要从微信消息推送说起，因为微信对文本消息的推送限定字节数为2048个，多出来的直接被砍掉。所以就想要对过长的文本消息进行拆分。

起初想的是用字节数据拆分，但是发现用字节数组拆分，会出现消息转化乱码的问题，原因其实也很好理解，因为不同字符占用的字节数不一样，所以简单的拆分又重新转换为String，就会出现将本来一个字符的上半个字节转换为一个字符，下半个字节转换为一个字符，这样就出现了乱码。

因此，我决定按字符去拆分，但是按字符去拆分：(最终pageSize取600)

代码示例

拆分方法(代码片段)：

public List splitMessageByChars(String message,int pageSize) {

List messages = Lists.newArrayList();

char[] chars = message.toCharArray();

for (int i = 0;i

int j = i + pageSize;

String m ;

if (j>chars.length){

m = new String(chars,i,chars.length-i);

}else {

m = new String(chars,i,pageSize);

}

if (m.indexOf(‘\n’)==0){

messages.add(m.substring(1));

}else {

messages.add(m);

}

return messages;

}

可以看到代码中对\n做了过滤，原因是微信的文本消息推送，如果你首字符为\n的话就会报错，所以就需要对消息首字符为\n的情况做单独处理。

字节数占用的验证(代码片段)
外汇经纪商对比https://www.fx61.com/brokerlist

@Test

public void contextLoads() throws UnsupportedEncodingException {

List charsets = Lists.newArrayList();

charsets.add(StandardCharsets.UTF_8.name());

charsets.add(StandardCharsets.UTF_16.name());

charsets.add(StandardCharsets.UTF_16BE.name());

charsets.add(StandardCharsets.UTF_16LE.name());

charsets.add(StandardCharsets.ISO_8859_1.name());

charsets.add(StandardCharsets.US_ASCII.name());

charsets.add(“UTF-32”);

charsets.add(“GBK”);

charsets.add(“GB2312”);

charsets.add(“unicode”);

List ss = Lists.newArrayList();

ss.add(“测”);

ss.add(“a”);

ss.add(“aa”);

ss.add(“aaa”);

ss.add(“\n”);

ss.add(“\\”);

for (String s : ss){

//字节测试

System.out.println(“———“+”字符:\t”+s+”\t——-“);

for (String cs : charsets){

System.out.println(“在”+cs+”编码下字节数为:”+s.getBytes(cs).length);

}

执行结果

———字符: 测 ——-

在UTF-8编码下字节数为:3

在UTF-16编码下字节数为:4

在UTF-16BE编码下字节数为:2

在UTF-16LE编码下字节数为:2

在ISO-8859-1编码下字节数为:1

在US-ASCII编码下字节数为:1

在UTF-32编码下字节数为:4

在GBK编码下字节数为:2

在GB2312编码下字节数为:2

在unicode编码下字节数为:4

———字符: a ——-

在UTF-8编码下字节数为:1

在UTF-16编码下字节数为:4

在UTF-16BE编码下字节数为:2

在UTF-16LE编码下字节数为:2

在ISO-8859-1编码下字节数为:1

在US-ASCII编码下字节数为:1

在UTF-32编码下字节数为:4

在GBK编码下字节数为:1

在GB2312编码下字节数为:1

在unicode编码下字节数为:4

———字符: aa ——-

在UTF-8编码下字节数为:2

在UTF-16编码下字节数为:6

在UTF-16BE编码下字节数为:4

在UTF-16LE编码下字节数为:4

在ISO-8859-1编码下字节数为:2

在US-ASCII编码下字节数为:2

在UTF-32编码下字节数为:8

在GBK编码下字节数为:2

在GB2312编码下字节数为:2

在unicode编码下字节数为:6

———字符: aaa ——-

在UTF-8编码下字节数为:3

在UTF-16编码下字节数为:8

在UTF-16BE编码下字节数为:6

在UTF-16LE编码下字节数为:6

在ISO-8859-1编码下字节数为:3

在US-ASCII编码下字节数为:3

在UTF-32编码下字节数为:12

在GBK编码下字节数为:3

在GB2312编码下字节数为:3

在unicode编码下字节数为:8

———字符:

——-

在UTF-8编码下字节数为:1

在UTF-16编码下字节数为:4

在UTF-16BE编码下字节数为:2

在UTF-16LE编码下字节数为:2

在ISO-8859-1编码下字节数为:1

在US-ASCII编码下字节数为:1

在UTF-32编码下字节数为:4

在GBK编码下字节数为:1

在GB2312编码下字节数为:1

在unicode编码下字节数为:4

———字符: \ ——-

在UTF-8编码下字节数为:1

在UTF-16编码下字节数为:4

在UTF-16BE编码下字节数为:2

在UTF-16LE编码下字节数为:2

在ISO-8859-1编码下字节数为:1

在US-ASCII编码下字节数为:1

在UTF-32编码下字节数为:4

在GBK编码下字节数为:1

在GB2312编码下字节数为:1

在unicode编码下字节数为:4

最后为简单结论

‘\n’是一个字符，占1个字节汉字若是用UTF-8编码，占3个字节，特别的汉字占用4个字节汉字若是用GBK编码，占2个字节。

汉字若是用UTF-16编码，占2个字节，特别的汉字占用4个字节

字母若是用UTF-8编码，占1个字节。

字母若是用UTF-16编码，占2个字节。(至于下面代码中，a占4个，aa占6个,aaa占8个原因是，java在其中)

字母若是用UTF-32编码，占4个字节。字母若是用GBK编码，占1个字节。字母若是用GB2312编码，占1个字节。

微信消息推送之过长的文本消息拆分踩坑

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

微信消息推送之过长的文本消息拆分踩坑

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复