关于php:PHP-中文工具包-ChineseUtil-v20-发布引入-FFI-提升性能节省内存

ChineseUtil 是 PHP 中文工具包，反对汉字转拼音、拼音分词、简繁互转、数字转换、金额数字转换。

因为中文的博大精深，字有多音字，简体字和繁体字也有多种对应。并且本类库返回的所有后果，均为蕴含所有组合的数组。

本类库字典数据总共收录 73925 个汉字，包含：3955 个简体字，1761 个繁体字，68209 个其它汉字。

更新日志

v2.0.0 （2020-08-17）

反对 FFI、Swoole FFI
重构拼音分词算法
拼音分词反对可选获取数组或字符串数组的后果集

本次更新，重磅推出了 FFI 反对。FFI 动静库 C++ 代码：https://github.com/Yurunsoft/…

我的项目起源

2020 年 7 月份开始想钻研 C++，那么钻研点什么好呢。想着反哺一下 PHP 生态，那么就为我之前开发的 ChineseUtil 晋升一下性能吧。

于是有了一个多月的折腾钻研，起初是折腾 C++ 我的项目的配置。

而后是开发了 FFI C 函数，成果不是很现实。性能甚至都不如 PHP 算法，起因是 FFI 转换字符串数组，甚至是二维数组，效率切实是太低并且麻烦，有内存透露危险。

通过一番钻研，尝试了一下目前的计划，也就是调用 zend_register_functions() 函数来动态创建 PHP 函数。

相似于 PHP 扩大的开发，然而是通过 FFI 来创立的。

那么问题来了，为啥不间接做成 PHP 扩大？

我的本意呢，是让 ChineseUtil 这个库能够开箱即用，不须要编译、启用扩大啥的，麻烦。

PHP dl() 函数也能够动静加载扩大，然而很多环境中是被禁用的。

那么 FFI 来动态创建 PHP 函数，就成了最佳计划（兴许）。

模式

性能模式 (Memory)

应用 SQLite 作为数据载体，一次性加载所有数据到变量，内存占用高(80+ MB)，性能最佳。

适宜用于运行 Cli 工作。

须要 PDO 和 PDO_SQLITE 扩大反对。

通用模式 (SQLite)

应用 SQLite 作为数据载体，每次查问都通过 SQL 查问，内存占用低(100-200 KB)，性能中等。

适宜用于大部分场景。

须要 PDO 和 PDO_SQLITE 扩大反对。

兼容模式 (JSON)

应用精简过的 JSON 数据作为数据载体，一次性加载所有数据到变量，内存占用中(30+ MB)，性能差。

内存占用量以理论为准，依据版本、扩大等环境的不同，占用的内存容量不一样，上述值为我电脑上的状况，仅供参考。

适宜无奈应用 PDO 的场景。

因为精简了数据，一些拼音后果须要通过代码计算解决才能够得出，所以性能较差。

FFI 模式 (FFI)

须要 PHP >= 7.4 并且启用 FFI 扩大，代码全副由 C++ 开发，性能和内存占用都比 PHP 实现的要好。

FFI 动静库 C++ 代码：https://github.com/Yurunsoft/…

Swoole FFI 模式 (SwooleFFI)

须要 PHP >= 7.4 并且启用 FFI、Swoole 扩大，代码全副由 C++ 开发，性能和内存占用都比 PHP 实现的要好。

不会阻塞 PHP 代码所在线程。

默认状况下，优先应用通用模式，如果环境不反对 PDO 将采纳兼容模式。

你能够在未执行任何初始化或者转换解决之前，设置应用何种模式运行。

// 设为性能模式
Chinese::setMode('Memory');
// 设为通用模式
Chinese::setMode('SQLite');
// 设为兼容模式
Chinese::setMode('JSON');
// 设为 FFI 模式
Chinese::setMode('FFI');
// 设为Swoole FFI 模式
Chinese::setMode('SwooleFFI');

无论何种模式，拼音分词所需数据总是从 JSON 数据中加载。

应用阐明

Composer 间接装置

composer require yurunsoft/chinese-util

Composer 我的项目配置引入

"require": {
    "yurunsoft/chinese-util" : "~1.1"
}

性能

汉字转拼音

use \Yurun\Util\Chinese;
use \Yurun\Util\Chinese\Pinyin;
$string = '祝贺發財！123';
echo $string, PHP_EOL;

echo '全拼:', PHP_EOL;
var_dump(Chinese::toPinyin($string, Pinyin::CONVERT_MODE_PINYIN));

echo '首字母:', PHP_EOL;
var_dump(Chinese::toPinyin($string, Pinyin::CONVERT_MODE_PINYIN_FIRST));

echo '读音:', PHP_EOL;
var_dump(Chinese::toPinyin($string, Pinyin::CONVERT_MODE_PINYIN_SOUND));

echo '读音数字:', PHP_EOL;
var_dump(Chinese::toPinyin($string, Pinyin::CONVERT_MODE_PINYIN_SOUND_NUMBER));

echo '自选返回格局 + 以文本格式返回 + 自定义分隔符:', PHP_EOL;
var_dump(Chinese::toPinyin($string, Pinyin::CONVERT_MODE_PINYIN | Pinyin::CONVERT_MODE_PINYIN_SOUND_NUMBER, ' '));

echo '所有后果:', PHP_EOL;
var_dump(Chinese::toPinyin($string));

echo '不宰割无拼音字符:', PHP_EOL;
var_dump(Chinese::toPinyin($string, Pinyin::CONVERT_MODE_PINYIN, ' ', false));

// 后果太长，请自行运行代码查看

拼音分词

后果是字符串：

use \Yurun\Util\Chinese;
$string2 = 'xianggang';
echo '"', $string2, '"的分词后果:', PHP_EOL;
var_dump(Chinese::splitPinyin($string2));

输入后果:

"xianggang"的分词后果:
array(2) {
  [0]=>
  string(11) "xiang gang"
  [1]=>
  string(12) "xi ang gang"
}

后果是数组：

use \Yurun\Util\Chinese;
$string2 = 'xianggang';
echo '"', $string2, '"的分词后果:', PHP_EOL;
var_dump(Chinese::splitPinyinArray($string2));

输入后果:

"xianggang"的分词后果:
array(2) {
  [0]=>
  array(2) {
    [0]=>
    string(5) "xiang"
    [1]=>
    string(4) "gang"
  }
  [1]=>
  array(3) {
    [0]=>
    string(2) "xi"
    [1]=>
    string(3) "ang"
    [2]=>
    string(4) "gang"
  }
}

简繁互转

use \Yurun\Util\Chinese;
$string3 = '中华人民共和国！祝贺發財！';
echo '"', $string3, '"的简体转换:', PHP_EOL;
var_dump(Chinese::toSimplified($string3));
echo '"', $string3, '"的繁体转换:', PHP_EOL;
var_dump(Chinese::toTraditional($string3));

输入后果:

"中华人民共和国！祝贺發財！"的简体转换:
array(1) {
  [0]=>
  string(39) "中华人民共和国！恭喜发财！"
}
"中华人民共和国！祝贺發財！"的繁体转换:
array(1) {
  [0]=>
  string(39) "中華人民共和國！祝贺發財！"
}

数字转换

use Yurun\Util\Chinese\Number;
function test($number)
{
    $chinese = Number::toChinese($number, [
        'tenMin'    =>  true, // “一十二” => “十二”
    ]);
    $afterNumber = Number::toNumber($chinese);
    echo $number, '=>', $chinese, '=>', $afterNumber, '=>', 0 === bccomp($number, $afterNumber, 20) ? 'true' : 'false', PHP_EOL;
}

test(1.234);
test(-1234567890.666);
test(pi());

输入后果:

1.234=>一点二三四=>1.234=>true
-1234567890.666=>负十二亿三千四百五十六万七千八百九十点六六六=>-1234567890.666=>true
3.1415926535898=>三点一四一五九二六五三五八九八=>3.1415926535898=>true

金额数字转换

use Yurun\Util\Chinese\Money;
function test($number)
{
    $chinese = Money::toChinese($number, [
        'tenMin'    =>  true, // “一十二” => “十二”
    ]);
    $afterMoney = Money::toNumber($chinese);
    echo $number, '=>', $chinese, '=>', $afterMoney, '=>', 0 === bccomp($number, $afterMoney) ? 'true' : 'false', PHP_EOL;
}

test(1.234);
test(-1234567890.666);

输入后果:

输入后果:
1.234=>壹圆贰角叁分肆厘=>1.234=>true
-1234567890.666=>负壹拾贰亿叁仟肆佰伍拾陆万柒仟捌佰玖拾圆陆角陆分陆厘=>-1234567890.666=>true

关于php:PHP-中文工具包-ChineseUtil-v20-发布引入-FFI-提升性能节省内存

更新日志

我的项目起源

模式

性能模式 (Memory)

通用模式 (SQLite)

兼容模式 (JSON)

FFI 模式 (FFI)

Swoole FFI 模式 (SwooleFFI)

应用阐明

Composer 间接装置

Composer 我的项目配置引入

性能

汉字转拼音

拼音分词

简繁互转

数字转换

金额数字转换

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于php:PHP-中文工具包-ChineseUtil-v20-发布引入-FFI-提升性能节省内存

更新日志

我的项目起源

模式

性能模式 (Memory)

通用模式 (SQLite)

兼容模式 (JSON)

FFI 模式 (FFI)

Swoole FFI 模式 (SwooleFFI)

应用阐明

Composer 间接装置

Composer 我的项目配置引入

性能

汉字转拼音

拼音分词

简繁互转

数字转换

金额数字转换

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复