关于人工智能:浅尝-ChatGLM26B

听闻小名，说了拿下了中文榜单第一名：ChatGLM-6B第二代模型开源，拿下LLM模型中文能力评估榜单第一名

排行榜原地址：https://cevalbenchmark.com/static/leaderboard_zh.html

ChatGLM2-6B 反对

FP16，最厉害，然而须要的资源也最多
int8，中庸
int4，最笨，然而资源也起码

FP16 火力全开

int8 ，中庸者

int4，穷鬼套餐

原始代码

from transformers import AutoTokenizer, AutoModel


tokenizer = AutoTokenizer.from_pretrained(
    "THUDM/chatglm2-6b-int4", trust_remote_code=True)
model = AutoModel.from_pretrained(
    "THUDM/chatglm2-6b-int4", trust_remote_code=True).float()


model = model.eval()


response, history = model.chat(tokenizer, "你好", history=[])
print(response)

response, history = model.chat(tokenizer, "早晨睡不着应该怎么办", history=history)
print(response)

cpu 下的速度测试

因为我是穷鬼，我想看看这个 int4 模型在 cpu 下的速度

耗费的内存：5.3GB
耗费的 CPU：28 core cpu

我的 CPU：Intel(R) Xeon(R) CPU E5-2690 v4 @ 2.60GHz

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

关于人工智能:浅尝-ChatGLM26B

FP16 火力全开

int8 ，中庸者

int4，穷鬼套餐

cpu 下的速度测试

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于人工智能:浅尝-ChatGLM26B

FP16 火力全开

int8 ，中庸者

int4，穷鬼套餐

cpu 下的速度测试

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复