共计 5720 个字符,预计需要花费 15 分钟才能阅读完成。
前言
每天都要浏览大量 AI 相干新闻,是不是感到信息量爆炸,无效信息少?
这么多新产品和新工具,到底哪些是真正是有价值的,哪些只是塌实的一时热点?
想参加 AI 产品和工具的开发,从哪里可能取得大量的灵感和思路?
我会把 AI 相干的新趋势、新想法、新思路,和成熟 AI 产品、工具、模型等整顿在这里,帮忙大家去除信息乐音,更高效的理解 AI 前沿倒退。
次要围绕:
- AI 业界趋势、想法、思路
- AI 产品
- AI 开发者工具
- AI 模型
作为本期刊的第二期,咱们次要围绕 2023 年 5 - 6 月公布的相干信息为主,观众敌人们请留神时效性。
想法 / 思路
大模型训练的资料会耗尽吗?
以下节选自阮一峰科技周刊中阮老师的集体思考,感觉蛮有意思。
当初的新闻报道,天天有 AI 的新闻,外面会提到很多模型。
分辨模型的强弱,有一个要害指标,就是看它有多少个参数。一般来说,参数的数量越多,模型就越强。
GPT-2 有 15 亿个参数,GPT-3 和 ChatGPT 有 1750 亿个,GPT-4 没有颁布这个指标,据传比上一代大 5 倍以上。
那么,什么是参数呢?依照我浅显的了解,参数相当于模型预测时,所根据的神经网络的节点数量。参数越多,就代表了模型所思考的各种可能性越多,计算量越大,成果越好。
既然参数越多越好,那么参数会有限增长吗?
答案是不会的,因为参数受到训练资料的制约。必须有足够的训练资料,能力计算出这些参数,如果参数有限增长,训练资料势必也要有限增长。
我看到的一种说法是,训练资料至多应该是参数的 10 倍。举例来说,一个辨别猫照片和狗照片的模型,假设有 1,000 个参数,那么至多应该用 10,000 张图片来训练。
ChatGPT 有 1750 亿个参数,那么训练资料最好不少于 17500 亿个词元(token)。” 词元 ” 就是各种单词和符号,以小说《红楼梦》为例,它有 788,451 字,就算 100 万个词元。那么,ChatGPT 的训练资料相当于 175 万本《红楼梦》。
依据报道,ChatGPT 实际上用了 570 GB 的训练资料,来自维基百科、互联网图书馆、Reddit 论坛、推特等等。
大家想一想,更弱小的模型须要更多的训练资料,问题是能找到这么多资料吗,会不会资料有一天不够用?
我通知大家,真的有学者写过论文,钻研这个问题。
过来 10 年来,AI 训练数据集的增长速度远快于全世界的数据存量的增长速度。如果这种趋势继续下去,耗尽数据存量是不可避免的。
论文给出了三个工夫点。
- 2026 年:用完个别的语言数据
- 2030 年~2050 年:用完所有的语言数据
- 2030 年~2060 年:用完所有的视觉数据
也就是说,依据他们的预测,大略三四年后,新的训练资料就会很难找。最迟三十年后,全世界所有资料都不够 AI 的训练。
上图是作者给的趋势图,虚线是训练资料的增长速度,红线和蓝线是模型增长速度的不同预测。到了 2035 年当前,这三根线就合在一起了,曲线变得越来越平。作者认为,到了那时,因为没有足够的训练资料,AI 模型的倒退速度可能就会显著放缓。如果他的预测是正确的,就意味着,跟大家想的不一样,AI 飞速发展不会继续很久。当初兴许就是倒退最快的阶段,而后就会开始加快,等到本世纪中叶就会显著加快,靠近停滞,跟量子物理学的现状差不多。
上面的新闻也探讨了该问题,在这里节选片段。
https://m.thepaper.cn/newsDetail_forward_23467960
什么是模型解体?
实质上,当 AI 大模型生成的数据最终净化了后续模型的训练集时,就会产生“模型解体”。
论文中写道,“模型解体指的是一个进化的学习过程,在这个过程中,随着工夫的推移,模型开始忘记不可能产生的事件,因为模型被它本人对事实的投射所毒化。”
一个假如的场景更有助于了解这一问题。机器学习(ML)模型在蕴含 100 只猫的图片的数据集上进行训练——其中 10 只猫的毛色为蓝色,90 只猫的毛色为黄色。该模型理解到黄猫更广泛,但也示意蓝猫比理论状况偏黄一点,当被要求生成新数据时,会返回一些代表“绿毛色的猫”的后果。随着工夫的推移,蓝色毛色的初始特色会在间断的训练周期中逐步隐没,从逐步变成绿色,最初变成黄色。这种渐进的扭曲和多数数据特色的最终失落,就是“模型解体”。
笔者认为,尽管训练资料耗尽离咱们当初还很边远,不过如果训练所须要的资料始终以指数级增长,而咱们现有的资料又没有跟上时,的确有可能会提前碰到这种瓶颈。
OpenAI 反对函数调用性能
对于 OpenAI 的函数调用性能,一个比喻:以前让 OpenAI 答复数学题,只能靠催眠(你是数学专家),而后答复,经常答错;当初让 OpenAI 答复数学题,同时给他一个计算器(他晓得什么时候该用计算器,然而他本人不会用),当他辨认出这是数学题时,会把数字吐给你,你本人再用计算器算后果,再把后果和问题扔给他做答复。这也是很多其余新模型会附带的性能,相似模型插件。
长处:精确又智能。后果是你本人的函数计算的,必定错不了;
疾速整顿播客笔记
阿里的通义听悟能够疾速整顿音频的内容,转化为文字。
咱们首先须要下载播客音频,将音频导入通义听悟平台,1 个小时的音频大略只须要 5 分钟导入和解决;
通义听悟解决后,主动生成章节和声音转录的文本(可能辨别不同谈话人),反对文本翻译成中文;
随后能够依据主动生成的章节或关键词疾速跳转收听感兴趣的内容,不感兴趣的一律跳过;随时在右侧做笔记;
AI 创造计算机算法
https://www.ithome.com/0/698/425.htm
谷歌人工智能部门 DeepMind 发表,应用 AI 发现了一种新的算法 AlphaDev,把排序速度进步了 70%,细节能够看原文。
模型
如何给大模型排行?
随着大模型钻研的风行,十分多模型在市面上大乱斗,也有十分多的模型排行榜。咱们该如何迷信的对模型进行排名呢?
在模型硬指标上,有以下几个方面须要比照:
- 模型大小
- 训练数据集
- 训练和推理效率
- 应用领域(单模态 / 多模态等)
- …
除开硬指标,我在网上理解了一下,目前针对 LLM 公认的权威排行机构和论文还比拟少,比拟出名的有 LMSYS
https://chat.lmsys.org/
Large Model Systems Organization(LMSYS ORG)是由 UC Berkeley 与 UCSD 和 CMU 单干的学生和教职员工创建的凋谢钻研组织。咱们的指标是通过共同开发凋谢数据集,模型,零碎和评估工具来使每个人都能够拜访大型模型。咱们的工作包含机器学习和零碎中的钻研。咱们培训大型语言模型并使其宽泛应用,同时还开发了分布式系统以减速其培训和推理。
国内有一个 CLUE 排行榜,不过我看了下,感觉有点模拟国外的模型评测 GLUE 和 SuperGLUE 的感觉,大家能够参考,然而具体认可度有待察看。
https://github.com/CLUEbenchmark/SuperCLUELYB
文字转音频 Bark
https://github.com/suno-ai/bark
Bark 是由 Suno 创立的基于转换器的文本到音频模型。Bark 能够生成高度真切的多语言语音以及其余音频 – 包含音乐、背景乐音和简略的音效。该模型还能够产生非语言交换,如大笑、叹气和哭泣。截至 6 月 20 号 Github 曾经 20k Star。
简略来说,你能够写一段文本,并抉择一种语调,给机器朗诵。但与此同时,反对:
- 除了英语外,还反对他国语言
- 反对一些非文字的声音,比方清嗓子、大笑、哼哼等
- 通过加上音乐符号♪,让他用唱歌的模式朗诵。
- 能够给他输出音频,他会输入模拟腔调
- ….(还有很多能力)
反对的语言:
Language | Status |
---|---|
English (en) | ✅ |
German (de) | ✅ |
Spanish (es) | ✅ |
French (fr) | ✅ |
Hindi (hi) | ✅ |
Italian (it) | ✅ |
Japanese (ja) | ✅ |
Korean (ko) | ✅ |
Polish (pl) | ✅ |
Portuguese (pt) | ✅ |
Russian (ru) | ✅ |
Turkish (tr) | ✅ |
Chinese, simplified (zh) | ✅ |
我集体在 HuggingFace 试用了一下,真的很牛,不过一开始轻易试用时候稍有不慎会呈现很奇怪的合成音,听起来蛮恐怖。就和应用 Stable Diffusion 时画出了非人类的头一样 …
生物医学畛域大模型
LLaVA-Med:面向生物医学畛域的大语言模型和视觉模型
微软公布了 LLaVA-Med,要做医药畛域的 GPT-4,反对多模态。能够辨认 X 光片的信息。
Github:https://github.com/microsoft/LLaVA-Med
北京智源研究院 LLM Aquila-7B
Aquila-7B:北京智源研究院凋谢的国产可商用的 LLM
反对中英双语常识、反对商用许可协定、合乎国内数据合规要求。后续还会公布 33B 模型。
Github:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
智源研究院和智谱 AI 同源,后者目前把握了 GLM 系列。目前看后续前者更次要做学术研究,后者次要做商业化。
Aquila 语言大模型在技术上继承了 GPT-3、LLaMA 等的架构设计长处,Aquila 语言大模型是在中英文高质量语料根底上从0开始训练的,通过数据品质的管制、多种训练的优化办法,实现在更小的数据集、更短的训练工夫,取得比其它开源模型更优的性能。也是首个反对中英双语常识、反对商用许可协定、合乎国内数据合规须要的大规模开源语言模型。
Aquila-7B 和 Aquila-33B 开源模型应用 智源 Aquila 系列模型许可协定, 原始代码基于 Apache Licence 2.0。
王小川 百川 LLM
王小川组建的「百川智能」正式推出首个 70 亿参数中英文 LLM——baichuan-7B。国产、开源、收费、可商用。
Github:https://github.com/baichuan-inc/baichuan-7B
产品
金融 GPT:FinGPT
https://github.com/AI4Finance-Foundation/FinGPT
作者应用中国金融市场数据和美国金融市场数据,别离用 ChatGLM 和 LLaMA 模型,配合 Lora 训练,做出了 FinGPT
可能实现如下利用:
- 智能投顾
- ChatGPT 能够像专业人士一样进行投资倡议。
- 在这个例子中,苹果的 股价上涨 与 ChatGPT 剖析新闻的 预测相符。
- 量化交易
- 咱们还能够应用新闻、社交媒体推文或者公司公告来 构建情感因子,右侧的局部是由 Twitter 推文和 ChatGPT 信号产生的交易后果,数据来自于一个称为 stocknet-dataset 的数据集。
- 正如您从图片中所看到的,由 ChatGPT 生成的交易信号 十分杰出 ,咱们甚至能够 仅通过依据 Twitter 情感因子交易而取得良好的后果。
- 因而,咱们能够通过 联合价格因素 来取得更好的后果。
- 低代码开发
- 咱们能够应用 LLMs 的帮忙来编写代码。
- 右侧显示了咱们如何 疾速高效地 开发咱们的因子和其余代码。
微软 HuggingGPT
https://huggingface.co/spaces/microsoft/HuggingGPT
解决不同畛域和模态的 AI 工作是迈向人工智能的要害一步。尽管当初有大量的 AI 模型能够用于解决不同的畛域和模态的问题,然而它们不能解决简单的 AI 问题。因为大模型 (LLM) 在语言了解、生成、交互和推理上展现出很强的能力,所以作者认为 LLM 能够充当一个控制器的作用来治理现有的 AI 模型以解决简单的 AI 工作,并且语言能够成为一个通用的接口来启动 AI 解决这些工作。基于这个想法,作者提出 HuggingGPT,一个框架用于连贯不同的 AI 模型来解决 AI 工作。
具体的步骤是:
- 工作布局:应用 ChatGPT 来获取用户申请
- 模型抉择:依据 Hugging Face 中的函数形容抉择模型,并用选中的模型执行 AI 工作
- 工作执行:应用第 2 步抉择的模型执行的工作,总结成答复返回给 ChatGPT
- 答复生成:应用 ChatGPT 交融所有模型的推理,生成答复返回给用户
通过 ChatGPT 的强语言能力和 Hugging Face 丰盛的模型库,HuggingGPT 能够解决大部分简单的 AI 工作,为走向真正的人工智能奠定基石。
AI 知识库
https://albus.org/
我本人试了试,有一个很好的思路。当大家写文章,或者做视频没灵感时,能够当初心里想一个主题,让 AIbus 开始发散思维,进行简略的头脑风暴。
你能够给他设定文字基调:
能够设定文案的浏览受众,生成对应理解力的语句:
假如我要写一篇对于 Java String 字符串的介绍的博客,我以 Java String 为关键词,下图是他为我一步步生成的文案,并且配图也是生成的。
我当初越来越感觉写技术博客越来越是个伪命题,尤其是基础知识相干的博客,就算写进去了也是给 AI 大模型输送养分。
AI 视频换格调
给它一个原始视频,而后抉择一种想要的格调,AI 帮你主动生成新的格调视频。
我本人也用官网 Demo 视频试了试,它能够反对在生成后视频的根底上再次微调参数,批改提醒词,进行迭代。我生成的成果不是特地现实,应该还须要调整。
工具
Vercel 推出 AI SDK
Vercel 是出名的云开发服务商,这次它内置了与 OpenAI、LangChain 和 Hugging Face Inference 的合作模块,目标是让开发者专一于产品研发,而不是基础设施搭建。一个料想不肯定对:当前做 web AI 产品,用 Vercel 和 OpenAI 就够了。
https://vercel.com/blog/introducing-the-vercel-ai-sdk
通过 SD 将二维码变成图像
这个网站教你如何应用 Stable Diffusion,将二维码变成一幅图像。
我感觉这个很有意义,很多中央商家张贴各种二维码真的很丑,如果可能植入商家的宣传图片,比方美食,产品,人像,是真的有用,能够商业化。
https://stable-diffusion-art.com/qr-code/
参考
Meta360 翻新学院 -AGI 前夜
https://docs.meta360.vip
Github Trending
https://github.com/trending