关于人工智能:AI新趋势期刊2AI发明计算机算法如何给大模型排行照片秒变二维码视频一键动漫风

5次阅读

共计 5720 个字符,预计需要花费 15 分钟才能阅读完成。

前言

每天都要浏览大量 AI 相干新闻,是不是感到信息量爆炸,无效信息少?

这么多新产品和新工具,到底哪些是真正是有价值的,哪些只是塌实的一时热点?

想参加 AI 产品和工具的开发,从哪里可能取得大量的灵感和思路?

我会把 AI 相干的新趋势、新想法、新思路,和成熟 AI 产品、工具、模型等整顿在这里,帮忙大家去除信息乐音,更高效的理解 AI 前沿倒退。

次要围绕:

  • AI 业界趋势、想法、思路
  • AI 产品
  • AI 开发者工具
  • AI 模型

作为本期刊的第二期,咱们次要围绕 2023 年 5 - 6 月公布的相干信息为主,观众敌人们请留神时效性。

想法 / 思路

大模型训练的资料会耗尽吗?

以下节选自阮一峰科技周刊中阮老师的集体思考,感觉蛮有意思。

当初的新闻报道,天天有 AI 的新闻,外面会提到很多模型。

分辨模型的强弱,有一个要害指标,就是看它有多少个参数。一般来说,参数的数量越多,模型就越强。

GPT-2 有 15 亿个参数,GPT-3 和 ChatGPT 有 1750 亿个,GPT-4 没有颁布这个指标,据传比上一代大 5 倍以上。

那么,什么是参数呢?依照我浅显的了解,参数相当于模型预测时,所根据的神经网络的节点数量。参数越多,就代表了模型所思考的各种可能性越多,计算量越大,成果越好。

既然参数越多越好,那么参数会有限增长吗?

答案是不会的,因为参数受到训练资料的制约。必须有足够的训练资料,能力计算出这些参数,如果参数有限增长,训练资料势必也要有限增长。

我看到的一种说法是,训练资料至多应该是参数的 10 倍。举例来说,一个辨别猫照片和狗照片的模型,假设有 1,000 个参数,那么至多应该用 10,000 张图片来训练。

ChatGPT 有 1750 亿个参数,那么训练资料最好不少于 17500 亿个词元(token)。” 词元 ” 就是各种单词和符号,以小说《红楼梦》为例,它有 788,451 字,就算 100 万个词元。那么,ChatGPT 的训练资料相当于 175 万本《红楼梦》。

依据报道,ChatGPT 实际上用了 570 GB 的训练资料,来自维基百科、互联网图书馆、Reddit 论坛、推特等等。

大家想一想,更弱小的模型须要更多的训练资料,问题是能找到这么多资料吗,会不会资料有一天不够用?

我通知大家,真的有学者写过论文,钻研这个问题。

过来 10 年来,AI 训练数据集的增长速度远快于全世界的数据存量的增长速度。如果这种趋势继续下去,耗尽数据存量是不可避免的。

论文给出了三个工夫点。

  • 2026 年:用完个别的语言数据
  • 2030 年~2050 年:用完所有的语言数据
  • 2030 年~2060 年:用完所有的视觉数据

也就是说,依据他们的预测,大略三四年后,新的训练资料就会很难找。最迟三十年后,全世界所有资料都不够 AI 的训练。

上图是作者给的趋势图,虚线是训练资料的增长速度,红线和蓝线是模型增长速度的不同预测。到了 2035 年当前,这三根线就合在一起了,曲线变得越来越平。作者认为,到了那时,因为没有足够的训练资料,AI 模型的倒退速度可能就会显著放缓。如果他的预测是正确的,就意味着,跟大家想的不一样,AI 飞速发展不会继续很久。当初兴许就是倒退最快的阶段,而后就会开始加快,等到本世纪中叶就会显著加快,靠近停滞,跟量子物理学的现状差不多。

上面的新闻也探讨了该问题,在这里节选片段。

https://m.thepaper.cn/newsDetail_forward_23467960

什么是模型解体?

实质上,当 AI 大模型生成的数据最终净化了后续模型的训练集时,就会产生“模型解体”。

论文中写道,“模型解体指的是一个进化的学习过程,在这个过程中,随着工夫的推移,模型开始忘记不可能产生的事件,因为模型被它本人对事实的投射所毒化。”

一个假如的场景更有助于了解这一问题。机器学习(ML)模型在蕴含 100 只猫的图片的数据集上进行训练——其中 10 只猫的毛色为蓝色,90 只猫的毛色为黄色。该模型理解到黄猫更广泛,但也示意蓝猫比理论状况偏黄一点,当被要求生成新数据时,会返回一些代表“绿毛色的猫”的后果。随着工夫的推移,蓝色毛色的初始特色会在间断的训练周期中逐步隐没,从逐步变成绿色,最初变成黄色。这种渐进的扭曲和多数数据特色的最终失落,就是“模型解体”。

笔者认为,尽管训练资料耗尽离咱们当初还很边远,不过如果训练所须要的资料始终以指数级增长,而咱们现有的资料又没有跟上时,的确有可能会提前碰到这种瓶颈。

OpenAI 反对函数调用性能

对于 OpenAI 的函数调用性能,一个比喻:以前让 OpenAI 答复数学题,只能靠催眠(你是数学专家),而后答复,经常答错;当初让 OpenAI 答复数学题,同时给他一个计算器(他晓得什么时候该用计算器,然而他本人不会用),当他辨认出这是数学题时,会把数字吐给你,你本人再用计算器算后果,再把后果和问题扔给他做答复。这也是很多其余新模型会附带的性能,相似模型插件。

长处:精确又智能。后果是你本人的函数计算的,必定错不了;

疾速整顿播客笔记

阿里的通义听悟能够疾速整顿音频的内容,转化为文字。

咱们首先须要下载播客音频,将音频导入通义听悟平台,1 个小时的音频大略只须要 5 分钟导入和解决;

通义听悟解决后,主动生成章节和声音转录的文本(可能辨别不同谈话人),反对文本翻译成中文;

随后能够依据主动生成的章节或关键词疾速跳转收听感兴趣的内容,不感兴趣的一律跳过;随时在右侧做笔记;

AI 创造计算机算法

https://www.ithome.com/0/698/425.htm

谷歌人工智能部门 DeepMind 发表,应用 AI 发现了一种新的算法 AlphaDev,把排序速度进步了 70%,细节能够看原文。

模型

如何给大模型排行?

随着大模型钻研的风行,十分多模型在市面上大乱斗,也有十分多的模型排行榜。咱们该如何迷信的对模型进行排名呢?

在模型硬指标上,有以下几个方面须要比照:

  • 模型大小
  • 训练数据集
  • 训练和推理效率
  • 应用领域(单模态 / 多模态等)

除开硬指标,我在网上理解了一下,目前针对 LLM 公认的权威排行机构和论文还比拟少,比拟出名的有 LMSYS

https://chat.lmsys.org/

Large Model Systems Organization(LMSYS ORG)是由 UC Berkeley 与 UCSD 和 CMU 单干的学生和教职员工创建的凋谢钻研组织。咱们的指标是通过共同开发凋谢数据集,模型,零碎和评估工具来使每个人都能够拜访大型模型。咱们的工作包含机器学习和零碎中的钻研。咱们培训大型语言模型并使其宽泛应用,同时还开发了分布式系统以减速其培训和推理。

国内有一个 CLUE 排行榜,不过我看了下,感觉有点模拟国外的模型评测 GLUE 和 SuperGLUE 的感觉,大家能够参考,然而具体认可度有待察看。

https://github.com/CLUEbenchmark/SuperCLUELYB

文字转音频 Bark

https://github.com/suno-ai/bark

Bark 是由 Suno 创立的基于转换器的文本到音频模型。Bark 能够生成高度真切的多语言语音以及其余音频 – 包含音乐、背景乐音和简略的音效。该模型还能够产生非语言交换,如大笑、叹气和哭泣。截至 6 月 20 号 Github 曾经 20k Star。

简略来说,你能够写一段文本,并抉择一种语调,给机器朗诵。但与此同时,反对:

  • 除了英语外,还反对他国语言
  • 反对一些非文字的声音,比方清嗓子、大笑、哼哼等
  • 通过加上音乐符号♪,让他用唱歌的模式朗诵。
  • 能够给他输出音频,他会输入模拟腔调
  • ….(还有很多能力)

反对的语言:

Language Status
English (en)
German (de)
Spanish (es)
French (fr)
Hindi (hi)
Italian (it)
Japanese (ja)
Korean (ko)
Polish (pl)
Portuguese (pt)
Russian (ru)
Turkish (tr)
Chinese, simplified (zh)

我集体在 HuggingFace 试用了一下,真的很牛,不过一开始轻易试用时候稍有不慎会呈现很奇怪的合成音,听起来蛮恐怖。就和应用 Stable Diffusion 时画出了非人类的头一样 …

生物医学畛域大模型

LLaVA-Med:面向生物医学畛域的大语言模型和视觉模型

微软公布了 LLaVA-Med,要做医药畛域的 GPT-4,反对多模态。能够辨认 X 光片的信息。

Github:https://github.com/microsoft/LLaVA-Med

北京智源研究院 LLM Aquila-7B

Aquila-7B:北京智源研究院凋谢的国产可商用的 LLM

反对中英双语常识、反对商用许可协定、合乎国内数据合规要求。后续还会公布 33B 模型。

Github:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

智源研究院和智谱 AI 同源,后者目前把握了 GLM 系列。目前看后续前者更次要做学术研究,后者次要做商业化。

Aquila 语言大模型在技术上继承了 GPT-3、LLaMA 等的架构设计长处,Aquila 语言大模型是在中英文高质量语料根底上从0开始训练的,通过数据品质的管制、多种训练的优化办法,实现在更小的数据集、更短的训练工夫,取得比其它开源模型更优的性能。也是首个反对中英双语常识、反对商用许可协定、合乎国内数据合规须要的大规模开源语言模型。

Aquila-7B 和 Aquila-33B 开源模型应用 智源 Aquila 系列模型许可协定, 原始代码基于 Apache Licence 2.0。

王小川 百川 LLM

王小川组建的「百川智能」正式推出首个 70 亿参数中英文 LLM——baichuan-7B。国产、开源、收费、可商用。

Github:https://github.com/baichuan-inc/baichuan-7B

产品

金融 GPT:FinGPT

https://github.com/AI4Finance-Foundation/FinGPT

作者应用中国金融市场数据和美国金融市场数据,别离用 ChatGLM 和 LLaMA 模型,配合 Lora 训练,做出了 FinGPT

可能实现如下利用:

  1. 智能投顾
  • ChatGPT 能够像专业人士一样进行投资倡议。
  • 在这个例子中,苹果的 股价上涨 与 ChatGPT 剖析新闻的 预测相符
  1. 量化交易
  • 咱们还能够应用新闻、社交媒体推文或者公司公告来 构建情感因子,右侧的局部是由 Twitter 推文和 ChatGPT 信号产生的交易后果,数据来自于一个称为 stocknet-dataset 的数据集。
  • 正如您从图片中所看到的,由 ChatGPT 生成的交易信号 十分杰出 ,咱们甚至能够 仅通过依据 Twitter 情感因子交易而取得良好的后果
  • 因而,咱们能够通过 联合价格因素 来取得更好的后果。
  1. 低代码开发
  • 咱们能够应用 LLMs 的帮忙来编写代码。
  • 右侧显示了咱们如何 疾速高效地 开发咱们的因子和其余代码。

微软 HuggingGPT

https://huggingface.co/spaces/microsoft/HuggingGPT

解决不同畛域和模态的 AI 工作是迈向人工智能的要害一步。尽管当初有大量的 AI 模型能够用于解决不同的畛域和模态的问题,然而它们不能解决简单的 AI 问题。因为大模型 (LLM) 在语言了解、生成、交互和推理上展现出很强的能力,所以作者认为 LLM 能够充当一个控制器的作用来治理现有的 AI 模型以解决简单的 AI 工作,并且语言能够成为一个通用的接口来启动 AI 解决这些工作。基于这个想法,作者提出 HuggingGPT,一个框架用于连贯不同的 AI 模型来解决 AI 工作。

具体的步骤是:

  1. 工作布局:应用 ChatGPT 来获取用户申请
  2. 模型抉择:依据 Hugging Face 中的函数形容抉择模型,并用选中的模型执行 AI 工作
  3. 工作执行:应用第 2 步抉择的模型执行的工作,总结成答复返回给 ChatGPT
  4. 答复生成:应用 ChatGPT 交融所有模型的推理,生成答复返回给用户

通过 ChatGPT 的强语言能力和 Hugging Face 丰盛的模型库,HuggingGPT 能够解决大部分简单的 AI 工作,为走向真正的人工智能奠定基石。

AI 知识库

https://albus.org/

我本人试了试,有一个很好的思路。当大家写文章,或者做视频没灵感时,能够当初心里想一个主题,让 AIbus 开始发散思维,进行简略的头脑风暴。

你能够给他设定文字基调:

能够设定文案的浏览受众,生成对应理解力的语句:

假如我要写一篇对于 Java String 字符串的介绍的博客,我以 Java String 为关键词,下图是他为我一步步生成的文案,并且配图也是生成的。

我当初越来越感觉写技术博客越来越是个伪命题,尤其是基础知识相干的博客,就算写进去了也是给 AI 大模型输送养分。

AI 视频换格调

给它一个原始视频,而后抉择一种想要的格调,AI 帮你主动生成新的格调视频。

我本人也用官网 Demo 视频试了试,它能够反对在生成后视频的根底上再次微调参数,批改提醒词,进行迭代。我生成的成果不是特地现实,应该还须要调整。

工具

Vercel 推出 AI SDK

Vercel 是出名的云开发服务商,这次它内置了与 OpenAI、LangChain 和 Hugging Face Inference 的合作模块,目标是让开发者专一于产品研发,而不是基础设施搭建。一个料想不肯定对:当前做 web AI 产品,用 Vercel 和 OpenAI 就够了。

https://vercel.com/blog/introducing-the-vercel-ai-sdk

通过 SD 将二维码变成图像

这个网站教你如何应用 Stable Diffusion,将二维码变成一幅图像。

我感觉这个很有意义,很多中央商家张贴各种二维码真的很丑,如果可能植入商家的宣传图片,比方美食,产品,人像,是真的有用,能够商业化。

https://stable-diffusion-art.com/qr-code/

参考

Meta360 翻新学院 -AGI 前夜

https://docs.meta360.vip

Github Trending

https://github.com/trending

正文完
 0