共计 2834 个字符,预计需要花费 8 分钟才能阅读完成。
近日,上海交通大学生成式人工智能钻研实验室 (GAIR), 开源了专为数学畛域量身定制的高质量且多样化的预训练数据集 MathPile,及其可商用版本 MathPile-Commercial,当初在 hyper.ai 官网能够下载啦!还有更多如 MathVista、Math23K 等热门数学数据集等你应用哦~
2 月 19 日 -2 月 23 日,hyper.ai 官网更新速览 :
- 优质公共数据集:10 个
- AI4S 论文案例:4 篇
- 热门百科词条:10 条
拜访官网:hyper.ai
公开数据集精选
1. MathPile 数学推理预训练语料库
上海交通大学生成式人工智能实验室推出了 MathPile 数据集。这是一套专门针对数学畛域的高质量、多样化预训练语料库,其中蕴含约 95 亿 tokens,旨在晋升大模型在数学推理方面的能力。
间接应用 :
https://hyper.ai/datasets/29543
2. MathPile-Commercial 数学推理预训练语料(可商用版)
MathPile-Commercial 是 MathPile 的商业用途版本,是通过剔除 MathPile 中禁止商业用途的文档取得的(最新版本,即 v0.2)。具体来说,钻研团队对源数据进行了非商业用途检测,利用 arXiv 源的元数据中的许可信息,并对其余源采纳了关键字匹配。
间接应用 :
https://hyper.ai/datasets/29545
3. AI 生成的图像数据集
该数据集蕴含由 Copilot 生成的 19 张男孩图像。Copilot 是一个人工智能伴侣,能够创立富裕想象力和翻新的内容。这些图像实用于面部和姿态检测工作,因为它们的面部表情、姿态、背景、光照和遮挡各不相同。
间接应用 :
https://hyper.ai/datasets/29527
4. AI 生成的多样化肖像数据集
该数据集蕴含 140 张由先进 AI 算法精心制作的高质量图像,其中有 70 张女性肖像和 70 张男性肖像。该数据集中的每张图像都证实了人工智能在模拟人类表面的复杂性方面具备不凡的能力。
间接应用 :
https://hyper.ai/datasets/29529
5. THUCNews 中文文本分类数据集
THUCNews 是依据新浪新闻 RSS 订阅频道 2005~2011 年间的历史数据筛选过滤生成的,蕴含 74 万篇新闻文档 (2.19 GB),均为 UTF-8 纯文本格式。钻研团队在原始新浪新闻分类体系的根底上,从新整合划分出了 14 个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
间接应用 :
https://hyper.ai/datasets/29521
6. ShareGPT 90k 中英文双语人机问答数据集
ShareGPT-Chinese-English-90k 是中英文平行双语优质人机问答数据集,笼罩实在简单场景下的用户发问数据。该数据集可用于训练高质量的对话模型。
间接应用 :
https://hyper.ai/datasets/29523
7. SMP-2017 中文对话用意辨认数据集
该数据集为 SMP2017 中文人机对话技术评测 (ECDT) 工作一数据集。该评测旨在促成中文人机对话零碎相干钻研的倒退。
间接应用 :
https://hyper.ai/datasets/29515
8. 今日头条文本分类数据集
该数据集为今日头条中文新闻(短文本)分类数据集。数据起源为今日头条客户端。共蕴含 15 个分类,382,688 条文本,采集工夫为 2018 年 05 月。
间接应用 :
https://hyper.ai/datasets/29517
更多本周更新数据集,请拜访 :
https://hyper.ai/datasets
ScienceAI 论文案例精选
1. 协和眼科牵头,5 家眼科核心同发力,用 AI 助力 13 种眼底疾病检测
眼科疾病的诊断高度依赖于图像识别,眼科业余非常适合深度学习等技术的利用。为进一步开掘深度学习在眼底疾病诊断中的潜在价值,由北京协和医院眼科主任陈有信牵头、全国 5 家眼科核心与北京致远慧图科技有限公司、中国人民大学信息学院李锡荣传授单干,共同开发了深度学习零碎。该零碎助力高级眼科医生的诊断一致性进步了约 12%,为 13 种次要眼底疾病的自动检测提供了一种新的办法。相干论文已发表于「Nature」期刊。
查看残缺报道 :
https://hyper.ai/news/29549
2. 超 5 万人参加,浙大吴息凤传授团队新作:衰弱与办公场合绿化程度无关
生态环境对人类衰弱的影响是耳濡目染的。浙江大学公共卫生学院吴息凤传授课题组通过卷积神经网络模型,基于街景图像的绿色视图指数对可见绿色裸露进行评估,进而探讨了工作场合可视绿化程度与成年人代谢综合征之间是否存在无益关联。课题组通过逻辑回归模型对杭州市 5 万多名成年人的工作环境室外可视绿化程度进行评估,证实了两者间的无益关联。相干成绩已发表于「Environment International」期刊。
查看残缺报道 :
https://hyper.ai/news/29559
3. 上海交大 AI4S 团队提出「智能化迷信设施」构想,建设跨学科 AI 科研助手
上海交通大学人工智能研究院 AI for Science 团队杨小康传授等人提出了一种智能化迷信设施的建设构想,造成迷信畛域大模型、生成式模仿与反演、自主智能无人试验及大规模可信科研合作等翻新性能。相干研究成果已发表于「中国科学院院刊」。
查看残缺报道 :
https://hyper.ai/news/29559
4. 亚马逊工程师严选,超 40 篇 LLM 论文汇总
越来越多的企业、传统行业开始摸索如何利用大语言模型与本身业务相结合,疾速收缩的市场需求也反向推动了相干畛域的钻研进一步深入、翻新,arXiv 等平台上的论文更新也愈发频繁。为了帮忙大家更快检索高价值论文,亚马逊工程师 Eugene Yan 等人建设了一个语言模型论文浏览清单,继续分享前沿论文,目前曾经汇总了 40 余篇高质量论文。
查看残缺论文汇总 :
https://hyper.ai/news/29582
热门百科词条精选
- 召回率 Recall Rate
- 人类反馈强化学习 RLHF
- 通用人工智能 AGI
- 检索加强生成 RAG
- 神经辐射场 NeRF
这里汇编了数百条 AI 相干词条,让你在这里读懂「人工智能」:
https://hyper.ai/wiki
以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢送留言或投稿通知咱们哦!
下周再见!
对于 HyperAI 超神经 (hyper.ai)
HyperAI 超神经 (hyper.ai) 是国内当先的人工智能及高性能计算社区,致力于成为国内数据迷信畛域的基础设施,为国内开发者提供丰盛、优质的公共资源,截至目前曾经:
- 为 1200+ 公开数据集提供国内减速下载节点
- 收录 300+ 经典及风行在线教程
- 解读 100+ AI4Science 论文案例
- 反对 500+ 相干词条查问
- 托管国内首个残缺的 Apache TVM 中文文档
拜访官网开启学习之旅 :
https://hyper.ai/