关于资讯:每周编辑精选|MathPile-数学推理语料库开源协和眼科牵头用-AI-助力-13-种眼底疾病检测
近日,上海交通大学生成式人工智能钻研实验室 (GAIR),开源了专为数学畛域量身定制的高质量且多样化的预训练数据集 MathPile,及其可商用版本 MathPile-Commercial,当初在 hyper.ai 官网能够下载啦!还有更多如 MathVista、Math23K 等热门数学数据集等你应用哦~ 2 月 19 日-2 月 23 日,hyper.ai 官网更新速览: 优质公共数据集:10 个AI4S 论文案例:4 篇热门百科词条:10 条拜访官网:hyper.ai 公开数据集精选1. MathPile 数学推理预训练语料库上海交通大学生成式人工智能实验室推出了 MathPile 数据集。这是一套专门针对数学畛域的高质量、多样化预训练语料库,其中蕴含约 95 亿 tokens,旨在晋升大模型在数学推理方面的能力。 间接应用: https://hyper.ai/datasets/29543 2. MathPile-Commercial 数学推理预训练语料(可商用版)MathPile-Commercial 是 MathPile 的商业用途版本,是通过剔除 MathPile 中禁止商业用途的文档取得的(最新版本,即 v0.2)。具体来说,钻研团队对源数据进行了非商业用途检测,利用 arXiv 源的元数据中的许可信息,并对其余源采纳了关键字匹配。 间接应用: https://hyper.ai/datasets/29545 3. AI 生成的图像数据集该数据集蕴含由 Copilot 生成的 19 张男孩图像。Copilot 是一个人工智能伴侣,能够创立富裕想象力和翻新的内容。这些图像实用于面部和姿态检测工作,因为它们的面部表情、姿态、背景、光照和遮挡各不相同。 间接应用: https://hyper.ai/datasets/29527 4. AI 生成的多样化肖像数据集该数据集蕴含 140 张由先进 AI 算法精心制作的高质量图像,其中有 70 张女性肖像和 70 张男性肖像。该数据集中的每张图像都证实了人工智能在模拟人类表面的复杂性方面具备不凡的能力。 间接应用: https://hyper.ai/datasets/29529 5. THUCNews 中文文本分类数据集THUCNews 是依据新浪新闻 RSS 订阅频道 2005~2011 年间的历史数据筛选过滤生成的,蕴含 74 万篇新闻文档 (2.19 GB) ,均为 UTF-8 纯文本格式。钻研团队在原始新浪新闻分类体系的根底上,从新整合划分出了 14 个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。 ...