关于人工智能:机器学习和数据科学的最佳公共数据集

43次阅读

共计 6423 个字符,预计需要花费 17 分钟才能阅读完成。

作者 |Towards AI Team
编译 |Flin
起源 |medium

此资源不断更新。如果你晓得任何其余适合且凋谢的数据集,请通过电子邮件告诉咱们:pub@towardsai.net 或者在上面发表评论。

数据集查找器

Google Dataset Search:与 Google Scholar 的工作形式相似,Dataset Search 能够让你在任何托管的中央找到数据集,无论是一个出版商的网站,一个数字图书馆,还是一个作者的网页。它是一个不凡的数据集查找器,它蕴含超过 2500 万个数据集。

  • https://toolbox.google.com/da…

Kaggle:Kaggle 提供了一个宏大的数据集容器,对于热衷于此的专家来说足够了。

  • https://www.kaggle.com/

UCI 机器学习库 :UCI 的机器学习库为开源数据集提供了最新的资源。

  • http://mlr.cs.umass.edu/ml/

VisualData:按类别搜寻计算机视觉数据集;它容许搜寻查问。

  • https://www.visualdata.io/

CMU 库 :通过在 CMU 收集的 Wang Huajin Wang,发现高质量的数据集。

  • https://guides.library.cmu.ed…

个别数据集

住房数据集

波士顿住房数据集 :蕴含美国人口普查局收集的无关波士顿地区住房的信息。它是从 StatLib 档案中取得的,在整个文献中被宽泛用于对算法进行基准测试。

  • https://www.cs.toronto.edu/~d…

天文数据集

Google-Landmarks-v2:用于地标辨认和检索的改良数据集。这个数据集蕴含了来自世界各地的 5 百万张 20 万多个地标的图片,这些图片由 Wiki Commons 社区提供和正文。

  • https://www.kaggle.com/xiuche…

机器学习数据集:

购物中心客户数据集: 购物中心客户数据集蕴含特定城市中拜访购物中心的人的信息。数据集由不同的列组成,如性别、客户 id、年龄、年收入和收入分数。它通常用于依据年龄、支出和趣味对客户进行细分。

  • https://www.kaggle.com/shweta…

IRIS 数据集 :IRIS 数据集是一个简略的初学者敌对的数据集,蕴含无关花瓣和萼片宽度的信息。数据分为三个类,每个类有 50 行。它通常用于分类和回归建模。

  • https://archive.ics.uci.edu/m…

MNIST 数据集 :这是一个手写数字的数据集。它蕴含 60000 个训练图像和 10000 个测试图像。这是一个完满的开始实现图像分类的数据集,你能够从 0 到 9 对数字进行分类。

  • http://yann.lecun.com/exdb/mn…

波士顿住房数据集 :蕴含美国人口普查局收集的无关波士顿地区住房的信息。它是从 StatLib 档案中取得的,在整个文献中被宽泛用于对算法进行基准测试。

  • https://www.cs.toronto.edu/~d…

假新闻检测数据集 :它是一个 CSV 文件,有 7796 行,有四列。共有四列:新闻、题目、新闻文本、后果。

  • https://www.kaggle.com/c/fake…

葡萄酒品质数据集 :该数据集蕴含无关葡萄酒的不同化学信息。数据集实用于分类和回归工作。

  • https://archive.ics.uci.edu/m…

SOCR 数据 – 高度和分量数据集 :这是初学者的根本数据集。它只蕴含 25000 个 18 岁的不同人类的身高和体重。这个数据集能够用来建设一个模型,能够预测一个人的身高或体重。

  • http://wiki.stat.ucla.edu/soc…

Titanic 数据集 :该数据集蕴含诸如姓名、年龄、性别、船上兄弟姐妹人数等信息,以及训练集中 891 名乘客和测试集中 418 名乘客的其余信息。

  • https://web.stanford.edu/clas…

信用卡欺诈检测数据集 :该数据集蕴含由信用卡进行的交易;它们被标记为欺诈性或真实性。这对于领有交易系统的公司来说,建设一个检测欺诈流动的模型十分重要。

  • https://www.kaggle.com/mlg-ul…

计算机视觉数据集

xView:xView 是最宏大的地面影像公开数据集之一。它蕴含来自世界各地简单场景的图像,并应用边界框进行正文。

  • http://xviewdataset.org/#dataset

ImageNet:最大的计算机视觉图像数据集。依据 WordNet 的说法,它提供了一个可拜访的图像数据库,它是按档次组织的。

  • http://image-net.org/

Kinetics-700:Youtube 视频 url 的大规模数据集。包含以人为核心的口头。它蕴含超过 70 万个视频。

  • https://deepmind.com/research…

谷歌的凋谢图像 :来自谷歌人工智能的一个微小的数据集,蕴含超过 1000 万张图片。

  • https://research.googleblog.c…

城市景观数据集 :这是一个用于计算机视觉我的项目的开源数据集。它蕴含在 50 个不同城市街道拍摄的视频序列的高质量像素级正文。该数据集可用于语义宰割和训练深层神经网络以理解城市场景。

  • https://www.cityscapes-datase…

imdbwiki 数据集 :imdbwiki 数据集是针对带有性别和年龄标签的人脸图像的最宽泛的开源数据集之一。图片来自 IMDB 和 Wikipedia。它有五百万多个标签图像。

  • https://data.vision.ee.ethz.c…

色彩检测数据集 :该数据集蕴含一个 CSV 文件,其中有 865 个色彩名称及其相应的 RGB(红色、绿色和蓝色)值。它还有色彩的十六进制值。

  • https://github.com/codebrainz…

斯坦福狗数据集 :它蕴含 20580 张图片和 120 个不同种类的狗。

  • http://vision.stanford.edu/ad…

情绪剖析数据集

词典编纂者情绪词典 :这个数据集是专门用于情绪剖析的。数据集蕴含 3000 多个负面词汇和 2000 多个积极情绪词。

  • http://www.lexicoder.com/

IMDB 评论 :一个乏味的数据集,蕴含来自 Kaggle 的 50000 多个电影评论。

  • https://www.kaggle.com/lakshm…

斯坦福情绪树库 :带情绪正文的规范情绪数据集。

  • http://nlp.stanford.edu/senti…

Twitter 美国航空公司情绪 :2015 年 2 月美国航空公司 Twitter 数据,分为侧面、负面和中性推文

  • https://www.kaggle.com/crowdf…

自然语言解决(NLP)数据集

HotspotQA 数据集 :问答数据集,具备天然的、多跳的问题,并对事实进行严格监督,以实现更易于解释的问答零碎。

  • https://hotpotqa.github.io/

亚马逊评论 :来自亚马逊的宏大数据集,蕴含超过 4500 万条亚马逊评论。

  • https://snap.stanford.edu/dat…

烂番茄评论 :超过 48 万评论档案(陈腐或腐烂)。

  • https://drive.google.com/file…

英语短信垃圾收集 :一个由 5574 条英语短信垃圾信息组成的数据集。

  • http://www.dt.fee.unicamp.br/…

坦然电子邮件数据集 :它蕴含超过 150 个用户的大概 50 万封电子邮件。

  • https://www.cs.cmu.edu/~enron/

举荐零碎数据集 :它蕴含来自风行网站的各种数据集,如 Goodreads 书评、亚马逊产品评论、调酒数据、社交媒体数据以及其余用于构建举荐零碎的数据集。

  • https://cseweb.ucsd.edu/~jmca…

UCI Spambase 数据集 :将电子邮件分类为垃圾邮件或非垃圾邮件是一项广泛而有用的工作。该数据集蕴含 4601 封电子邮件和 57 封无关电子邮件的元信息。你能够建设模型来过滤垃圾邮件。

  • https://archive.ics.uci.edu/m…

IMDB 评论 :大型电影评论数据集包含来自 IMDB 网站的电影评论,其中超过 25000 条评论用于培训,25000 条评论用于测试集。

  • http://ai.stanford.edu/~amaas…

主动驾驶(主动驾驶)数据集

Waymo 凋谢数据集 :这是来自 Waymo 员工的一个很棒的数据集资源。包含大量的主动驾驶数据集,足以从零开始训练深度网络。

  • https://waymo.com/open/

Berkeley DeepDrive BDD100k:最大的主动驾驶汽车数据集之一,蕴含纽约和加利福尼亚州超过 2000 小时的驾驶体验。

  • http://bdd-data.berkeley.edu/

博世小交通灯数据集 :用于深刻学习的小交通灯数据集。

  • https://hci.iwr.uni-heidelber…

LaRa 红绿灯辨认 :另一个红绿灯数据集。这个数据集是从巴黎收集的。

  • http://www.lara.prd.fr/benchm…

WPI 数据集 :用于交通灯、行人和车道检测的数据集。

  • http://computing.wpi.edu/data…

Comma.ai:它蕴含诸如车速、加速度、转向角和 GPS 坐标等详细信息。

  • https://archive.org/details/c…

MIT AGE Lab:年龄实验室收集的 1000 多小时多传感器驾驶数据集的样本。

  • http://lexfridman.com/automat…

LISA:智能与平安汽车实验室,加州大学圣地亚哥数据集 :该数据集包含交通标志、车辆检测、交通灯和轨迹模式。

  • http://cvrr.ucsd.edu/LISA/dat…

城市景观数据集 :这是一个宽泛的数据集,蕴含 50 个不同城市的街道场景。

  • https://www.cityscapes-datase…

临床数据集

COVID-19 数据集 :艾伦人工智能研究所(Allen Institute of AI research)公布了一个宏大的钻研数据集,蕴含了 45000 多篇对于 COVID-19 的学术文章。

  • https://www.semanticscholar.o…

MIC-III:由麻省理工学院计算生理学实验室开发的公开可用数据集,包含与约 40000 名危重病人相干的未辨认衰弱数据。它包含人口统计、生命体征、实验室查看、药物医治等。

  • https://mimic.physionet.org/

举荐零碎的数据集

MovieLens:它蕴含来自 MovieLens 网站的分级数据集。

  • https://grouplens.org/dataset…

Jester:它蕴含了来自 73421 个用户的 100 个笑话的 410 万个间断评级(-10.00 到 +10.00)。它次要用于协同过滤。

  • http://www.ieor.berkeley.edu/…

百万歌曲数据集 :它能够用于合作和基于内容的过滤。

  • https://www.kaggle.com/c/msdc…

尾注:

如果你晓得其余高质量、收费的数据集,你会举荐给人们用于机器学习、深度学习、数据迷信等的钻研和利用。请随时在上面的评论中提出倡议,或间接发送电子邮件至 pub@towardsai.net

如果举荐理由是牢靠的,咱们将对其进行剖析,并将其列入此列表。另外,请在评论局部通知咱们你应用这些数据集的教训。

参考和起源

[1] The 50 Best Free Datasets for Machine Learning, Lionbridge AI, https://lionbridge.ai/dataset…

[2] Google Cloud Public Datasets, Google, https://cloud.google.com/publ…

[3] Machine Learning and AI Datasets, Carnegie Mellon University, https://guides.library.cmu.ed…

[4] Big Data and AI: 30 Amazing and Free Public Data Sources, Forbes, https://www.forbes.com/sites/…

[5] Awesome Autonomous Vehicles Datasets, Github, https://github.com/takeitalls…

[6] Fueling the Gold Rush, The Greatest Public Datasets for AI, StartupGrind, https://medium.com/startup-gr…

[7] Places to Find Free Datasets for Data Science Projects, Dataquest, https://www.dataquest.io/blog…

[8] The Best Datasets for Natural Language Processing, Gengo AI, https://gengo.ai/datasets/the…

[9] Awesome Public Datasets, Github, https://github.com/awesomedat…

[10] StatLib Datasets Archive, Carnegie Mellon, http://lib.stat.cmu.edu/datas…

[11] Institutional Research and Analysis | Common Datasets | https://www.cmu.edu/ira/CDS/i…

[12] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15…

[13] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/s…

[14] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/da…

[15] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/

[16] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/

[17] Datalab | UC Berkeley | http://www.lib.berkeley.edu/l…

[18] Exploring Datasets | Data Science at Berkeley | https://datascience.berkeley….

[19] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/

[20] Machine Learning Datasets and Project Ideas — Work on real-time Data Science Projects | Data Flair | https://data-flair.training/b…

原文链接:https://medium.com/towards-ar…

欢送关注磐创 AI 博客站:
http://panchuang.net/

sklearn 机器学习中文官网文档:
http://sklearn123.com/

欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/

正文完
 0