关于人工智能:7个开源数据科学项目

4次阅读

共计 3527 个字符,预计需要花费 9 分钟才能阅读完成。

作者 |PRANAV DAR
编译 |VK
起源 |Analytics Vidhya

概述

  • 开源数据迷信我的项目会给你的简历减少很多价值,帮忙你在面试中怀才不遇
  • 这里有 7 个开源数据迷信我的项目

介绍

我要给你一个倡议。我心愿在我开始数据迷信职业生涯的时候曾有人给过我这个倡议。

当我在数据迷信中穿梭充斥阻碍的旅程时,我认为具备所有的条件(或者我认为是这样的),但仿佛有些事件不对劲。我经验了一番挣扎才找到我的缺点。

我提出的与面试官冀望的差距在于数据迷信我的项目的教训。

数据迷信我的项目给你的简历减少了很多价值,特地是如果你是个初学者。大多数新人都会取得认证证书,但减少开源数据迷信我的项目将使你在竞争中取得显著劣势。

置信我,开源数据迷信我的项目数量多到惊人。

在这里,我列出了 6 月份创立或公布的顶级开源数据迷信我的项目列表。这是我每月我的项目系列的一部分,在这个系列中,我展现了 GitHub 上开源的最佳数据迷信我的项目。

我依据我的项目畛域将其分为三类:

  • 机器学习
  • 计算机视觉
  • 其余开源数据迷信我的项目,其中包含一个很棒的数据集

让咱们别离看一下每个类别。

开源机器学习我的项目

这些机器学习的我的项目。咱们将在这里介绍与机器学习相干的三个有用的开源我的项目。你能够依据本人的趣味抉择一个我的项目,也能够尝试所有我的项目。

我试着让它们尽可能多样化,你能够看到一个对于机器学习论文的我的项目和另一个建设机器学习管道的我的项目。

带插图和正文的机器学习论文

链接:https://github.com/Machine-Le…

对于大多数专业人士来说,浏览机器学习钻研论文是一个令人望而却步的前景,更不用说初学者了。

数据科学家和机器学习钻研人员偏向于撰写技术含量极高的论文,即便是专家也很难解读。这实际上是咱们畛域最大的痛点之一。

因而,任何突破复杂性的致力都是受欢迎的。这个有用的我的项目是一个数据迷信和机器学习论文的汇合,“包含插图、正文、术语和先前钻研的简要阐明,这使得浏览论文和取得次要思维更容易”。

这个我的项目上周刚刚在 GitHub 上开源,所以它会定期更新。当初咱们曾经能够看到一些论文了,这样你就能够通过它们来理解正文是如何实现的。我特地喜爱 YOLOv1 的正文:

很酷!持续摸索这篇论文和其余论文。有很多货色要学!

NeoML,一个机器学习框架

链接:https://github.com/neoml-lib/…

对于任何一个有点数据科学知识的人来说,这是一个十分乏味的我的项目。

NeoML 是一个全面的机器学习框架,它使咱们可能构建、训练和部署机器学习模型。

简而言之,咱们能够建设一个端到端的机器学习管道,而不用为现成的解决方案破费大笔资金。

数据科学家和数据工程师能够将其用于计算机视觉和自然语言解决(NLP)工作,如图像预处理、分类、文档剖析、OCR 以及从结构化和非结构化文档中提取数据。

以下是我从 GitHub 存储库中获取的 NeoML 的要害个性:

  • 反对 100 多种层类型的神经网络
  • 传统机器学习:20+ 算法(分类、回归、聚类等)
  • 反对疾速 CPU 推理
  • ONNX 反对
  • 语言:C++、java、Objective-C
  • 跨平台:雷同的代码能够在 Windows、Linux、macOS、iOS 和 Android 上运行

谷歌机器学习的 Caliban

链接:https://github.com/google/cal…

这是偏向于钻研的数据科学家都会喜爱的我的项目。咱们经常很难从测试环境过渡到全面部署,这不是一个容易的步骤。

当然,Google 有一个以 Caliban 的模式为咱们提供的潜在解决方案。

这是一个工具,将帮忙你在一个孤立的,可反复的计算环境中启动和跟踪你的数值试验。Caliban 是由谷歌的机器学习钻研人员和工程师开发的。

正如他们所说,Caliban“使得从一个在工作站上运行的简略原型到在云端运行的数千个实验性工作变得容易”。以下是你应该留神的要点:

  • 在本地开发试验代码,并在隔离(Docker)环境中测试它
  • 扫描试验参数
  • 提交你的试验作为云作业,它们将在雷同的隔离环境中运行
  • 管制并跟踪工作

开源计算机视觉我的项目

我对咱们在计算机视觉畛域所获得的提高感到诧异。仿佛每个月当我坐下来写这篇文章的时候,我都会遇到越来越多的突破性的框架和新的办法来晋升这个畛域的最新程度。

组织机构正在寰球范畴内搜查计算机视觉人才,所以当初正是从事这些我的项目并进入该畛域的大好时机。

Genetic Drawing

链接:https://github.com/anopara/ge…

如果我给你一个指标图像,而后让你写一个计算机视觉程序从头开始创立这个图像呢?是的,这就是计算机视觉的力量!

这个十分酷的开源我的项目使咱们可能在取得指标图像时模仿绘图过程。上面是一个小的演示过程:

我急不可待地想尝试这个我的项目。你须要以下 Python 库来运行它:

  • OpenCV 3.4.1
  • NumPy 1.16.2
  • matplotlib 3.0.3

开发人员还给了咱们一个例子,这样你就能够执行它,并观看计算机视觉的魔力。

PULSE

链接:https://github.com/tg-bomze/F…

这个开源我的项目投合了略微更高级的数据科学家。

为了了解这个我的项目的意义,咱们须要把握单图像超分辨率的概念。简略地说,这里的目标是从相应的低分辨率输出构建一个高分辨率图像。

听起来像是一个经典的计算机视觉我的项目!

PULSE 是这个问题陈说的一个新的解决方案。“通过潜在空间摸索进行照片上采样”的简称,PULSE 以难以置信的高分辨率生成高分辨率和超现实图像。这是以一种齐全自我监督的形式实现的。

上面是一个 PULSE 如何工作的示例:

我倡议你在浏览代码之前先浏览钻研论文。这将使你更好地理解 PULSE 的工作原理,这样你就能够更分明地解决代码了。

论文:https://arxiv.org/abs/2003.03808

其余开源数据迷信我的项目

这里有几个开源数据迷信我的项目并不完全符合上述两个类别。这实际上是两个截然不同的我的项目——一个面向数据迷信的初学者,而另一个则针对强化学习。

你能够挑一个最适宜你的我的项目,开始摸索。

PalmerPenguins

链接:https://github.com/allisonhor…

这是一个很棒的用于摸索和可视化的数据集

我置信你们大多数人都用过虹膜数据集。实际上,它甚至可能是你用来了解机器学习中分类概念的第一个数据集。我喜爱数据集的了解和摸索。

然而应用同一个数据集可能会变得有些爽朗,特地是当你在学习机器学习的前因后果时。

Palmenguins 是上个月开源的,这个数据集将本人定位为 Iris 的一个替代品,旨在为数据摸索和可视化提供一个很好的数据集,特地是对于初学者。

以下是你能够想出的视觉化体验:

我下面提到的链接蕴含了如何开始摸索这些数据的示例。他们甚至提供了对于不同变量的细节。

你能够应用以下代码在你的计算机上获取 PalmerPenguins:

# install.packages("remotes")
remotes::install_github("allisonhorst/palmerpenguins")

SlimeVolleyGym

链接:https://github.com/hardmaru/s…

这是一个开放源码的强化学习我的项目。

SlimeVolleyGym 是一个简略的健身房环境,用于测试单智能体和多智能体强化学习算法。这是由机器学习畛域的传奇人物 hardmaru 创立并开源的。

依据他的说法,游戏的运作形式(他本人用 JavaScript 创立了游戏):

这个游戏非常简单:代理的指标是让球落在对方的高空上,导致对手失去生命。每个特工一开始都有五条生命。当任何一个特工失去 5 条生命,或者超过 3000 个工夫步时,完结。当一个代理人的对手输了,他会失去 + 1 的处分; 当他输了,他会失去 - 1 的处分。

你能够间接从 pip 装置 slimevolleygym

pip install slimevolleygym

结尾

的确有很多我的项目。和平常一样,我的指标是尽可能放弃我的项目的多样性,以便你可能抉择适宜你的数据迷信旅程的我的项目。

如果你是初学者,我倡议你从 PalmerPenguins 数据集开始,因为大多数人当初甚至还没有意识到它。这是一个后发制人的好机会。

原文链接:https://www.analyticsvidhya.c…

欢送关注磐创 AI 博客站:
http://panchuang.net/

sklearn 机器学习中文官网文档:
http://sklearn123.com/

欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/

正文完
 0