2018年AI和ML（NLP、计算机视觉、强化学习）技术总结和2019年趋势（下）

jiezi

6 年前

摘要：回顾 2018，展望 2019，计算机科学技术继续前进！
4、工具和库
工具和库是数据科学家的基础。我参与了大量关于哪种工具最好的辩论，哪个框架会取代另一个，哪个库是经济计算的缩影等等。
但有一点共识 – 我们需要掌握该领域的最新工具，否则就有被淘汰的风险。Python 取代其他所有事物并将自己打造成行业领导者的步伐就是这样的例子。当然，其中很多都归结为主观选择，但如果你不考虑最先进的技术，我建议你现在开始，否则后果可能将不可预测。那么成为今年头条新闻的是什么？我们来看看吧！
PyTorch 1.0
什么是 PyTorch？我已经多次在本文中提到它了，你可以在 Faizan Shaikh 的文章中熟悉这个框架。

这是我最喜欢的关于深度学习文章之一！当时 TensorFlow 很缓慢，这为 PyTorch 打开了大门快速获得深度学习市场。我在 GitHub 上看到的大部分代码都是 PyTorch 实现的。这并非因为 PyTorch 非常灵活，而是最新版本（v1.0）已经大规模应用到许多 Facebook 产品和服务，包括每天执行 60 亿次文本翻译。PyTorch 的使用率在 2019 年上升，所以现在是加入的好时机。
AutoML—自动机器学习
AutoML 在过去几年中逐渐取得进展。RapidMiner、KNIME、DataRobot 和 H2O.ai 等公司都发布了非常不错的产品，展示了这项服务的巨大潜力。你能想象在 ML 项目上工作，只需要使用拖放界面而无需编码吗？这种现象在未来并不太遥远。但除了这些公司之外，ML / DL 领域还有一个重要的发布 -Auto Keras！

它是一个用于执行 AutoML 任务的开源库。其背后的目的是让没有 ML 背景的领域专家进行深度学习。请务必在此处查看，它准备在未来几年内大规模运行。
TensorFlow.js- 浏览器中的深度学习
我们一直都喜欢在最喜欢的 IDE 和编辑器中构建和设计机器学习和深度学习模型。如何迈出一步，尝试不同的东西？我将要介绍如何在你的网络浏览器中进行深度学习！由于 TensorFlow.js 的发布，已成为现实。

TensorFlow.js 主要有三个优点 / 功能：
1. 使用 JavaScript 开发和创建机器学习模型；
2. 在浏览器中运行预先存在的 TensorFlow 模型；
3. 重新创建已有的模型；
2019 年的 AutoML 趋势
我个人特别关注 AutoML，为什么？因为我认为未来几年它将成为数据科学领域真正的游戏规则改变者。跟我有同样想法的人是 H2O.ai 的 Marios Michailidis、Kaggle Grandmaster，他们都对 AutoML 有很高期望：
机器学习继续成为未来最重要的趋势之一，鉴于其增长速度，自动化是最大化其价值的关键，是充分利用数据科学资源的关键。它可以应用到的领域是无限的：信用、保险、欺诈、计算机视觉、声学、传感器、推荐、预测、NLP 等等，能够在这个领域工作是一种荣幸。AutoML 趋势：

提供智能可视化和解释，以帮助描述和理解数据；
查找 / 构建 / 提取给定数据集的更好特征；
快速建立更强大 / 更智能的预测模型；
通过机器学习可解释性弥补这些模型的黑匣子建模和生产之间的差距；
促进这些模型落地生产；

5、强化学习

如果我不得不选择一个我看到的渗透更多领域的技术，那就是强化学习。除了不定期看到的头条新闻之外，我还在社区中了解到，它太注重数学，并且没有真正的行业应用程序可供专一展示。
虽然这在某种程度上是正确的，但我希望看到的是明年更多来自 RL 的实际用例。我在每月 GitHub 和 Reddit 排序系列中，我倾向于至少保留一个关于 RL 的存储库或讨论，至少围绕该主题的讨论。
OpenAI 已经发布了一个非常有用的工具包，可以让初学者从这个领域开始。
OpenAI 在深度强化学习中的应用

如果 RL 的研究进展缓慢，那么围绕它的教育材料将会很少。但事实上，OpenAI 已经开放了一些关于这个主题的精彩材料。他们称这个项目为“Spinning Up in Deep RL”，你可以在这里阅读所有相关内容。它实际上是非常全面 RL 的资源列表，这里有很多材料包括 RL 术语、如何成为 RL 研究者、重要论文列表、一个记录完备的代码存储库、甚至还有一些练习来帮助你入门。
如果你打算开始使用 RL，那么现在开始！
Google Dopamine
为了加速研究并让社区更多的参与强化学习，Google AI 团队开源了 Dopamine，这是一个 TensorFlow 框架，旨在通过它来使更灵活和可重复性来构建 RL 模型。

你可以在此 GitHub 存储库中找到整个训练数据以及 TensorFlow 代码（仅 15 个 Python notebooks！）。这是在受控且灵活的环境中进行简单实验的完美平台，听起来像数据科学家的梦想。
2019 年强化学习趋势
Xander Steenbrugge 是 DataHack Summit 的代表，也是 ArxivInsights 频道的创始人，他非常擅长强化学习。以下是他对 RL 当前状态的看法以及 2019 年的预期：
我目前看到 RL 领域的三个主要问题：

样本复杂性（代理需要查看 / 收集以获得的经验数量）；
泛化和转移学习（训练任务 A，测试相关任务 B）；
分层 RL（自动子目标分解）；

我相信前两个问题可以通过与无监督表示学习相关的类似技术来解决。目前在 RL 中，我们正在使用稀疏奖励信号训练深度神经网络，从原始输入空间（例如像素）映射到端到端方式的动作（例如，使用反向传播）。
我认为能够促进强化学习快速发展的道路是利用无监督的表示学习（自动编码器、VAE、GAN）将凌乱的高维输入空间（例如像素）转换为低维“概念”空间。
人工智能：符合伦理才更重要
想象一下由算法统治的世界，算法决定了人类采取的每一个行动。这不是一个美好的场景，对吗？AI 中的伦理规范是 Analytics Vidhya 一直热衷于讨论的话题。
今年有相当多的组织因为 Facebook 的剑桥分析公司丑闻和谷歌内部普遍关于设计武器新闻丑闻而遭受危机。没有一个开箱即用的解决方案或一个适合所有解决方案来处理 AI 的伦理方面。它需要一种细致入微的方法，并结合领导层提出的结构化路径。让我们看看今年出现的重大政策：GDPR。
GDPR 如何改变游戏规则
GDPR 或通用数据保护法规肯定会对用于构建 AI 应用程序的数据收集方式产生影响。GDPR 的作用是以确保用户可以更好地控制他们的数据。那么这对 AI 有何影响？我们可以想象一下，如果数据科学家没有数据（或足够数据），那么构建任何模型都会还没开始就失败。
2019 年的 AI 伦理趋势预期
这是一个灰色的领域。就像我提到的那样，没有一个解决方案可以解决这个问题。我们必须聚集在一起，将伦理问题整合到 AI 项目中。那么我们怎样才能实现这一目标呢？正如 Analytics Vidhya 的创始人兼首席执行官 Kunal Jain 在 2018 年 DataHack 峰会上的演讲中所强调的那样：我们需要确定一个其他人可以遵循的框架。
结束语
有影响力！这是 2018 年来描述 AI 最佳的词汇。今年我成为 ULMFiT 的狂热用户，我也很期待 BERT。

本文作者：【方向】阅读原文
本文为云栖社区原创内容，未经允许不得转载。