转自:机器之心
机器学习开发者想要打造一款 App 有多难?
事实上,你只须要会 Python 代码就能够了,剩下的工作都能够交给一个工具。近日,Streamlit 联结创始人 Adrien Treuille 撰文介绍其开发的机器学习工具开发框架——Streamlit,这是一款专为机器学习工程师创立的收费、开源 app 构建框架。这款工具能够在你写 Python 代码的时候,实时更新你的利用。
目前,Streamlit 的 GitHub Star 量曾经超过 1.5 万,在 medium 上的热度更是达到了 9000+。
Streamlit 网站:https://streamlit.io/
GitHub 地址:https://github.com/streamlit/…
用 300 行 Python 代码,编程一个可实时执行神经网络推断的语义搜索引擎。
以我的教训,每一个不平庸的机器学习我的项目都是用错误百出、难以保护的外部工具整合而成的。这些工具通常用 Jupyter Notebooks 和 Flask app 写成,很难部署,须要对客户端服务器架构(C/S 架构)进行推理,且无奈与 Tensorflow GPU 会话等机器学习组件进行很好的整合。
我第一次看到此类工具是在卡内基梅隆大学,之后又在伯克利、Google X、Zoox 看到。这些工具最后只是小的 Jupyter notebook:传感器校准工具、仿真比照 app、激光雷达对齐 app、场景重现工具等。
当一个工具越来越重要时,项目经理会染指其中:过程和需要一直减少。这些独自的我的项目变成代码脚本,并逐步倒退成为简短的「保护噩梦」……
而当一个工具十分要害时,咱们会组建工具团队。他们熟练地写 Vue 和 React,在笔记本电脑上贴满申明式框架的贴纸。他们的设计流程是这样式的:
这几乎太棒了!然而所有这些工具都须要新性能,比方每周上线新性能。然而工具团队可能同时反对 10 多个我的项目,他们会说:「咱们会在两个月内更新您的工具。」
咱们返回之前自行构建工具的流程:部署 Flask app,写 HTML、CSS 和 JavaScript,尝试对从 notebook 到样式表的所有一些进行版本控制。我和在 Google X 工作的敌人 Thiago Teixeira 开始思考:如果构建工具像写 Python 脚本一样简略呢?
咱们心愿在没有工具团队的状况下,机器学习工程师也能构建不错的 app。这些外部工具应该像机器学习工作流程的副产品那样自然而然地呈现。写此类工具感觉就像训练神经网络或者在 Jupyter 中执行点对点剖析(ad-hoc analysis)!同时,咱们还想保留弱小 app 框架的灵活性。咱们想发明出令工程师自豪的好工具。
咱们心愿的 app 构建流程如下:
与来自 Uber、Twitter、Stitch Fix、Dropbox 等的工程师一道,咱们用一年工夫发明了 Streamlit,这是一个针对机器学习工程师的收费开源 app 框架。不论对于任何原型,Streamlit 的外围准则都是更简略、更纯正。
Streamlit 的外围准则如下:
- 拥抱 Python
Streamlit app 是齐全自上而下运行的脚本,没有暗藏状态。你能够利用函数调用来解决代码。只有你会写 Python 脚本,你就能够写 Streamlit app。例如,你能够依照以下代码对屏幕执行写入操作:
import streamlit as stst.write('Hello, world!')
- 把 widget 视作变量
Streamlit 中没有 callback!每一次交互都只是自上而下从新运行脚本。该办法使得代码十分洁净:
import streamlit as stx = st.slider('x')
st.write(x, 'squared is', x * x)
- 重用数据和计算
如果要下载大量数据或执行简单计算,怎么办?关键在于在屡次运行中平安地重用信息。Streamlit 引入了 cache primitive,它像一个继续的默认不可更改的数据存储器,保障 Streamlit app 轻松平安地重用信息。例如,以下代码只从 Udacity 主动驾驶我的项目(https://github.com/udacity/se…)中下载一次数据,就可失去一个简略疾速的 app:
代码运行阐明,参见:
https://gist.github.com/treui…。*
简而言之,Streamlit 的工作流程如下:
- 每次用户交互均须要从头运行全副脚本。
- Streamlit 依据 widget 状态为每个变量调配最新值。
- 缓存保障 Streamlit 重用数据和计算。
如下图所示:
感兴趣的话,你能够立即尝试!只需运行以下行:
网页浏览器将主动关上,并转向本地 Streamlit app。如果没有呈现浏览器窗口,只需点击链接。
这些想法很简洁,但无效,应用 Streamlit 不会障碍你创立丰盛有用的 app。我在 Zoox 和 Google X 工作时,看着主动驾驶汽车我的项目倒退成为数 G 的视觉数据,这些数据须要搜寻和了解,包含在图像数据上运行模型进而比照性能。我看到的每一个主动驾驶汽车我的项目都有整支团队在做这方面的工具。
在 Streamlit 中构建此类工具非常简单。以下 Streamlit demo 能够对整个 Udacity 主动驾驶汽车照片数据集执行语义搜寻,对人类标注的真值标签进行可视化,并在 app 内实时运行残缺的神经网络(YOLO)。
整个 app 只有 300 行 Python 代码,其中大部分是机器学习代码。事实上,整个 app 里只有 23 次 Streamlit 调用。你能够试试看:
咱们与机器学习团队单干,为他们的我的项目而致力时,逐步意识到这些简略的想法会带来大量重要的收益:
Streamlit app 是纯 Python 文件。你能够应用本人喜爱的编辑器和 debugger。
纯 Python 代码可与 Git 等源码控制软件无缝对接,包含 commits、pull requests、issues 和 comment。因为 Streamlit 的底层语言是 Python,因而你能够收费利用这些合作工具的益处。
Streamlit 提供即时模式的编程环境。当 Streamlit 检测出源文件变更时,只需点击 Always rerun 即可。
缓存简化计算流程。一连串缓存函数主动创立出高效的计算流程!你能够尝试以下代码:
运行以上代码,参见阐明:
https://gist.github.com/treui…。
基本上,该流程波及加载元数据到创立摘要等步骤(load_metadata → create_summary)。该脚本每次运行时,Streamlit 仅需从新计算该流程的子集即可。
Streamlit 实用于 GPU。Streamlit 能够间接拜访机器级原语(如 TensorFlow、PyTorch),并对这些库进行补充。例如,以下 demo 中,Streamlit 的缓存存储了整个英伟达 PGGAN。该办法可使用户在更新左侧滑块时,app 执行近乎即时的推断。
该 Streamlit app 应用 TL-GAN 展现了英伟达 PGGAN 的成果。
Streamlit 是收费开源库,而非公有 web app。你能够本地部署 Streamlit app,不必提前分割咱们。你甚至能够在不联网的状况下在笔记本电脑上本地运行 Streamlit。此外,现有我的项目也能够渐进地应用 Streamlit。
以上只是 Streamlit 性能的冰山一角而已。它最令人兴奋的一点是,这些原语能够轻松组成简单 app,但看起来却只是简略脚本。这就要波及架构运作原理和性能了,本文暂不谈及。
咱们很快乐与社区分享 Streamlit,心愿它可能帮忙大家轻松将 Python 脚本转化为好看实用的机器学习 app。
英文:
https://towardsdatascience.co…
开源前哨
日常分享热门、乏味和实用的开源我的项目。参加保护 10 万 + Star 的开源技术资源库,包含:Python、Java、C/C++、Go、JS、CSS、Node.js、PHP、.NET 等。