有趣的教程在PyCharm20192版本中集成Jupyter-Notebooks

116次阅读

共计 2030 个字符,预计需要花费 6 分钟才能阅读完成。

PyCharm是一种 Python IDE,其带有一整套可以帮助用户在使用 Python 语言开发时提高其效率的工具。此外,该 IDE 提供了一些高级功能,以用于 Django 框架下的专业 Web 开发。

嗨,您好!您是否尝试过在 PyCharm 2019.2 中集成 Jupyter Notebooks?赶快来尝试一下吧!在这篇博文中,我们将使用 PyCharm 及其 Jupyter Notebook 集成来探索一些数据。首先,我们需要所述数据。每当我需要一个新的数据集来玩时,我通常会前往 Kaggle,我肯定会找到一些有趣的主题。这一次,一个名为“披萨餐馆和他们卖的比萨饼”的数据集引起了我的注意。谁不喜欢披萨?让我们分析一下这些披萨店,并尝试从中学到一两件事。

由于这些数据不是我现有任何 PyCharm 项目的一部分,我将创建一个新项目。

确保使用 PyCharm 专业版,Community Edition 不包括 Jupyter 笔记本集成。

提示:在浏览器中使用 Jupyter Notebooks 时,我倾向于为实验创建多个临时笔记本。为每个项目创建一个 PyCharm 项目是相当繁琐的,所以相反,你可以有一个项目用于这样的实验。

我喜欢我的东西井然有序,所以一旦项目被创建,我将添加一些结构 – 我将移动下载的数据集的数据目录,以及笔记本的另一个目录。

一旦我创建了我的第一个 pizza.ipynb 笔记本,PyCharm 建议安装 Jupyter 包并在右上角提供一个链接来做到这一点。

一旦安装了 Jupyter 软件包,我们就准备好了!

90%的数据科学家在他们的 Jupyter 笔记本中做的第一件事是打字import pandas as pd。此时,PyCharm 会建议在这个 venv 中安装 pandas,只需单击即可完成:

一旦我们安装了 pandas,我们就可以将 csv 中的数据读入 pandas DataFramedfpd.read_csv(“../data/Datafiniti_Pizza_Restaurants_and_the_Pizza_They_Sell_May19.csv”)

要执行此单元格,请按Shift + Enter,或单击单元格旁边的装订线中的绿色箭头图标。

当您第一次运行单元格时,PyCharm 将启动一个本地 Jupyter 服务器来执行其中的代码 – 您无需从终端手动执行此操作。

首先,我们将了解该数据集的基本内容 – 它有多少行?列是什么?数据是什么样的?

我怀疑这些数据仅包含美国餐馆的信息。要确认这一点,让我们计算国家 / 地区列中的值:

是的,这个数据集中唯一出现的国家是美国,因此 country 完全删除该列是安全的。同样的,menus.currency 和 priceRangeCurrency那些价值也是一样的 – 美元。我也会放弃,menuPageURL因为它不会给分析增加太多价值,key因为它会复制其他列(国家,州,城市等)的信息。

我将在这里做的另一个清理是重命名 province 列,states 因为它在这个上下文中更有意义,为了更好的可读性,我将用状态的全名替换状态首字母缩略词。

一旦我们完成清理数据,我们如何绘制它?作为人类,我们更善于在视觉上呈现信息。

首先,让我们看看我们在这个数据集中最常见的披萨类型。鉴于主题,将它视为带有 matplotlib 的馅饼是合适的

现在还不是我们的馅饼图。为了让它显示,我需要 %matplotlib inline 为 IPython 添加魔术命令,当我在它时,我将添加另一个魔术命令让 IPython 知道为视网膜屏幕适当地渲染图。

我可以将这些行添加到同一个单元格并再次运行它,但我更喜欢在笔记本的最开始定义这种类型的魔术命令。

要导航到笔记本的最开头,您可以使用Cmd+[(Ctrl+Alt+Left on Windows)。插入新单元格就像键入一样简单#%%(如果您更喜欢在当前单元格上方插入单元格的快捷方式,Option+Shift+Aon mac, or Alt+Shift+A on Windows)。现在我需要做的就是添加魔术命令并运行下面的所有单元格:

由馅饼图可知,现在我们知道最常见的披萨类型是芝士披萨,紧随其后的是白披萨。

餐馆怎么样?我们在数据集中有他们的地理位置,因此我们可以很容易地看到他们所在的位置。

每个餐厅都有一个唯一的 ID,并且数据集中可以有多个条目,每个条目代表该餐厅菜单中的披萨。因此,为了绘制餐厅而不是比萨饼,我们需要按餐馆 ID 对条目进行分组。

现在我们可以在地图上绘制它们。对于地理绘图,我喜欢用情节。确保获取它的最新版本(4.0.0),以便在 PyCharm 中很好地渲染图形输出。

人们可以想到我们可以尝试用这个数据集来回答的一些问题,例如,哪个城市拥有最多 / 最便宜的 Veggie Pizza?或者最常见的比萨餐厅连锁店是什么?如果您想玩这个数据集并回答这些或其他问题,您可以搜集数据并运行您自己的分析。请记住,如果你想用 PyCharm 试试,请确保你使用的是PyCharm 2019.2 专业版

正文完
 0