关于存储:Amazon-SageMaker-Data-Wrangler-简化数据准备过程助力机器学习

35次阅读

共计 12501 个字符,预计需要花费 32 分钟才能阅读完成。

数据筹备依然是机器学习 (ML) 畛域的次要挑战之一。数据科学家和工程师须要编写查问和代码以从源数据存储中获取数据,而后编写查问来转换这些数据,以创立用于模型开发和训练的特色。所有这些数据管道开发工作并不关注机器学习模型的构建,而是侧重于构建向模型提供数据所需的数据管道。Amazon SageMaker Data Wrangler 使数据科学家和工程师可能通过应用可视界面更轻松地在开发机器学习(ML)应用程序的晚期阶段筹备数据。

  • Amazon SageMaker Data Wrangler
    https://aws.amazon.com/sagema…

Amazon SageMaker Data Wrangler 应用单个可视界面简化了数据筹备和特色工程的过程。Amazon SageMaker Data Wrangler  附带了 300 多种内置数据转换性能,可帮忙实现特色的标准化、转换和组合,而无需编写任何代码。当初,您能够在 Amazon SageMaker Data Wrangler  中应用 Snowflake 作为数据源,轻松为机器学习(ML)筹备 Snowflake 数据。

📢 想要理解更多亚马逊云科技最新技术公布和实际翻新,敬请关注 2021 亚马逊云科技中国峰会!点击图片报名吧~

在这篇文章中,咱们应用了一组模仿数据集,该数据集是金融服务提供商提供的贷款数据,由 Snowflake 提供。该数据集蕴含无关向集体发放贷款的贷款人数据。咱们应用 Amazon SageMaker Data Wrangler 来转换和筹备数据以在 ML 模型中应用,首先在 Amazon SageMaker Data Wrangler  中构建数据流,而后将其导出到 Amazon SageMaker Pipelines。首先,咱们将实现将 Snowflake 设置为数据源,而后应用 Amazon SageMaker Data Wrangler  摸索和转换数据。

 

  • Amazon SageMaker Pipelines
    https://aws.amazon.com/sagema…

先决条件

本文假如您已满足以下先决条件:

领有创立存储集成权限的 Snowflake 账户

Snowflake 表中的数据

具备创立 Identity and Access Management (IAM) 策略和角色的权限的亚马逊云科技账户

一个 Amazon Simple Storage Service (Amazon S3) 存储桶,Amazon SageMaker Data Wrangler 可用于输入转换后的数据

  • Identity and Access Management
    http://aws.amazon.com/iam
  • Amazon Simple Storage Service
    http://aws.amazon.com/s3

设置 Amazon SageMaker

Data Wrangler 的权限

在本节中,咱们会介绍将 Snowflake 设置为 Amazon SageMaker Data Wrangler  的数据源所需的权限。本节内容要求您在 亚马逊云科技治理控制台 和 Snowflake 中执行步骤。各个环境中的用户都应有权在亚马逊云科技平台中创立策略、角色和密钥,并有权在 Snowflake 中创立存储集成。

  • 亚马逊云科技治理控制台
    http://aws.amazon.com/console

亚马逊云科技资源的所有权限均通过挂载到 Amazon SageMaker Studio 实例的 IAM 角色进行治理。Snowflake 特定的权限由 Snowflake 管理员治理;它们能够向每个 Snowflake 用户授予精密权限和特权。这包含数据库、架构、表、仓库和存储集成对象。请确保在 Amazon SageMaker Data Wrangler  之外设置了正确的权限。

  •  Amazon SageMaker Studio
    https://docs.aws.amazon.com/s…

拜访权限要求

Snowflake 须要对输入 Amazon S3 存储桶和前缀的以下权限能力拜访这些对象:

Amazon S3:GetObject

Amazon S3:GetObjectVersion

Amazon S3:ListBucket

您能够增加存储桶策略,以确保 Snowflake 仅通过 HTTPS 与存储桶通信。无关阐明,请参阅我应该应用什么 Amazon S3 存储桶策略来恪守 Amazon Config 规定 s3-bucket-ssl-requests-only?

  • 规定
    https://aws.amazon.com/premiu…

创立容许 Amazon S3 拜访的  Amazon IAM 策略

在本节中,咱们将介绍如何创立所需策略以便 Snowflake 拜访您抉择的 Amazon S3 存储桶中的数据。如果您曾经领有容许拜访打算用于 Amazon SageMaker Data Wrangler  输入的 Amazon S3 存储桶的策略和角色,则能够跳过本节和下节内容,而后开始在 Snowflake 中创立存储集成。

  • 在 Amazon IAM 管制台上,在左侧导航窗格中抉择 Policies(策略)。
  • 抉择 Create policy(创立策略)。
  • 在 JSON 选项卡上,输出以下 JSON 代码段,用存储桶和前缀名称替换占位符:
# S3 写入拜访权限的示例策略
# 这里须要更新
# 确保删除 <bucket> 和 <prefix> 四周的尖括号 
# 而后用本人的存储桶和前缀名称替换(例如:MY-SAGEMAKER-BUCKET/MY-PREFIX){
  "Version":"2012-10-17",
  "Statement":[
    {
      "Effect":"Allow",
      "Action": [
        "s3:PutObject",
        "s3:GetObject",
        "s3:GetObjectVersion",
        "s3:DeleteObject",
        "s3:DeleteObjectVersion"
      ],
      "Resource":["arn:aws:s3:::<bucket>/<prefix>/*"]
    },
    {
      "Effect":"Allow",
      "Action": ["s3:ListBucket"],
      "Resource":["arn:aws:s3:::<bucket>"],
      "Condition": {
        "StringLike": {"s3:prefix": ["<prefix>/*"]
        }
      }
    }
  ]
}
  • 抉择 Next: Tags(下一步:标签)。
  • 抉择 Next: Review(下一步:审查)。
  • 对于名称,输出策略的名称(例如,snowflake_datawrangler_s3_access)
  • 抉择 Create policy(创立策略)。

创立 Amazon IAM 角色

  • 在本节中,咱们创立了一个 Amazon IAM 角色并将其附加到咱们创立的策略中。
  • 在 Amazon IAM 管制台上,在左侧导航窗格中抉择 Roles(角色)。
  • 抉择 Create role(创立角色)。
  • 抉择 Another AWS account(另一个亚马逊云科技账户)作为信赖实体类型
  • 对于账户 ID 字段,请输入您本人的亚马逊云科技账户 ID。

稍后您能够批改信赖关系并授予对 Snowflake 的拜访权限。

  • 抉择 Require External ID(须要内部 ID)
  • 输出虚构 ID,例如您本人的账户 ID。

稍后,咱们会批改信赖关系并为 Snowflake 阶段指定内部 ID。须要内部 ID 能力向第三方 (Snowflake) 授予对您的亚马逊云科技资源(例如 Amazon S3)的拜访权限。

  • 抉择 Next(下一步)。
  • 找到您之前为 Amazon S3 存储桶创立的策略,而后抉择此策略。
  • 抉择 Next(下一步)。
  • 输出角色的名称和形容,而后抉择 Create role(创立角色)。

当初,您已为 Amazon IAM 角色创立了 Amazon IAM 策略,并且该策略已挂载到该角色。

  • 记录角色摘要页面上的角色 ARN 值。

在下一步中,您将创立援用此角色的 Snowflake 集成。

在 Snowflake 中创立存储集成

Snowflake 中的存储集成将存储生成的 Amazon IAM 实体用于内部云存储,并可选地配置在 Amazon S3 中的容许或阻止的地位。您组织中的亚马逊云科技管理员向生成的 Amazon IAM 实体授予存储地位的权限。应用此性能,用户在创立阶段或加载或卸载数据时无需提供凭证。

应用以下代码创立存储集成:

CREATE STORAGE INTEGRATION IF NOT EXISTS SAGEMAKER_DATAWRANGLER_INTEGRATION
  TYPE = EXTERNAL_STAGE
  STORAGE_PROVIDER = S3
  STORAGE_AWS_ROLE_ARN = '<iam_role_arn>'
  ENABLED = true
  STORAGE_ALLOWED_LOCATIONS = ('s3://<your_s3_bucket>/<optional_path>/')

为您的 Snowflake 账户检索 Amazon IAM 用户

运行以下 DESCRIBE INTEGRATION 命令来检索为您的 Snowflake 账户主动创立的 Amazon IAM 用户的 ARN:

DESC INTEGRATION SAGEMAKER_DATAWRANGLER_INTEGRATION;

记录以下输入的值:

  • STORAGE_AWS_IAM_USER_ARN — 为您的 Snowflake 账户创立的 IAM 用户
  • STORAGE_AWS_EXTERNAL_ID — 建设信赖关系所需的内部 ID

更新 Amazon IAM 角色信赖策略

当初咱们更新信赖策略。

  1. 在 Amazon IAM 管制台上,在左侧导航窗格中抉择 Roles(角色)。
  2. 抉择您创立的角色。
  3. 在 Trust relationship(信赖关系)选项卡上,抉择 Edit trust relationship(编辑信赖关系)。

批改策略文档,如以下代码所示,应用您在上一步中记录的 DESC STORAGE INTEGRATION 输入值:

{
  "Version": "2012-10-17",
  "Statement": [
    {"Sid": "","Effect":"Allow","Principal": {"AWS":"<snowflake_user_arn>"},"Action":"sts:AssumeRole","Condition": {"StringEquals": {"sts:ExternalId":"<snowflake_external_id>"}
      }
    }
  ]
}
  1. 抉择 Update trust policy(更新信赖策略)。

在 Snowflake 中创立一个内部阶段

咱们应用 Snowflake 中的内部阶段将数据从您本人账户中的 Amazon S3 存储桶加载到 Snowflake 中。在此步骤中,咱们创立了一个内部 (Amazon S3) 阶段,该阶段援用了您创立的存储集成。无关更多信息,请参阅创立 Amazon S3 阶段。

  • 创立 Amazon S3 阶段
    https://docs.snowflake.com/en…

这须要一个对架构具备 CREATE_STAGE 权限以及对存储集成领有 USAGE 权限的角色。您能够向角色授予这些权限,如下一步中的代码中所示。

应用 CREATE_STAGE 命令创立阶段,其中蕴含内部阶段的占位符、Amazon S3 存储桶和前缀。该阶段还援用了名为 my_csv_format 的命名文件格式对象:

将架构上的创立阶段公开授予角色

<iam_role>

将集成 SAGEMAKE_DATAWRANGLER_INTEGRATION 的应用授予角色;

<iam_role_arn>

创立阶段 

<external_stage>

storage_integration = SAGEMAKE_DATAWRANGLER_INTEGRATION
url = '<s3_bucket>/<prefix>'
file_format = my_csv_format;

为 Snowflake 凭证创立密钥(可选)

Amazon SageMaker Data Wrangler  容许用户应用 Amazon Secrets Manager 密钥的 ARN 或 Snowflake 账户名称、用户名和明码来拜访 Snowflake。如果您打算应用 Snowflake 账户名称、用户名和明码选项,请跳到下一节,其中波及增加数据源的操作。默认状况下,Amazon SageMaker Data Wrangler  在应用第二个选项时会代表您创立一个 Secrets Manager 密钥。

  • Amazon Secrets Manager
    https://aws.amazon.com/secret…

要手动创立 Amazon Secrets Manager 密钥,请实现以下步骤:

  • 在 Amazon Secrets Manager 控制台中,抉择 Store a new secret(存储新密钥)。
  • 对于 Amazon Select secret type(抉择密钥类型),抉择 Other types of secrets(其余类型的密钥)。
  • 将密钥的详细信息指定为键值对。

密钥的名称辨别大小写,必须应用小写。如果您输出的内容呈现任何谬误,Amazon SageMaker Data Wrangler  将会报错。

如果违心,您能够应用纯文本选项并以 JSON 模式输出明码值:

{

    "username": "<snowflake username>",

    "password": "<snowflake password>",

    "accountid": "<snowflake account id>"

}
  • 抉择 Next(下一步)。
  • 对于密钥名称,请增加前缀 AmazonSageMaker(例如,咱们的密钥为 AmazonSageMaker-DataWranglerSnowflakeCreds)。
  • 在标签局部中,增加一个带有键 SageMaker 且值为 true 的标签。

  • 抉择 Next(下一步)。
  • 其余字段是可选的;抉择 Next(下一步),直到您能够抉择 Store(存储)来存储明码。
  • 存储明码后,您将返回到 Secrets Manager 控制台。
  • 抉择刚创立的密钥,而后检索密钥 ARN。
  • 将其存储在您抉择的文本编辑器中,以便稍后在创立 Amazon SageMaker Data Wrangler  数据源时应用。

在 Amazon SageMaker

Data Wrangler 中设置数据源

在本节中,咱们将介绍如何在 Amazon SageMaker Data Wrangler  中将 Snowflake 设置为数据源。在本文中,咱们假如您有权拜访 Studio 的实例 SageMaker,并领有 Studio 的用户。无关先决条件的更多信息,请参阅 Amazon SageMaker Data Wrangler 入门

  • Amazon SageMaker Data Wrangler 入门:
    https://docs.aws.amazon.com/s…

创立新的数据流

要创立数据流,请实现以下步骤:

  • 在 Amazon SageMaker Data Wrangler 管制台上,在导航窗格中抉择 Amazon SageMaker Studio。
  • 抉择 Open Studio(关上 Studio)。
  • 在启动器中,抉择 New data flow(新建数据流)。

或者,在 File(文件)下拉列表中,抉择 New(新建),而后抉择 Amazon SageMaker Data Wrangler  Flow。

创立新的流程可能须要几分钟工夫。创立流程后,您将看到导入数据页面。

在 Amazon SageMaker Data Wrangler  中增加 Snowflake 作为数据源

接下来,咱们将增加 Snowflake 作为数据源。

  • 在 Add data source(增加数据源)菜单上,抉择 Snowflake。

  • 增加您的 Snowflake 连贯详细信息。

Amazon SageMaker Data Wrangler  应用 HTTPS 连贯到 Snowflake。

  • 如果您手动创立了 Secrets Manager 密钥,请抉择 Authentication method(身份验证办法)下拉菜单,而后抉择 ARN。

  • 抉择 Connect(连贯)。

您被从新导向到导入菜单。

运行查问

当初 Snowflake 已设置为数据源,您能够间接从 Amazon SageMaker Data Wrangler  查问编辑器拜访 Snowflake 中的数据。咱们在编辑器中编写的查问是 Amazon SageMaker Data Wrangler  用来从 Snowflake 导入数据以开始数据流的内容。

  • 在下拉菜单中,抉择要用于查问的数据仓库、数据库和架构。

在本文中,咱们的数据集位于数据库 FIN_LOANS 中,架构为 DEV,表格是 LOAN_INT_HV。我的数据仓库名为 MOONMAXW_DEV_WH;依据您的设置,这些可能会有所不同。

或者,您能够在查问编辑器中指定数据集的残缺门路。确保您依然在下拉菜单中抉择数据库和架构。

  • 在查问编辑器中,输出查问并预览后果。

在本文中,咱们从 1,000 行中检索所有列。

  • 抉择 Import(导入)。

  • 在呈现提醒时输出数据集名称(在本文中,咱们应用 snowflake_loan_int_hv)。
  • 抉择 Add(增加)。

您将转到 筹备 页面,在此能够向数据增加转换和剖析。

向数据增加转换

Amazon SageMaker Data Wrangler  有 300 多项内置转换。在本节中,咱们应用其中的一些转换来为机器学习(ML)模型筹备数据集。

在 Amazon SageMaker Data Wrangler  流程页面上,确保抉择了 Prepare(筹备)选项卡。如果您依照文中的步骤操作,则在增加数据集后将主动定向到此处。

转换数据类型

咱们要执行的第一步是查看是否在每列的摄取时推断出了正确的数据类型。

  • 在 Data types(数据类型)旁,抉择加号。
  • 抉择 Edit data types(编辑数据类型)。

通过这些列,咱们发现 MNTHS_SINCE_LAST_DELINQ 和 MNTHS_SINCE_LAST_RECORD 最有可能示意为数字类型,而不是字符串。

  • 在右侧菜单上,向下滚动直至找到 
  • MNTHS_SINCE_LAST_DELINQ 和 MNTHS_SINCE_LAST_LAST_RECORD。

在下拉菜单中,抉择 Float(浮点数)。

通过数据集,咱们能够确认其余列仿佛已正确推断。

  • 抉择 Preview(预览)以预览更改。
  • 抉择 Apply(利用)以利用更改。
  • 抉择 Back to data flow(返回到数据流)以查看流程的以后状态。

治理列

咱们正在应用的数据集有几个可能对将来模型有益的列,因而咱们首先删除那些没有用途的列来开始转换过程。

  • 在 Data types(数据类型)旁,抉择加号。
  • 抉择 Add transformation(增加转换)。

转换控制台随即关上。在这里,您能够预览数据集、从可用的转换中抉择并预览转换。

通过数据,咱们能够看到,EMP_TITLE、URL、DESCRIPTION 和 TITLE 字段在咱们的应用案例中可能不会为咱们的模型提供价值,因而咱们将其删除。

  • 在转换菜单上,抉择 Manage columns(治理列)。
  • 在转换下拉菜单中,来到“删除”列
  • 为要删除的列输出 EMP_TITLE。
  • 抉择 Preview(预览)以查看更改。
  • 抉择 Add(增加)以增加步骤。
  • 如果要查看增加的步骤和之前的步骤,请在 Transform(转换)中抉择 Previous steps(上一步)

  • 对其余列(URL、DESCRIPTION 和 TITLE)反复这些步骤。
  • 抉择 Back to data flow(返回到数据流)以查看流程的以后状态。

在数据流视图中,咱们能够看到流程中的此节点有四个步骤,它们示意咱们为流程的这一部分删除的四列。

格式化字符串

接下来,咱们寻找能够格式化的字符串数据的列,以帮忙后续应用。通过咱们的数据集,咱们能够看到 INT_RATE 在将来的浮点模型中可能很有用,但有 % 作为尾随字符。在咱们能够应用另一个内置转换(解析为类型)将其转换为浮点数之前,咱们必须去掉尾随字符。

  • 在 Steps(步骤)旁,抉择加号。
  • 抉择 Add transform(增加转换)。
  • 抉择 Format string(格局字符串)。
  • 在 Transform(转换)下拉列表中,抉择 Remove Symbols(移除符号)。
  • 在 Input column(输出列)下拉列表中,抉择 INT_RATE 列。
  • 对于符号,请输出 %。
  • 或者,在输入字段中,输出写入此数据的列的名称。

对于本文,咱们保留原始列并将输入列设置为 INT_RATE_PERCENTAGE,以便向将来的用户阐明此列是利率的百分比。之后,咱们将其转换为浮点数。

  • 抉择 Preview(预览)。

当 Amazon SageMaker Data Wrangler 增加新列时,它会主动增加为最右侧的列。

  • 查看更改以确保准确性。
  • 抉择 Add(增加)。

将列解析为类型

持续下面的示例,咱们曾经确定 INT_RATE_PERCENTAGE 应该转换为浮点型。

  • 在 Steps(步骤)旁,抉择加号。
  • 抉择 Add transform(增加转换)。
  • 抉择 Parse Column as Type(将列解析为类型)。
  • 在 Column(列)下拉列表中,抉择 INT_RATE_PERCENTAGE。

From 字段将主动填充。

  • 在 to(至)下拉菜单中,抉择 Float(浮点数)。
  • 抉择 Preview(预览)。
  • 抉择 Add(增加)。
  • 抉择 Back to data flow(返回到数据流)。

正如您所看到的,咱们当初在流程的这一部分有六个步骤,其中四个示意被删除的列,一个示意字符串格式化,另一个将解析列为类型。

对分类数据进行编码

接下来,咱们想在数据集中查找分类数据。Amazon SageMaker Data Wrangler  具备内置性能,能够应用序号和独热编码对分类数据进行编码。查看咱们的数据集,咱们能够看到 TERM、HOME_OWNERSHIP 和 PURPOSE 列在实质上都看起来都是分类的。

  • 在 Steps(步骤)旁,抉择加号。
  • 抉择 Add transform(增加转换)。

咱们列表中的第一列 TERM 有两个可能的值:60 个月和 36 个月。兴许对这些值进行独热编码并放入新列中将使咱们将来的模型受害。

  • 抉择 Encode Categorical(编码类别)。
  • 在 Transform(转换)下拉列表中,抉择 One-hot encode(独热编码)
  • 对于 Inputcolumn(输出列),抉择 TERM。
  • 在 Output style(输入款式)下拉列表中,抉择 Columns(列)。
  • 保留所有其余字段和复选框。
  • 抉择 Preview(预览)。

咱们当初能够看到两列,

TERM_36 months 和 TERM_60 months,是独热编码来示意 TERM 列中的相应值。

  • 抉择 Add(增加)。

HOME_OWNERSHIP 列有四个可能的值:RENT、MORTGAGE、OWN 和 other。

  • 反复上述步骤,对这些值利用独热编码方法。

最初,PURPOSE 列有几个可能的值。对于这些数据,咱们也应用独热编码方法,但咱们将输入设置为矢量而不是列。

  • 在 Transform(转换)下拉列表中,抉择 One-hot encode(独热编码)。
  • 对于 Inputcolumn(输出列),抉择 PURPOSE。
  • 在 Output style(输入款式)下拉列表中,抉择 Vector(向量)。
  • 对于输入列,咱们将此列称为 PURPOSE_VCTR。

如果咱们决定当前应用它,这将保留原来的 PURPOSE 列。

  • 保留所有其余字段和复选框。
  • 抉择 Preview(预览)。

  • 抉择 Add(增加)。
  • 抉择 Back to data flow(返回到数据流)。

咱们当初能够在这个流程中看到九种不同的转换,但咱们还没有编写一行代码。

解决异样值

作为此流程的最初一步,咱们心愿解决数据集中的异样值。作为数据摸索过程的一部分,咱们能够创立一个剖析(将在下一节中介绍)。在以下示例散点图中,我探讨了是否能够通过在散点图上察看数据集来查看年收入、利率和待业工夫之间的关系来取得见解。

在图上,咱们在 X 轴上有贷款接管人 INT_RATE_PERCENTAGE,Y 轴上有 ANNUAL_INC,数据用 EMP_LENGTH 进行色彩编码。数据集中有一些异样值,可能会在当前扭曲咱们模型的后果。为了解决这个问题,咱们应用 Amazon SageMaker Data Wrangler  的内置转换来解决异样值。

  • 在 Steps(步骤)旁,抉择加号。
  • 抉择 Add transform(增加转换)。
  • 抉择 Handle outliers(解决异样值)。
  • 在 Transform(转换)下拉列表中,抉择 Standard deviation numeric outliers(标准差数字异样值)。
  • 对于“输出”列,输出 ANNUAL_INC。
  • 对于“输入”列,输出 ANNUAL_INC_NO_OUTLIERS。

这是可选的,但最好留神有一列曾经为之后的消费者进行了转换。

  • 在 Fix method(修复办法)下拉菜单中,保留 Clip(剪切)

此选项会主动将值剪切到相应的异样值检测边界,咱们接下来设置该边界。

  • 对于标准差,请保留默认值 4 以开始。

这让平均值四个标准差范畴内的值都将被视为无效(因而不会剪切)。超出此限度的值将被剪切。

  • 抉择 Preview(预览)。
  • 抉择 Add(增加)。

输入包含对象类型。咱们须要将其转换为浮点数,能力使其在咱们的数据集和可视化后果中无效。

  • 依照将列解析为类型时的步骤,这次应用 ANNUAL_INC_NO_OUTLIERS 列。
  • 抉择 Back to data flow(返回到数据流)以查看流程的以后状态。

向数据增加剖析

在本节中,咱们将介绍向数据集增加剖析。咱们专一于可视化,但还有其余几种抉择,包含检测指标透露、生成偏差报告或应用 Altair 库增加本人的自定义可视化成果。

 

  • Altair 库
    https://altair-viz.github.io/

散点图

  • 要创立散点图,请实现以下步骤:
  • 在数据流页面的 Steps(步骤)旁,抉择加号。
  • 抉择 Add analysis(增加剖析)。
  • 对于 Analysis type(剖析类型),抉择 Scatter plot(散点图)。
  • 应用后面的示例,咱们将此剖析命名为 EmpLengthAnnualIncIntRate。
  • 对于 X 轴,请输出 
    INT_RATE_PERCENTAGE。
  • 对于 Y 轴,请输出
    ANNUAL_INC_NO_OUTLIERS。
  • 对于色彩根据,输出 EMP_LENGTH。
  • 抉择 Preview(预览)。

以下屏幕截图显示了咱们的散点图。

在移除异样之前,咱们能够将其与旧版本进行比拟。

到目前为止,后果看起来不错,让咱们增加一个分面来将级别列中的每个类别合成为本人的图表。

  • 对于 Facet by(分面根据),抉择 GRADE。
  • 抉择 Preview(预览)。

为了便于显示,上面的屏幕截图已被调整。Y 轴依然代表 ANNUAL_INC。对于分面图,这将显示在最底层的绘图上。

  • 抉择 Save(保留)以保留剖析。

导出数据流

最初,咱们将整个数据流导出为管道,这将创立一个具备事后填充代码的 Jupyter 笔记本。借助 Amazon SageMaker Data Wrangler,您还能够将数据导出到 Jupyter 笔记本作为 SageMaker Processing 工作、SageMaker Feature Store,或间接导出到 Python 代码。

  • 在 Data Flow 管制台上,抉择 Export(导出)
  • 抉择要导出的步骤。在咱们的应用案例中,咱们抉择代表步骤的每个框。

  • 抉择 Export step(导出步骤),而后抉择 Pipeline(管道)。

事后填充的 Jupyter 笔记本会主动加载并关上,显示数据流生成的所有步骤和代码。以下屏幕截图显示了定义数据源的输出局部。

清理

如果您应用 Amazon SageMaker Data Wrangler 的工作已实现,请敞开 Amazon SageMaker Data Wrangler 实例

以防止产生额定费用。

  • 敞开 Amazon SageMaker Data Wrangler 实例
    https://docs.aws.amazon.com/s…

论断

在本文中,咱们介绍了将 Snowflake 设置为  Amazon SageMaker Data Wrangler 的数据源,将转换和剖析增加到数据集中,而后导出到数据流以便在 Jupyter 笔记本中进一步应用。在应用  Amazon SageMaker Data Wrangler 内置的剖析性能对数据集进行可视化解决后,咱们进一步改善了数据流。最值得注意的是,咱们不用编写一行代码,便构建了数据筹备管道。

要开始应用 Amazon SageMaker Data Wrangler,请参阅应用 Amazon SageMaker Data Wrangler 筹备机器学习(ML)数据,并查看 Amazon SageMaker Data Wrangler  产品页面 上的最新信息。

  • 应用 Amazon SageMaker Data Wrangler 筹备机器学习(ML)数据
    https://docs.aws.amazon.com/s…
  • 产品页面
    https://aws.amazon.com/sagema…

Amazon SageMaker Data Wrangler 能够轻松摄取数据和执行数据筹备工作,例如探索性数据分析、特征选择、特色工程。在这篇文章中,咱们只介绍了 Amazon SageMaker Data Wrangler 的一部分数据筹备性能;您还能够应用 Amazon SageMaker Data Wrangler,借助简略直观的用户界面进行更高级的数据分析,例如特色重要性、指标透露和模型可解释性。

本篇作者

Maxwell Moon

亚马逊云科技高级解决方案构架师

与独立软件供应商 (ISV) 单干,在亚马逊云科技负责设计和扩大其应用程序。

Bosco Albuqerqu

亚马逊云科技高级合作伙伴解决方案构架师

在应用企业数据库供应商和云提供商的数据库和剖析产品方面领有超过 20 年的教训,并帮忙大型技术公司设计数据分析解决方案,领导工程团队设计和施行数据分析平台和数据产品。

正文完
 0