借助 Amazon Redshift,您能够应用SQL在您的数据仓库、操作数据库数据湖中查问和合并数EB的结构化和半结构化数据。当初,AQUA(高级查问加速器)已全面推出,您能够将您的查问性能最高进步 10 倍,而无需额定的费用和代码更改。事实上,Amazon Redshift提供比其余云数据仓库高出三倍的性价比

  • Amazon Redshift
    https://aws.amazon.com/redshift/
  • 操作数据库
    https://aws.amazon.com/blogs/...
  • 数据湖
    https://docs.aws.amazon.com/r...
  • 半结构化
    https://aws.amazon.com/blogs/...
  • AQUA(高级查问加速器)
    https://aws.amazon.com/blogs/...
  • 高出三倍的性价比
    https://aws.amazon.com/blogs/...

然而,如果您想更进一步,解决这些数据以训练机器学习(ML)模型并应用这些模型从仓库中的数据生成见解,该怎么办?例如,要施行预测支出、预测客户散失和检测异样等应用案例?过来,您须要将训练数据从Amazon Redshift导出到Amazon Simple Storage Service(Amazon S3)存储桶,而后配置并开始机器学习训练过程(例如,应用 Amazon SageMaker)。这个过程须要许多不同的技能,通常须要多个人才能实现。咱们能将这个过程简化吗?

  • Amazon Simple Storage Service(Amazon S3)
    https://aws.amazon.com/s3/
  • Amazon SageMaker
    https://aws.amazon.com/sagema...

想要理解更多亚马逊云科技最新技术公布和实际翻新,敬请关注在上海、北京、深圳三地举办的2021亚马逊云科技中国峰会!点击图片报名吧~

近期,Amazon Redshift ML已正式推出,可帮忙您间接从 Amazon Redshift 集群创立、训练和部署机器学习模型。要创立机器学习模型,您能够应用简略的 SQL查问来指定要用于训练模型的数据以及要预测的输入值。例如,要创立预测市场营销流动成功率的模型,您能够通过抉择蕴含客户配置文件和以前营销流动后果的列(在一个或多个表格中)来定义输出,以及您想预测的输入列。在此示例中,输入列能够是显示客户是否对流动体现出趣味的列。

  • Amazon Redshift ML
    https://aws.amazon.com/redshi...

运行SQL命令创立模型后,Amazon Redshift ML会将指定的数据从Amazon Redshift中平安地导出到Amazon S3存储桶,并调用Amazon SageMaker Autopilot来筹备数据(预处理和特色工程),而后抉择适当的预构建算法,并将该算法利用于模型训练。您能够选择性地指定要应用的算法,例如XGBoost

  • Amazon SageMaker Autopilot
    https://aws.amazon.com/sagema...
  • XGBoost
    https://docs.aws.amazon.com/s...

Amazon Redshift ML解决Amazon Redshift、Amazon S3与Amazon SageMaker之间的所有交互,包含训练和编译中波及的所有步骤。模型训练实现后,Amazon Redshift ML应用Amazon SageMaker Neo来优化模型以进行部署,并将其作为SQL函数提供。您能够应用SQL函数将机器学习模型利用于查问、报告和控制面板中的数据。

  • Amazon SageMaker Neo
    https://aws.amazon.com/sagema...

Amazon Redshift ML当初包含许多在预览期间未提供的新性能,包含Amazon Virtual Private Cloud(VPC)反对。例如:

  • Amazon Virtual Private Cloud(VPC)
    https://aws.amazon.com/vpc/

当初,您能够将Amazon SageMaker模型导入您的 Amazon Redshift 集群中(本地推理)。

  • Amazon SageMaker模型
    https://docs.aws.amazon.com/r...

您还能够创立应用现有Amazon SageMaker终端节点进行预测SQL函数(近程推理)。在这种状况下,Amazon Redshift ML正在批处理对终端节点的调用以放慢处理速度。

  • 终端节点
    https://docs.aws.amazon.com/s...

在钻研如何在实践中应用这些新性能之前,让咱们先看看Amazon Redshift ML与亚马逊云科技数据库和剖析服务中的相似性能之间的区别。

  • Amazon Redshift ML
    https://aws.amazon.com/redshi...
  • Amazon Aurora ML
    https://aws.amazon.com/rds/au...
  • Amazon Athena ML
    https://docs.aws.amazon.com/a...
  • 联结关系数据库
    https://aws.amazon.com/blogs/...
  • Amazon Redshift Spectrum
    https://docs.aws.amazon.com/r...
  • 与MySQL或PostgreSQL
    https://docs.aws.amazon.com/A...
  • Athena联结查问
    https://docs.aws.amazon.com/a...
  • 终端节点
    https://docs.aws.amazon.com/s...
  • Amazon Comprehend
    https://aws.amazon.com/compre...

应用Amazon Redshift ML构建机器学习模型

咱们来构建一个模型,预测客户是承受还是回绝营销优惠。

要治理与Amazon S3和Amazon SageMaker之间的交互,Amazon Redshift ML须要拜访这些资源的权限。我创立了一个Amazon Identity and Access Management(IAM)角色,如文档中所述。我将RedshiftML用于角色名称。请留神,该角色的信赖策略同时容许Amazon Redshift和Amazon SageMaker代入角色,以与其余亚马逊云科技服务交互。

  • Amazon Identity and Access Management(IAM)
    https://aws.amazon.com/iam/
  • 文档所述
    https://docs.aws.amazon.com/r...
  • 该角色的信赖策略
    https://aws.amazon.com/blogs/...

我从Amazon Redshift控制台中创立一个集群。在集群权限中,我关联Amazon Redshift ML IAM角色。当集群可用时,我将加载我的共事Julien在Amazon SageMaker Autopilot发表推出时撰写的这篇超级乏味的博客文章中应用的数据集。

  • Amazon Redshift控制台
    https://console.aws.amazon.co...
  • 博客文章
    https://aws.amazon.com/blogs/...

我正在应用的文件 (bank-additional-full.csv) 为CSV格局。每一行都形容了与客户进行的间接营销流动。最初一列(y)形容流动的后果(客户是否订阅了向他们营销的服务)。

  • CSV
    https://en.wikipedia.org/wiki...

上面的该文件的前几行。第一行蕴含题目。

age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y 56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no

我将文件存储在我的其中一个Amazon S3存储桶中。Amazon S3存储桶用于卸载数据和存储Amazon SageMaker训练构件。

而后,我应用控制台中的Amazon Redshift查问编辑器创建表格来加载数据。

  • Amazon Redshift查问编辑器
    https://docs.aws.amazon.com/r...
CREATE TABLE direct_marketing (    age DECIMAL NOT NULL,    job VARCHAR NOT NULL,    marital VARCHAR NOT NULL,    education VARCHAR NOT NULL,    credit_default VARCHAR NOT NULL,    housing VARCHAR NOT NULL,    loan VARCHAR NOT NULL,    contact VARCHAR NOT NULL,    month VARCHAR NOT NULL,    day_of_week VARCHAR NOT NULL,    duration DECIMAL NOT NULL,    campaign DECIMAL NOT NULL,    pdays DECIMAL NOT NULL,    previous DECIMAL NOT NULL,    poutcome VARCHAR NOT NULL,    emp_var_rate DECIMAL NOT NULL,    cons_price_idx DECIMAL NOT NULL,    cons_conf_idx DECIMAL NOT NULL,    euribor3m DECIMAL NOT NULL,    nr_employed DECIMAL NOT NULL,    y BOOLEAN NOT NULL);

我应用COPY命令将数据加载到表格中。我能够应用之前创立的雷同IAM角色 (RedshiftML),因为我应用雷同的Amazon S3存储桶来导入和导出数据。

  • COPY命令
    https://docs.aws.amazon.com/r...
COPY direct_marketing FROM 's3://my-bucket/direct_marketing/bank-additional-full.csv' DELIMITER ',' IGNOREHEADER 1IAM_ROLE 'arn:aws:iam::123412341234:role/RedshiftML'REGION 'us-east-1';

当初,我应用新的CREATE MODEL语句从SQL界面中间接创立模型:

  • CREATE MODEL语句
    https://docs.aws.amazon.com/r...
CREATE MODEL direct_marketingFROM direct_marketingTARGET yFUNCTION predict_direct_marketingIAM_ROLE 'arn:aws:iam::123412341234:role/RedshiftML'SETTINGS (  S3_BUCKET 'my-bucket');

在此 SQL 命令中,我指定创立模型所需的参数:

  • FROM–我抉择direct_marketing表格中的所有行,但我能够将表格的名称替换为嵌套查问(请参见上面的示例)。
  • TARGET–这是我想预测的列(在此案例中为y)。
  • FUNCTION–要进行预测的SQL函数的名称。
  • IAM_ROLEAmazon Redshift和Amazon SageMaker代入的IAM角色,用于创立、训练和部署模型。
  • S3_BUCKET – 长期存储训练数据的Amazon S3存储桶,以及您抉择保留模型构件的正本时存储模型构件的地位。
  • Amazon Redshift和Amazon SageMaker代入的IAM角色
    https://docs.aws.amazon.com/r...

在这里,我将简略语法用于CREATE MODEL语句。对于更高级的用户,还能够应用其余选项,例如:

  • 简略语法
    https://docs.aws.amazon.com/r...
  • 其余选项
    https://docs.aws.amazon.com/r...
  • MODEL_TYPE–应用指定模型类型进行训练,例如XGBoost或多层感知器 (MLP)。如果我没有指定此参数,Amazon SageMaker Autopilot会抉择适当模型类来应用.
  • PROBLEM_TYPE–定义要解决的问题类型: 回归、二进制分类或多级分类。如果我不指定此参数,则会依据我的数据在训练期间发现问题类型。
  • OBJECTIVE–用于测量模型品质的指标指标。此指标在训练期间进行了优化,以便依据数据提供最佳预计。如果我不指定指标,则默认行为为应用均方误差(MSE)进行回归,应用F1 评分进行二进制分类,以及应用准确性进行多类分类。其余可用选项包含F1Macro(用于将F1评分利用于多类分类)和曲线下面积(AUC)。无关指标指标的更多信息,请参阅Amazon SageMaker文档
  • XGBoost
    https://docs.aws.amazon.com/s...
  • 均方误差(MSE)
    https://en.wikipedia.org/wiki...
  • F1评分
    https://en.wikipedia.org/wiki...
  • 曲线下面积(AUC)
    https://en.wikipedia.org/wiki...
  • Amazon SageMaker文档
    https://docs.aws.amazon.com/s...

依据模型的复杂性和数据量,模型可能须要一些工夫能力应用。我应用SHOW MODEL命令查看模型何时可用:

  • SHOW MODEL
    https://docs.aws.amazon.com/r...

SHOW MODEL direct_marketing

当我应用控制台中的查问编辑器执行此命令时,我取得以下输入:

正如预期的那样,模型目前处于TRAINING状态。

当我创立此模型时,我将表格中的所有列选为输出参数。我想晓得如果我创立一个应用较少输出参数的模型会产生什么?我处于云中,并没有因为无限的资源被拖慢速度,所以我应用表格中的列子集创立另一个模型:

CREATE MODEL simple_direct_marketingFROM (        SELECT age, job, marital, education, housing, contact, month, day_of_week, y       FROM direct_marketing)TARGET yFUNCTION predict_simple_direct_marketingIAM_ROLE 'arn:aws:iam::123412341234:role/RedshiftML'SETTINGS (  S3_BUCKET 'my-bucket');

一段时间后,我的第一个模型准备就绪,我从SHOW MODEL取得了此输入。控制台中的理论输入处于多个页面中,我将后果合并到此处,以便更容易遵循它们:

从输入中,我看到模型已被正确辨认为BinaryClassification,且F1被选为指标。F1评分是同时思考精度和召回的指标。它返回介于 1(完满精度和召回)和 0(最低评分)之间的值。模型的最终评分 (validation:f1) 为 0.79。在此表格中,我还找到了为模型创立的 SQL 函数的名称 (predict_direct_marketing),它的参数及其类型和训练老本的评估。

  • F1评分
    https://en.wikipedia.org/wiki...
  • 精度和召回
    https://en.wikipedia.org/wiki...

第二个模型准备就绪时,我比拟了F1评分。第二个模型的F1得分低于第一个模型 (0.66)。然而,因为参数较少,SQL函数更容易利用于新数据。与机器学习常常存在的状况一样,我必须在复杂性和可用性之间找到适当的均衡。

应用Amazon Redshift ML进行预测

既然这两个模型已准备就绪,我能够应用SQL函数进行预测。应用第一个模型,我查看在将模型利用于训练的雷同数据时,我失去了多少误报(谬误的阳性预测)和漏报(谬误的阴性预测):

SELECT predict_direct_marketing, y, COUNT(*)  FROM (SELECT predict_direct_marketing(                   age, job, marital, education, credit_default, housing,                   loan, contact, month, day_of_week, duration, campaign,                   pdays, previous, poutcome, emp_var_rate, cons_price_idx,                   cons_conf_idx, euribor3m, nr_employed), y          FROM direct_marketing) GROUP BY predict_direct_marketing, y;

查问的结果表明,该模型更长于预测阴性后果,而不是阳性后果。事实上,即便真正的阴性后果数量远远大于真正的阳性后果,但误报比漏报还是要多得多。我在上面的屏幕截图中增加了一些绿色和红色的评论,以廓清后果的含意。

应用第二种模式,我看到多少客户可能对营销流动感兴趣。现实状况下,我应该针对新客户数据运行此查问,而不是我用于训练的数据。

SELECT COUNT(*)  FROM direct_marketing WHERE predict_simple_direct_marketing(           age, job, marital, education, housing,           contact, month, day_of_week) = true;

哇,看看后果,有 7000 多个潜在客户!

可用性和定价

Amazon Redshift ML现已在以下Amazon区域推出:美国东部(俄亥俄)、美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、美国西部(旧金山)、加拿大(中部)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(巴黎)、欧洲(斯德哥尔摩)、亚太地区(香港)、亚太地区(东京)、亚太地区(新加坡)、亚太地区(悉尼)和南美洲(圣保罗)。无关更多信息,请参阅Amazon区域服务列表

  • Amazon Redshift ML
    https://aws.amazon.com/redshi...
  • Amazon 区域
    https://aws.amazon.com/about-...
  • Amazon 区域服务列表
    https://aws.amazon.com/about-...

应用Amazon Redshift ML,您只需为使用量付费。训练新模型时,您须要为Amazon SageMaker Autopilot和Amazon Redshift ML 应用的Amazon S3资源付费。进行预测时,如我在本博文中应用的示例所示,导入到Amazon Redshift集群中的模型不会产生额定费用。

  • Amazon SageMaker Autopilot
    https://aws.amazon.com/sagema...
  • Amazon S3
    https://aws.amazon.com/s3/
  • Amazon SageMaker
    https://aws.amazon.com/sagema...

Amazon Redshift ML还容许您应用现有的 Amazon SageMaker终端节点进行推理。在此案例中,实用用于实时推理的通常Amazon SageMaker定价。在此,您能够找到无关应用Amazon Redshift ML管制老本的几点提醒

要理解更多信息,您能够参阅Amazon Redshift ML预览版公布时撰写的此博客文章文档

应用Amazon Redshift ML开始从您的数据中取得更好的见解。

  • Amazon SageMaker定价
    https://aws.amazon.com/sagema...
  • 无关应用Amazon Redshift ML管制老本的几点提醒
    https://docs.aws.amazon.com/r...
  • 博客文章
    https://aws.amazon.com/blogs/...
  • 文档
    https://docs.aws.amazon.com/r...
  • 应用Amazon Redshift ML开始从您的数据中取得更好的见解。
    https://aws.amazon.com/redshi...

本篇作者:

Danilo Poccia

Danilo与不同规模的初创公司及大型企业单干,致力提供各类翻新反对。在负责亚马逊云科技首席布道师(欧洲、非洲与中东市场)期间,他利用本人的丰盛教训帮忙客户将创意灵感转化为事实。他次要关注无服务器架构与事件驱动编程,以及机器学习与边缘计算对于技术及业务的重大影响。他的论著《Amazon Lambda in Action》由曼宁出版社出版发行。