关于集群:通过AWS-EMR降低集群计算成本

本文首发于:行者AI

AWS EMR是一个计算集群。能够通过ta创立自定义配置的虚拟机,并主动装置所需计算框架(Spark,Hadoop,Hive等),以便用来进行大数据计算。

1. 我的项目背景

公司目前有一个我的项目,通过爬虫收集数据,离线计算失去用户画像,并将最终后果写入rds,通过api向外展现数据。

2. 架构演进

2.1 技术栈

  • 计算框架 Spark
  • 调度框架 Airflow
  • 数据存储 Hadoop,Mysql
  • 数仓工具 Hive,Presto
  • 辅助工具 Zepplin
  • 脚本语言 Java,Scala,Python

2.2 第一版

环境

咱们在某云厂商开了6台虚构器(4核8G),spark on yarn模式运行,其中1台作为主节点,运行hadoop主节点和airflow调度程序,其余作为数据节点。

计算过程

  • 通过Spark Streaming将数据落地到Hadoop
  • Airflow定时向主节点通过Spark-submit形式提交命令
  • Spark计算后将最终后果写入Mysql
  • 平时开发人员能够在Zepplin进行查问

成果

计算流程能够失常进行

思考

通过一段时间的察看剖析,咱们发现

  • 大部分计算工作都能在较短时间内实现
  • 机器每天闲置工夫很长
  • 业务没有很高的实时性要求
  • 高配置虚构器老本很高

论断

基于现状,咱们心愿能有个即开即用的零碎,就像电脑一样,要用就关上,用完就敞开。通过调研,最终抉择了AWS的EMR。

2.3 第二版

环境

在将零碎迁徙到AWS EMR之后,在AWS上开了一台虚构器(1核2G)运行Airflow和Kinesis

这台虚构器须要始终运行,但Airflow自身不须要高配置

计算过程

  • 通过Kinesis将数据落到S3
  • Airflow定时发动工作

    • 发动创立EMR申请

      可自定义机器配置,要装置的计算框架,也可笼罩框架配置。可通过Python脚本检测集群是否创立胜利

    • 提交计算工作
  • 敞开集群

成果

计算流程能够失常进行,但不须要长开机器了,只须要一台低配来触发定时工作即可

思考

通过一段时间的察看

  • EMR费用比起虚构器,的确便宜很多
  • 能够通过console台查看集群状态,管制集群开关
  • 不不便的中央,平时要查看Hadoop的数据,须要本人写脚本拉取,不能应用辅助工具了

::: hljs-center

Talk is cheap, show me the code

:::

筹备工作

  • 注册AWS账号,登录
  • 开明EMR,S3

    开明S3的目标是为了长久化数据,因为EMR集群自身不带额定硬盘,须要内部介质贮存

  • 开明AWS内网可拜访的Mysql

    如果不必Hive,可跳过这一步,同理,须要内部介质贮存Hive的数据结构

  • 筹备创立EMR集群的脚本

    这里有个坑,开始咱们应用的AWS SDK来做这件事,但无奈自定义计算框架配置(应该是BUG),最后咱们通过批改SDK源码解决了这个问题,但起初发现根本没用到SDK其余性能时,咱们将这部分代码提成了独自的文件,因为应用了Airflow进行调度,所以决定用了Python

  • 编写Spark工作,打包上传至S3

EMR LIB

# coding: UTF-8
import boto3, json, requests, requests
from datetime import datetime

def get_region():
    # 这个地址不必改
    r = requests.get("http://169.254.169.254/latest/dynamic/instance-identity/document")
    response_json = r.json()
    return response_json.get('region')

def client(region_name):
    global emr
    emr = boto3.client('emr', region_name=region_name)

# 创立EMR
def create_cluster(name):
    param = {
        # 批改须要的框架
        "Applications":[{
            "Name":"Hadoop"
        },{
            "Name":"Hive"
        },{
            "Name":"Spark"
        }],
        # 这里的名字会显示到控制台
        "Name":name,
        "ServiceRole":"EMR_DefaultRole",
        "Tags":[],
        "ReleaseLabel":"emr-5.26.0",
        "Instances":{
            "TerminationProtected":False,
            "EmrManagedMasterSecurityGroup":"sg-0085fba9c3a6818f5",
            "InstanceGroups":[{
                "InstanceCount":1,
                "Name":"主实例组 - 1",
                "InstanceRole":"MASTER",
                "EbsConfiguration":{
                    "EbsBlockDeviceConfigs":[{
                        "VolumeSpecification":{
                            "SizeInGB":32,
                            "VolumeType":"gp2"
                        },
                        "VolumesPerInstance":1
                    }]
                },
                # 批改须要的硬件配置
                "InstanceType":"m4.large",
                "Market":"ON_DEMAND",
                "Configurations":[{
                    # 批改Hive的meta源
                    "Classification":"hive-site",
                    "Properties":{
                        "javax.jdo.option.ConnectionURL":"jdbc:mysql://host:port/db?useUnicode=true&characterEncoding=UTF-8",
                        "javax.jdo.option.ConnectionDriverName":"org.mariadb.jdbc.Driver",
                        "javax.jdo.option.ConnectionUserName":"user",
                        "javax.jdo.option.ConnectionPassword":"pwd"
                    }
                },{
                    "Classification":"yarn-env",
                    "Properties":{},
                    "Configurations":[{
                        "Classification":"export",
                        "Properties":{
                            "AWS_REGION":"cn-northwest-1",
                            "S3_ENDPOINT":"s3.cn-northwest-1.amazonaws.com.cn",
                            "S3_USE_HTTPS":"0",
                            "S3_VERIFY_SSL":"0"
                        }
                    }]
                }]
            },{
                "InstanceRole":"CORE",
                "InstanceCount":1,
                "Name":"外围实例组 - 2",
                "Market":"ON_DEMAND",
                # 批改须要的硬件配置
                "InstanceType":"r5d.2xlarge",
                "Configurations":[{
                    "Classification":"hive-site",
                    "Properties":{
                        "javax.jdo.option.ConnectionURL":"jdbc:mysql://host:port/db?useUnicode=true&characterEncoding=UTF-8",
                        "javax.jdo.option.ConnectionDriverName":"org.mariadb.jdbc.Driver",
                        "javax.jdo.option.ConnectionUserName":"user",
                        "javax.jdo.option.ConnectionPassword":"pwd"
                    }
                },{
                    "Classification":"yarn-env",
                    "Properties":{},
                    "Configurations":[{
                        "Classification":"export",
                        "Properties":{
                            "AWS_REGION":"cn-northwest-1",
                            "S3_ENDPOINT":"s3.cn-northwest-1.amazonaws.com.cn",
                            "S3_USE_HTTPS":"0",
                            "S3_VERIFY_SSL":"0"
                        }
                    }]
                }]
            },{
                # 批改须要的工作节点数
                "InstanceCount":4,
                "Name":"工作实例组 - 4",
                "InstanceRole":"TASK",
                "EbsConfiguration":{
                    "EbsBlockDeviceConfigs":[{
                        "VolumeSpecification":{
                            "SizeInGB":32,
                            "VolumeType":"gp2"
                        },
                        "VolumesPerInstance":4
                    }]
                },
                # 批改须要的硬件配置
                "InstanceType":"r5d.2xlarge",
                "Market":"ON_DEMAND",
                "Configurations":[{
                    "Classification":"hive-site",
                    "Properties":{
                        "javax.jdo.option.ConnectionURL":"jdbc:mysql://host:port/db?useUnicode=true&characterEncoding=UTF-8",
                        "javax.jdo.option.ConnectionDriverName":"org.mariadb.jdbc.Driver",
                        "javax.jdo.option.ConnectionUserName":"user",
                        "javax.jdo.option.ConnectionPassword":"pwd"
                    }
                },{
                    "Classification":"yarn-env",
                    "Properties":{},
                    "Configurations":[{
                        "Classification":"export",
                        "Properties":{
                            "AWS_REGION":"cn-northwest-1",
                            "S3_ENDPOINT":"s3.cn-northwest-1.amazonaws.com.cn",
                            "S3_USE_HTTPS":"0",
                            "S3_VERIFY_SSL":"0"
                        }
                    }]
                }]
            }],
            "KeepJobFlowAliveWhenNoSteps":True,
            "Ec2SubnetId":"subnet-027bff297ea95039b",
            "Ec2KeyName":"hifive.airflow",
            "EmrManagedSlaveSecurityGroup":"sg-05a0e076ee7babb9e"
        },
        "JobFlowRole":"EMR_EC2_DefaultRole",
        "Steps":[{
            "HadoopJarStep":{
                "Args":["state-pusher-script"],
                "Jar":"command-runner.jar"
            },
            "Name":"Setup Hadoop Debugging"
        }],
        "ScaleDownBehavior":"TERMINATE_AT_TASK_COMPLETION",
        "VisibleToAllUsers":True,
        "EbsRootVolumeSize":10,
        "LogUri":"s3n://aws-logs-550775287661-cn-northwest-1/elasticmapreduce/",
        "AutoScalingRole":"EMR_AutoScaling_DefaultRole"
    }
    cluster_response = emr.run_job_flow(**param)
    return cluster_response['JobFlowId']

# 获取EMR拜访入口
def get_cluster_dns(cluster_id):
    response = emr.describe_cluster(ClusterId=cluster_id)
    return response['Cluster']['MasterPublicDnsName']

# 期待集群创立实现
def wait_for_cluster_creation(cluster_id):
    emr.get_waiter('cluster_running').wait(ClusterId=cluster_id)

# 敞开EMR
def terminate_cluster(cluster_id):
    emr.terminate_job_flows(JobFlowIds=[cluster_id])

调用测试

# 创立6台机器的集群(1 master,1 core,4 worker)
cluster_id = create_cluster("biz_daily_2020_10_09")
# 阻塞直到创立胜利
wait_for_cluster_creation(cluster_id)
# dns相当于虚拟机的ssh地址,每次都不同
# ssh登录这个地址能够提交spark命令了,这里应用Airflow的SSHOperator模仿登录并提交命令
cluster_dns = get_cluster_dns(cluster_id)
# 敞开集群
terminate_cluster(cluster_id)

3. 其余坑

  • Airflow 1.9.0的工夫模板{{ ds }}生成的是格林尼治工夫,要改为我国工夫,需手动加8小时,不晓得新版本是否反对本地工夫。
  • ssh登录dns用户名hadoop,这个用户是AWS生成的,仿佛无奈批改。

【腾讯云】轻量 2核2G4M,首年65元

阿里云限时活动-云数据库 RDS MySQL  1核2G配置 1.88/月 速抢

本文由乐趣区整理发布,转载请注明出处,谢谢。

您可能还喜欢...

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据