无分类 为多家现金贷提供爬虫数据风控多家大数据服务公司遭封查 8 月 31 日,为期三天的第二届 2019 WAIC 世界人工智能大会刚刚于上海闭幕不久就传出,在大会上做过主题演讲的大数据金融风控公司新颜科技 CEO 黄向前被警方带走调查。
无分类 Spark系列文章三搭建Spark开发环境IDEA Spark系列文章(三):搭建Spark开发环境IDEA 作者:studytime原文:[链接] 一、创建maven工程 二、设置groupId和artifactId 三、设置工程目录 四、构建完成 五、上传项目至github {代码…} 出现以下问题: 主要原…
无分类 Hbase知识点一初识与扩展 Google 发表的三驾马车(既谷歌文件系统 GFS、MapReduce 和 BigTable)论文,被誉为计算机科学进入大数据时代的标志。因早期 Hadoop 开发者,只实现了 Hadoop 文件系统和 Hadoop MapReduce,并未实现 BigTable,…
无分类 Spark系列文章六Spark的共享变量 Spark 中所有 transformation 算子是通过分发到多个节点上的并行任务实现运行并行化的。当将一个自定义函数传递给 Spark 算子时(比如map或reduce),该函数所包含的变量会通过副本方式传播到远程节点上。但所有针…
无分类 Spark系列文章四Spark之RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
无分类 Spark系列文章二Spark伪分布式安装 Spark系列文章(二):Spark伪分布式安装 作者:studytime原文:[链接] 下载 Spark 安装包 官网下载 http://spark.apache.org/downloads.html 安装前准备 Java8 已安装 hadoop2.7.5 已安装 修改 Hadoop 配置文件 …
无分类 Spark系列文章一Spark初识 spark 是高性能 DAG 计算引擎,一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP 实验室开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的 MapReduce 计…
无分类 流式计算的应用特征 大数据流式计算可以广泛应用于金融银行、互联网、物联网等诸多领域,如股市实时分析、插入式广告投放、交通流量实时预警等场景,主要是为了满足该场景下的实时应用需求。数据往往以数据流的形式持续到达数据计算…
无分类 数据解读-房租上涨工资没一半年轻人为何无法逃离一线城市 作者 | 林实憨来源 | 小白读财经 房租有多贵 近期,一线城市房租上涨了不少,不少大学毕业生头疼不已。 为此,我与北京财经大咖猫哥聊了这一话题。 猫哥说,上个月大舅妈的孩子要到北京望京附近工作,希望他能帮…