关于数据科学:数据科学在文本分析中的应用-中英文-NLP上

在《后疫情时代,数据迷信赋能游览行业服务质量晋升》这篇博文中,咱们介绍了猫途鹰文本剖析我的项目的背景和解决方案,并展现了最终的剖析后果。接下来,对于中英文 NLP 感兴趣的读者,咱们会为大家具体解说数据采集、数据入库、数据清理和数据建模步骤中波及的原理和代码实现。因为篇幅的限度,上篇会重点解说数据采集、数据入库和数据清理这三个步骤,下篇则会解说数据建模的残缺流程。 数据采集1. 抓取工具剖析网页内容抓取是从互联网上获取数据的形式之一。对于应用 Python 进行网页抓取的开发者,比拟支流的工具有以下几种: Beautiful SoupBeautiful Soup 是几种工具中最容易上手的网页抓取库,它能够疾速帮忙开发者从 HTML 或 XML 格局的文件中获取数据。在这个过程中,Beautiful Soup 会肯定水平上读取这类文件的数据结构,并在此基础上提供许多与查找和获取数据内容相干的方程。除此之外,Beautiful Soup 欠缺、易于了解的文档和沉闷的社区使得开发者不仅能够疾速上手,也能疾速精通,并灵活运用于开发者本人的利用当中。 不过正因为这些工作个性,相较于其余库而言,Beautiful Soup也有比拟显著的缺点。首先,Beautiful Soup 须要依赖其余 Python库(如 Requests)能力向对象服务器发送申请,实现网页内容的抓取;也须要依赖其余 Python 解析器(如 html.parser)来解析抓取的内容。其次,因为Beautiful Soup须要提前读取和了解整个文件的数据框架以便之后内容的查找,从文件读取速度的角度来看,Beautiful Soup 绝对较慢。在许多网页信息抓取的过程中,须要的信息可能只占一小部分,这样的读取步骤并不是必须的。 ScrapyScrapy 是十分受欢迎的开源网页抓取库之一,它最突出的个性是抓取速度快,又因为它基于 Twisted 异步网络框架,用户发送的申请是以无阻塞机制发送给服务器的,比阻塞机制更灵便,也更节俭资源。因而,Scrapy 领有了以下这些个性: 对于 HTML 类型网页,应用XPath或者CSS表述获取数据的反对可运行于多种环境,不仅仅局限于 Python。Linux、Windows、Mac 等零碎都能够应用 Scrapy 库扩展性强速度和效率较高须要的内存、CPU 资源较少纵然 Scrapy 是功能强大的网页抓取库,也有相干的社区反对,但生涩难懂的文档使许多开发者望而生畏,上手比拟难。 SeleniumSelenium 的起源是为了测试网页应用程序而开发的,它获取网页内容的形式与其余库截然不同。Selenium 在结构设计上是通过自动化网页操作来获取网页返回的后果,和 Java 的兼容性很好,也能够轻松应答 AJAX 和 PJAX 申请。和 Beautiful Soup 类似,Selenium 的上手绝对简略,但与其余库相比,它最大的劣势是能够解决在网页抓取过程中呈现的须要文本输出能力获取信息、或者是弹出页面等这种须要用户在浏览器中有染指动作的状况。这样的个性使得开发者对网页抓取的步骤更加灵便,Selenium 也因而成为了最风行的网页抓取库之一。 因为在获取景点评论的过程中须要应答搜寻栏输出、弹出页面和翻页等状况,在本我的项目中,咱们会应用 Selenium 进行网页文本数据的抓取。 2. 网页数据和构造的初步理解各个网站在开发的过程中都有本人独特的构造和逻辑。同样是基于 HTML 的网页,即便 UI 雷同,背地的层级关系都可能天壤之别。这意味着理清网页抓取的逻辑不仅要理解指标网页的个性,也要对将来同一个网址的更新换代、同类型其余平台的网页个性有所理解,通过比拟类似的局部整顿出一个绝对灵便的抓取逻辑。 ...

March 22, 2023 · 4 min · jiezi

关于数据科学:后疫情时代数据科学赋能旅游行业服务质量提升

通宵灯火人如织,一派歌声喜欲狂。新冠 “乙类乙管” 的施行加上春节假期的到来,使得人们的出行激情空前低落。依据中国游览研究院的考察显示,23 年春节假期全国国内游览出游达到了 3.08 亿人次,同比增长 23.1%,期间游览支出达 3758.43 亿元。以杭州西湖景区为例,该景区在春节期间款待游客 292.86 万人次,数量近上年的 4 倍。各大景区热闹非凡、游客川流不息的新闻也成为了人们对 23 年春节独特的回顾。 因为先前的新冠风控,许多景区在财政和园区治理方面经验了难熬的两年。在游客反馈方面,因为人次过少,景区非常容易陷入无奈对游客需要进行精确判断的窘境。理解游客的实在感触和评估,并依据这些信息对景区硬件、软件、治理等进行降级,是景区应答暴涨的游客需要和期待最无效的解决方案之一。 面对后疫情时代下,游览行业逐步迈向复苏,景区该如何把握机会,通过晋升服务来满足游客需要呢?基于以上背景,咱们决定建设这样一个实验性我的项目,让数据来通知大家答案。 我的项目背景与构造寰球旅游业权威钻研机构 PhoCusWright 指出,公众对于景区的点评值得被加以分析与使用,能够为游览企业带来微小的价值。很多景区治理部门因为对游客需要的误会、信息技术的落后、或是相干反馈部门的缺失,对于网络上的评论并未做到无效的收集与剖析。在进入大数据时代后,一些适应了新型数据平台的景区治理部门通过在网络上收集与景区相干的评论,并对这些数据进一步剖析来重点调整、降级景区中让游客在意的局部。其中就波及了对各大游览点评网站中景点评论的演绎总结,包含对游客类别的统计和评论文本信息的建模与剖析。 游览网站的品种泛滥,但商业价值的侧重点会有所不同。猫途鹰(TripAdvisor)是一款侧重于记录用户旅行数据的国际性游览网站,领有着数十亿条国内外实在旅行者的点评和倡议。许多游客在出行前会在该平台查问目的地酒店、餐厅和景点的相干点评,多而全的点评信息不仅能帮忙旅客做出出游决定,也是景区收集游客反馈的好渠道。 本我的项目以热门景点 “上海外滩” 为例,采集猫途鹰网站上与该景点相干的评论,查看随着工夫与出行政策的变动,国内外游客在出游形式和态度上的转变,联合 NLP(自然语言解决)技术,开掘评论中值得借鉴的意见和倡议,寻找游客对景点需要的趋势。总体的解决方案构造如下: 确定数据起源数据采集数据入库数据荡涤探索性数据分析数据建模数据洞察我的项目步骤解析1. 确定数据起源首先,咱们确定应用来自猫途鹰中文版网站(www.tripadvisor.cn)和国际版网站(www.tripadvisor.com)截至 2023 年 2 月 20 日的数据。重点关注旅游者对 “上海外滩” 这个景点的中英文评论,收集来自世界各地的评论有助于晋升景区的剖析维度,让决策更具包容性,这也是咱们抉择猫途鹰这个国际化游览平台的起因。 2. 数据采集在对网页抓取工具做了深度评估、对网页数据和构造的初步理解后,咱们决定应用 Selenium 进行网页文本数据的抓取。依据评论格局的特点,咱们能够抓取的信息如下: 用户用户所在地评分点评题目到访日期旅行类型具体点评撰写日期留神,对于中文评论的抓取,咱们把用户所在地锁定至城市,而对于英文评论,用户所在地的抓取会具体至国家和城市。最终,咱们执行的网页抓取程序大抵能够分成两个步骤: 第一步:发送申请,应用 Selenium 操作浏览器找到指定景点的评论页面第二步:进入评论页面,抓取评论数据 因为中文评论的数量远少于英文评论,为了保持数据总量的一致性,咱们采集了中文评论的全量数据(1710 条,时间跨度 2009-2022 年)和英文评论的局部数据(2000 条,时间跨度 2018-2022 年)。如果大家想从残缺的工夫线维度比照中英文评论,能够自行获取更多英文评论数据,在本我的项目中咱们就不多加赘述了。 3. 数据入库在采集结束评论数据后,咱们能够将数据存进数据库,以便数据分享,进行下一步的剖析与建模。以 PieCloudDB Database 为例,咱们能够应用 Python 的 Postgres SQL 驱动与 PieCloudDB 进行连贯。在《PieCloudDB Database 云上商业智能的最佳实际》中,咱们具体介绍了 PieCloudDB 的内部连贯形式,如有需要请参考这篇技术博文。 咱们实现数据入库的形式是,在获取了评论数据并整合为 Pandas DataFrame 构造后,借助 SQLAlchemy 引擎将该数据通过 psycopg2 上传至数据库。因为中英文的文本剖析技巧略有不同,所以咱们将中英文数据寄存在两张表中。最终,咱们能够在 PieCloudDB 中查看如下两张源数据表构造: ...

February 28, 2023 · 3 min · jiezi

关于数据科学:数据科学在量化金融中的应用指数预测下

回顾上篇,咱们对股票指数数据进行了收集、探索性剖析和预处理。接下来,本篇会重点介绍特色工程、模型抉择和训练、模型评估和模型预测的具体过程,并对预测后果进行剖析总结。 特色工程在正式建模之前,咱们须要对数据再进行一些高级解决 — 特色工程,从而保障每个变量在模型训练中的公平性。依据现有数据的特点,咱们执行的特色工程流程大抵有以下三个步骤: 解决缺失值并提取所需变量数据标准化解决分类变量1. 解决缺失值并提取所需变量首先,咱们须要剔除蕴含缺失值的行,并只保留须要的变量 x_input,为下一步特色工程做筹备。 x_input = (df_model.dropna()[['Year','Month','Day','Weekday','seasonality','sign_t_1','t_1_PricePctDelta','t_2_PricePctDelta','t_1_VolumeDelta']].reset_index(drop=True))x_input.head(10) 而后,再将指标预测列 y 从数据中提取进去。 y = df_model.dropna().reset_index(drop=True)['AdjPricePctDelta']2. 数据标准化因为价格百分比差与交易量差在数值上有很大差距,如果不标准化数据,可能导致模型对某一个变量有倾向性。为了均衡各个变量对于模型的影响,咱们须要调整除分类变量以外的数据,使它们的数值大小绝对近似。Python 提供了多种数据标准化的工具,其中 sklearn 的 StandardScaler 模块比拟罕用。数据标准化的办法有多种,咱们抉择的是基于均值和标准差的标准化算法。这里,大家能够依据对数据个性的了解和模型类型的不同来决定应用哪种算法。比方对于树形模型来说,标准化不是必要步骤。 scaler = StandardScaler()x = x_input.copy()x[['t_1_PricePctDelta','t_2_PricePctDelta','t_1_VolumeDelta']]=scaler.fit_transform(x[['t_1_PricePctDelta','t_2_PricePctDelta','t_1_VolumeDelta']])3. 解决分类变量最常见的分类变量解决办法之一是 one-hot encoding。对于高基数的分类变量,通过编码解决后,变量数量减少,大家能够思考通过降维或更高阶的算法来升高计算压力。 x_mod = pd.get_dummies(data=x, columns=['Year','Month','Day','Weekday','seasonality'])x_mod.columns x_mod.shape 至此,咱们实现了特色工程的全副步骤,解决后的数据就能够进入模型训练环节了。 模型抉择和训练首先,咱们须要拆分训练集和测试集。对于不须要思考记录程序的数据,能够随机选取一部分数据作为训练集,剩下的局部作为测试集。而对于工夫序列数据来说,记录之间的程序是须要思考的,比方咱们想要预测 2 月份的价格变动,那么模型就不能接触 2 月份当前的价格,免得数据泄露。因为股票指数数据为工夫序列,咱们将工夫序列前 75% 的数据设为训练数据,后 25% 的数据设为测试数据。 模型抉择在模型抉择阶段,咱们会依据数据的特点,初步确定模型方向,并抉择适合的模型评估指标。因为变量中蕴含历史价格和交易量,且这些变量的相关性过高(high correlation),以线性模型为根底的各类回归模型并不适宜指标数据。因而,咱们模型尝试的重心将放在集成办法(ensemble method),以这类模型为主。在训练过程中,咱们须要酌情思考,抉择适合的指标来评估模型体现。对于回归预测模型而言,比拟风行的抉择是 MSE(Mean Squared Error)。而对于股票指数数据来说,因为其工夫序列的个性,咱们在 RMSE 的根底上又抉择了 MAPE(Mean Absolute Percentage Error),一种绝对度量,以百分比为单位。比起传统的 MSE,它不受数据大小的影响,数值放弃在 0-100 之间。因而,咱们将 MAPE 作为次要的模型评估指标。模型训练在模型训练阶段,所有的候选模型将以默认参数进行训练,咱们依据 MAPE 的值来判断最适宜进一步细节训练的模型类型。咱们尝试了包含线性回归、随机森林等多种模型算法,并将经过训练集训练的各模型在测试集中的模型体现以字典的模式打印返回。模型评估通过运行以下方程,咱们能够依据预测差值(MAPE)的大小对各模型的体现进行排列。大家也能够摸索更多种不同的模型,依据评估指标的高下择优选取模型做后续微调。 trail_result = ensemble_method_reg_trails(x_train, y_train, x_test, y_test) ...

January 12, 2023 · 2 min · jiezi

关于数据科学:数据科学在量化金融中的应用指数预测上

自 2018 年末以来,寰球金融根本盘由晚期的稳步回升变得起伏不定。因为投资者对市场走向和将来瞻望的不确定,这样的市场情绪带动着大盘和指数起起伏伏。同时中美贸易战给批发带来的微小关税压力让市场情绪再度低迷;2020 年初,新冠肺炎疫情在寰球肆虐蔓延,造成医疗资源缓和,疫情防控措施使商品和人员流动速度减慢,多地商店开业甚至开张,大大影响了人们的经济生存,进一步导致寰球各地股票市场呈现熔断甚至跌停的情况。面对动荡的金融市场,政府和金融监管机构推广了各式各样的政策以应答疫情造成的影响,稳住经济与股票根本盘。 对于许多金融从业者而言,市场的动荡意味着新的投资时机,而 2008 年金融危机的教训也时刻揭示着人们,时机背地往往随同着微小的危险。驰名的《巴塞尔协定 III》就是在应答寰球金融危机、强化金融监管的背景下应运而生的,它也是现阶段被宽泛使用于各大金融机构的寰球金融监管规范之一。如何辨认危险、保障资产平安并放弃其相应的流动性始终都是风险管理中重要的组成部分。在股票市场的风险管理中,金融从业者须要先查看价格变动是否在预期范畴内,并判断这样的变动是由零碎危险还是政策变动或重大事件所产生。如非零碎危险,金融从业者则须要在对政策或重大事件充沛的理解后,决定是否须要调整当下的策略,买入或发售相应的资产来保障机构金融层面的平安。判断零碎危险的办法有多种,其中较为风行的办法是通过历史价格信息来预测将来价格,并比拟实在价格与预测后果的差距。在本篇中,咱们将应用这样的办法进行股价预测,并与实在价格进行比照。 解决方案构造为了实现对历史数据进行建模来预测将来价格,本篇采纳如下构造的解决方案,同时大部分数据迷信的我的项目也都能够应用相似的构造来实现: 确定预测指标数据收集探索性数据分析数据预处理特色工程模型抉择和训练模型评估模型预测确定预测指标在股票市场中,稳定较大的股票不占多数。为理解市场情况,金融从业人员会偏向于钻研剖析股票指数而非单个股票的价格。因为指数绝对于单个股票来说更稳固,也更利于精准地建模。指数通常由多种股票形成,个别反映市场绩效的是广基指数,如道琼斯指数、标普 500 指数、日经指数、恒生指数等。这样的指数既能够反映出股票根本盘情况,又能够反映出投资人对经济现况的敏感度。在本篇中,咱们抉择的指标预测指数是标普 500 指数,是寰球最具标志性的追踪美国高市值公司的股票指数之一。 数据收集收集金融数据的平台泛滥,其中像 Bloomberg、Qliq、Quandl 这样的国外市场平台,抑或是如同花顺、万德这样的国内平台都受到公众的青睐。大部分企业为了保证数据的准确性、安全性和时效性,在生产环境下会应用成熟的免费平台。在本篇中,咱们应用的是 Yahoo Finance,一个收费的公开金融数据平台,它不仅蕴含了大部分公开股票的实时数据,还提供了 Python API,能够通过股票代码和工夫区间间接查问历史价格。 import yfinance as yf df_sp = yf.download('^GSPC',start="2012-11-01",end="2022-11-01") Pandas 数据集 “df_sp” 蕴含了从 2012 年 11 月 1 日至 2022 年 10 月 31 日十年以来的标普 500 指数数据,记录了每个日期所对应的开市价格、最高价格、最低价格、闭市价格、闭市调整价格和交易量。  探索性数据分析在收集完须要的数据后,首先能够查看数据集中可能存在的空缺记录和须要调整的字段。咱们应用以下函数来理解数据集中蕴含多少条记录、是否有空缺值以及每个字段所对应的数据类型。 df_sp.info() 能够看到,数据集中没有须要解决的空缺值,并且每个字段的类型都是对立的。除日期以外(Python Datetime 类型格局),其余字段都是数字类型。价格相干的都为浮点数,交易量相干的为整数。接下来,咱们通过以下函数查看数据的统计类信息。 df_sp.describe() 能够看到,指数数据都是负数,大部分以千为单位。惟一在单位上与其余列有所区别的是交易量数据。交易量的相对数值与价格相比相差微小,为了更有可比性,咱们须要调整交易量的相对数值大小。在本步骤中,咱们抉择先将交易量除以 1000000,使其变成以百万为单位,那么在数值上,交易量数值大小放大至千,与价格类似。  初步剖析数据后,咱们能够将价格信息的工夫序列可视化,更加直观地理解价格趋势。  通过图像,咱们发现开市、闭市、最高、最低和闭市调整的价格在趋势上十分类似;交易量和价格之间也有肯定的分割。咱们须要对交易量和价格做进一步的剖析来明确两者之间的关系。这里,咱们应用相关性矩阵(correlation matrix)来钻研变量之间的关系。  由此能够看出,交易量与价格之间没有十分高的相关性,但这并不能证实交易量不应该在价格预测中被思考。从另一个角度来说,各价格变量之间的相关性十分高,咱们只需筛选其中一个(闭市调整价格)进行预测即可。在下一步中,咱们只保留须要用到的信息即可。  df = df_sp[['Adj Close','Volume_in_M']] ...

January 10, 2023 · 1 min · jiezi

关于数据科学:数据科学的起源与发展

本文由 PieCloudDB Database 社区成员美国南加州大学陈振宇参加奉献。  1. 数据迷信的起源现如今,当人们被问到什么学科最火爆,就业率最高时,” 数据迷信” 想必肯定是其中的一个答案。《哈佛商业评论》曾一度将 “数据科学家” 这一职业评为 21 世纪最性感的工作 (“Data Scientist: The sexiest job of the 21th century” - Harvard Business Review)。近年来,随着可用的数据量日益激增,数据挖掘和剖析给企业带来了微小的经济效应,数据迷信畛域也失去了蓬勃的倒退。各行各业掀起了对数据科学家的招聘浪潮,越来越多的大学设立了数据迷信相干学科来满足社会需要。在数据迷信成立之前,数据钻研始终都是学术统计学畛域的工作,通过数据建模来对某种景象进行推论。随着数据的倒退,越来越多的人发现数据自身的价值,通过对数据的剖析和利用,咱们能够解决许多生存中的理论问题,而不仅仅是停留在学术实践的钻研。第一个提出对传统统计学进行改革的吹哨人是 John W. Tukey,他发表的文章《The Future of Data Analysis》始终被人们看做是数据迷信的起源。 2. 数据分析的将来John W. Tukey 是 20 世纪美国驰名的统计学家。早在六十多年前,他就曾呐喊学术统计学家们缩小对统计实践的关注,转而重视统计学的理论利用,其中最重要的局部就是对数据的解决和剖析。1962 年,他发表的《The Future of Data Analysis》文章震惊了过后的统计学界。他提出了数据分析(Data Analysis)这一新迷信和其将来倒退的可能性,并预言冲破数理统计学边界的数据时代将会到来。在文章中,他指出数据分析的目标是通过对数据的收集、解决和剖析来学习数据中的信息,解决咱们生存中所遇到的理论问题。《The Future of Data Analysis》这篇文章为将来数据迷信的倒退奠定了根底。John W. Tukey 对该畛域的趣味与他的人生经验非亲非故。1939 年,Tukey 顺利地取得普林斯顿大学数学硕士学位和博士学位。在研究生期间,他次要从事数学方面的钻研工作。然而随着二战的到来,他开始关注解决国家所面临的理论问题。1941 年 5 月,Tukey 退出了普林斯顿大学设立的火控研究室 (Fire Control Research Office)。在研究室工作期间,Tukey 与工程师 Charlie Winsor 结识,并与多位统计学家深入探讨。最终通过数据分析,Tukey 和他的团队帮助美国在二战期间优化了其武器管理系统,他也因而对这种数学模式产生了浓重的趣味。  3. 突破传统统计学的边界在 John W. Tukey 发表了《The Future of Data Analysis》之后的几十年里,数据迷信畛域并没有设想中那般疾速地倒退,其次要的起因有 3 点: ...

November 24, 2022 · 2 min · jiezi

关于数据科学:ApacheCN-数据科学译文集-20211109-更新

计算与推断思维 一、数据迷信二、因果和试验三、Python 编程四、数据类型五、表格六、可视化七、函数和表格八、随机性九、教训散布十、假设检验十一、预计十二、为什么均值重要十三、预测十四、回归的推断十五、分类十六、比拟两个样本十七、更新预测利用 Python 进行数据分析 · 第 2 版 第 1 章 筹备工作第 2 章 Python 语法根底,IPython 和 Jupyter 笔记本第 3 章 Python 的数据结构、函数和文件第 4 章 NumPy 根底:数组和向量计算第 5 章 pandas 入门第 6 章 数据加载、存储与文件格式第 7 章 数据荡涤和筹备第 8 章 数据规整:聚合、合并和重塑第 9 章 绘图和可视化第 10 章 数据聚合与分组运算第 11 章 工夫序列第 12 章 pandas 高级利用第 13 章 Python 建模库介绍第 14 章 数据分析案例附录 A NumPy 高级利用附录 B 更多对于 IPython 的内容Python 自然语言解决 第二版 ...

November 13, 2021 · 2 min · jiezi

关于数据科学:小码匠数据科学之旅猿门又多一枚女生

失败 老码农:有个数学问题,看看你会吗? 小码匠:(一听数学问题,就来劲)快说啥问题? 老码农:一个1到99之间的数字,你有6次机会,而后猜中有奖。 小码匠:猜中奖啥? 老码农:冰激凌! 小码匠:哈,这还不简略,我自认为我的命中率还是很高的。 老码农:小码匠同学,走起,我等你翻车的那一刻! import randomsecret = random.randint(1, 99)guess = 0tries = 0print("啊!我是可怕的海盗罗伯茨,我有一个机密!是一个1到99之间的数字。你有6次机会.")while guess != secret and tries < 6: guess = int(input("你猜是哪个数字?")) if guess < secret: print("太低了!从新猜!") elif guess > secret: print("太高了!从新猜!") tries = tries + 1if guess == secret: print("啊,你猜到了!运气真好,发现了我的机密!")else: print("别再猜了!祝你下次好运,伙计!") print("机密号码是", secret)老码农点了一下运行键,而后发表,小码匠的猜数挑战,正式开始! 小码匠:只猜了两次就猜中了,我厉害吧。 老码农:你……你这不算,你这根本就是走了大运嘛! 老码农:有本事你再来一次! 小码匠:来就来,谁怕谁,哼! 小码匠:啊这…… 老码农:(同病相怜)看,你翻车了吧。 小码匠:这……这不算,这只是一个小失误,我下一次肯定能猜出来!(满脸自信) 小码匠:看,我说到做到,猜出来了。 老码农:(这小家伙,居然能无师自通,我肯定要拉她“入猿门”) 老码农:哎呀,你咋这么厉害啊,你咋猜到的呀,教教我呗。 小码匠:这可是我的机密,谁要通知你啊,哼!我去吃冰激凌了。。。 中招 老码农:来,给你玩个好玩的。(滑雪者游戏) 小码匠:我先试试,你去干你的事吧! 10分钟后…… 老码农走过去,说:喂,别玩啦。 ...

October 20, 2021 · 1 min · jiezi

关于数据科学:一年数十万次实验背后的架构与数据科学

导读:人工智能时代,A/B Test试验是数据驱动型组织的外围依赖。一套好的试验零碎能撑持产品疾速迭代,用数据谈话,辅助疾速做出正确产品决策。那么如何保障几百上千人的团队在超简单零碎中放弃高效迭代?如何在超大规模数据量下疾速产出报表?如何升高抽样稳定尽快产出相信的数据论断?本文次要从以上几个方面探讨A/B Test平台在理论生产环境的具体实际和思考。全文预计浏览工夫 9分钟。

September 13, 2021 · 1 min · jiezi

关于数据科学:Anaconda-发布-2021-数据科学报告Python-最流行开源得到重视自动化受期待

近期,Anaconda 公布了 2021 State of Data Science 报告。该报告考察了超过 140 个国家的 4200 多名应用数据迷信和机器学习工具的受访者,旨在探寻数据迷信畛域的倒退状况,以及在商业环境和学术机构中的整体趋势。 以下是该报告的次要见解。 大多数组织器重开源考察显示,大多数受访者(65%)称其雇主通过减少对开源我的项目开发的资金投入来激励员工为开源我的项目做奉献。通过应用开源软件,组织可能节俭大量的工夫和资源。 最受欢迎的语言:Python考察显示 Python 是往年最风行的编程语言,63% 的受访者称总是或频繁应用 Python。此外,71% 的教育工作者教 Python,88% 承受 Python 教学的学生筹备进入数据迷信 / 机器学习畛域。也就是说,对于数据科学家、研究者、学生和业余人员而言,Python 的受欢迎水平逐步增长。 除了 Python 以外,SQL、R、JavaScript 也很受欢迎。 自动化受欢迎过后下新闻都在探讨自动化正在接管并将最终取代人类的主题时,数据迷信畛域并未对此恐慌。考察显示,自动化在数据迷信畛域受到欢送,从业者并未将其视作竞争者,而是补充工具。53% 的受访者心愿看到数据迷信畛域呈现更多自动化和 AutoML 利用,仅有 4% 的受访者放心自动化对数据迷信畛域的影响。 新冠疫情期间,数据迷信投资未呈现显著降落COVID-19 对简直所有行业都有影响,包含医疗、政府、金融机构等等。它们都须要寻找适合的形式解决数据,找到新问题的解决方案。 在商业组织方面,50% 的受访者示意新冠疫情期间其所在组织在数据迷信方面的投资有所增加或者持平,37% 的受访者示意这方面投资有所降落。 在被问及对于商业决策的参加水平时,14% 的受访者示意 “所有” 决策依赖于他们或其团队的见解,39% 的受访者示意 “许多” 商业决策依赖他们。Anaconda 示意,数据科学家的价值在组织中失去认可,这或者是数据迷信畛域未呈现投资急剧缩小状况的起因。 报告地址:https://www.anaconda.com/stat...

August 2, 2021 · 1 min · jiezi

从机械转行数据科学吐血整理了这些白嫖的学习网站

作者:东哥起飞Python数据科学大家好,我是东哥。 前方高能,准备开启收藏夹吃灰模式。 本篇东哥分享几个数据科学入门的学习网站,全部免费资源,且内容优质,是小白入门的不二选择。东哥当年从机械转行也从这些学习网站收获很多。 下面开始进入正题。 一、Kaggle什么是Kaggle?kaggle是全球最先也是目前规模最大的数据科学竞赛组织了。之所以这么受欢迎,是因为很多大的公司奉献出自家真实的数据给kaggle,提出真实业务场景面临的痛点,需要数据科学上的解决方案。 我个人觉得是非常有意思的,因为很多人苦学理论,正愁着没有真实数据去实践,有了这个机会,不论方案是否可以排上名次,都是宝贵的实践经验啊。 当然,作为方案最优的前三名可以得到一笔丰厚的报酬,几千美元到几万美元不等,这更加刺激广大数据爱好者了。竞赛已经有上百场了,各种场景和需求,并且随着需求增多,竞赛也在不断增加。 Kaggle上有什么?原来的kaggle只有单一的竞赛,现在的kaggle已经不只是竞赛这么简单了。它还有丰富的社区、免费的学习课程、在线实操的环境。 下面是一在线操作提交模型的环境,非常奈斯。 各路神仙在社区共享自己的kernels和源代码,是个非常好的交流学习机会,有兴趣可以自己去看。这里主要说下免费的学习课程,下面是地址。 https://www.kaggle.com/learn/... 学习列表中有python、机器学习、深度学习、可视化、pandas数据处理、SqL入门和进阶等等。打开每个学习项目,内容非常丰富,虽是英文我相信对于有心的人都不是问题了。 二、CourseraCoursera很多朋友应该熟悉,吴恩达的机器学习课程最早就是从这里开始分享的。里面有各个名校大学的公开课,很多都是免费公开的课程,听课是免费的,但学完后认证证书需要付费。 这里分享几个东哥收藏的宝藏课程,每一个都很经典,好评无数。 1.机器学习 (Andrew Ng / 斯坦福大学) https://www.coursera.org/lear...2.专业数据科学(10门课/JHU) https://www.coursera.org/spec...3.数据科学实战(5门课/JHU) https://www.coursera.org/spec...4.专业数据挖掘(6门课/伊利诺伊大学) https://www.coursera.org/spec...5.数据科学硕士(8门课/伊利诺伊大学圣巴巴拉分校) https://www.coursera.org/degr...6.数据科学应用硕士(密歇根大学) https://www.coursera.org/degr...三、UdacityUdacity(优达学成)是个美国的付费类培训机构,内容涉及所有编程和计算机类的课程,是歪果仁拍的视频课程,质量很高,但收费很贵。 仔细观察,其实也有很多免费的课程供学习的,东哥把收藏的存货也拿出来分享下。 1.数据科学导论总共10个章节,以titanic和NewYork Subway data项目为例介绍数据分析、可视化、数据处理、Mapreduce大数据。 https://www.udacity.com/cours...2.数据分析导论 https://www.udacity.com/cours...3.数据可视化分析这个课程是基于R语言的,介绍了R语言基础、逻辑回归、线性回归、正则化等内容。 https://www.udacity.com/cours...4.使用SQL做数据分析 https://www.udacity.com/cours...5. 统计推理入门主要介绍推断性统计的知识,比如各种检验,假设检验、t检验、卡方检验、ANOVA方差分析、回归等等。 https://www.udacity.com/cours...当然,除了这些还有很多付费的,感兴趣可自行查找,本篇只谈免费。 四、其它社区和博客下面是几个很好的国外数据科学社区和个人博客,内容不如前面三个学习网站有组织和条条理,但是有很多优秀的文章分享也可以作为参考学习。 1. 面向数据科学https://towardsdatascience.com/这里着重说下这个社区,专门的数据科学学习平台,里面都是一些国外爱好者的分享,涵盖了data science、machine learning、deep learning、visualization、programming等,缺点是需要特殊工具才能上去,用谷歌访问助手也可以。 2. 方差解释http://varianceexplained.org/3. 成为一名数据科学家https://www.becomingadatascie...4. Mark Meloonhttps://www.markmeloon.com/5. Julia Silgehttps://juliasilge.com/blog/以上就是东哥分享的一些免费课程资源,资源多少不是关键,关键的是迈开第一步,深入进去开始学习。 先分享这些,如果觉得有帮助,还请多分享和点个赞。 欢迎大家关注我的原创微信公众号 Python数据科学,专注于写基于Python的数据算法、机器学习、深度学习硬核干货。

June 20, 2020 · 1 min · jiezi