机器学习 | 乐趣区

关于机器学习:机器学习PCA

前言PCA（Principal Component Analysis）是一种罕用的数据降维办法，它的次要思维是将高维数据降维到一个低维空间，同时保留尽可能多的原始数据的信息。定义PCA (Principal Component Analysis) 是一种罕用的数据降维算法，用于对高维数据进行降维和特征提取。它的次要思维是通过对数据的协方差矩阵进行特征值合成，抉择前 k 个特征值最大的特征向量作为新的主成分，将原始数据投影到主成分空间，从而实现数据降维。 PCA 罕用于数据降维、数据可视化、数据压缩等场景，其特点是能够无效的升高数据维度，保留数据的次要特色。 PCA步骤中心化：将数据的每一个特色列减去该列的平均值，使得每一个特色的均值为 0。协方差：计算样本的协方差矩阵，该矩阵示意各个特色之间的关系。特征分析：对协方差矩阵进行特征分析，失去特征值和特征向量。特征向量示意了新的坐标轴的方向，特征值示意了新坐标轴的方差。降维：抉择特征值较大的特征向量，结构新的坐标系，将原始数据投影到新的坐标系上，从而达到降维的目标。这些步骤通过计算的过程能够失去一个主成分的矩阵，该矩阵的列示意了新的坐标轴，行示意了每一个样本在新坐标系上的坐标。 PCA 算法的一个重要长处是能够无效的升高数据的维度，升高数据的维数对于升高算法的复杂度和防止过拟合都有很重 PCA 长处简化数据：PCA 能够无效的升高数据的维度，简化数据，便于后续数据分析。缩小噪声：PCA 能够把噪声数据升高到最小，进步数据的品质。可视化：PCA 能够将高维数据映射到二维或三维空间，便于人眼察看和可视化。去冗余：PCA 能够打消数据中的冗余信息，只保留次要信息。PCA 毛病信息损失：PCA 为了升高数据的维度，可能会导致肯定的信息损失。难以解释：PCA 降维后的数据维度和特色很难被人类间接了解和解释。不适用于非线性数据：PCA 实用于线性数据，对于非线性数据，PCA 可能不能失去现实的后果。所以在应用PCA时，要依据你的理论状况权衡利弊，联合其余算法一起应用代码import numpy as np# 应用这段代码能够实现将原始数据降维至指定的维数，并返回降维后的数据def PCA(X, k=None): """ X: m x n 的数据矩阵，m 示意样本数量，n 示意每个样本的特色数 k: 须要保留的主成分数量，如果不指定，则保留所有的主成分 """ # 对样本进行中心化 X_mean = np.mean(X, axis=0) X = X - X_mean # 计算协方差矩阵 cov_matrix = np.cov(X.T) # 计算协方差矩阵的特征值和特征向量 eigenvalues, eigenvectors = np.linalg.eig(cov_matrix) # 对特征值进行排序，从大到小 eigenvalues_sorted_index = np.argsort(eigenvalues)[::-1] eigenvalues = eigenvalues[eigenvalues_sorted_index] eigenvectors = eigenvectors[:, eigenvalues_sorted_index] # 依据 k 的值抉择保留的主成分数量 if k is not None: eigenvalues = eigenvalues[:k] eigenvectors = eigenvectors[:, :k] # 计算降维后的数据 transformed_X = np.dot(X, eigenvectors) return transformed_X

关于机器学习:DAAM首次利用视觉语言学解释大型扩散模型

出品人：Towhee 技术团队张晨、顾梦佳大规模扩散神经网络代表了文本到图像生成的一个重要里程碑，但它们依然不足可解释性剖析。DAAM 对最近开源的模型 Stable Diffusion 进行了文本-图像归因剖析。为了生成像素级属性图，DAAM 在去噪子网络中放大和聚合穿插注意力字像素分数。通过归因剖析，DAAM 次要钻研了如何将语法关系转化为视觉交互，并关注了扩散模型中的视觉语言景象。通过定量语义宰割工作和定性狭义归因钻研，证实了归因办法 DAAM 的正确性。DAAM 是第一个从视觉语言学的角度解释大型扩散模型，这使得将来的钻研成为可能。 The original synthesized image and three DAAM maps for “monkey,” “hat,” and “walking,” from the prompt, “monkey with hat walking.”DAAM 在 Stable Diffusion 去噪逆扩散过程中抉择了略微靠后的步骤，进行可解释性钻研。惯例的归因剖析通过梯度进行计算，但在扩散模型中无奈进行梯度计算，因而 DAAM 选用词汇和特色图的得分的形式进行剖析。通过评估句法关系如何转化为视觉互动，DAAM 发现某些注意力头不恰当地蕴含了他们的隶属。因为，DAAM 失去了特色纠缠的假如，表明同位词是凌乱的，而形容词的范畴太广了。相干材料：代码地址：https://github.com/castorini/...论文链接：What the DAAM: Interpreting Stable Diffusion Using Cross Attention更多材料：https://blog.csdn.net/qq_4245...

关于机器学习:浅析-SeaweedFS-与-JuiceFS-架构异同

SeaweedFS 是一款高效的分布式文件存储系统，最早的设计原型参考了 Facebook 的 Haystack，具备疾速读写小数据块的能力。本文将通过比照 SeaweedFS 与 JuiceFS 在设计与性能上的差别，以帮忙读者进行更适宜本人的抉择。 SeaweedFS 系统结构SeaweedFS 由 3 局部组成，底层存储文件的 Volume Server，用于治理集群的 Master Server，以及一个向上提供更多个性的 Filer 可选组件。 Volume Server 与 Master Server在零碎运作上，Volume Server 与 Master Server 一并服务于文件的存储。Volume Server 专一于数据的写入与读取，而 Master Server 则偏差是一个集群与 Volumes 的治理服务。在读写数据时，SeaweedFS 的实现与 Haystack 类似，用户创立的一个 Volume 即是一个大磁盘文件（下图的 Superblock）。在此 Volume 中，用户写入的所有文件（下图的 Needle）都会被合并到该大磁盘文件中。在开始写入数据之前，调用者须要向 SeaweedFS（Master Server）进行写入申请，随后 SeaweedFS 会依据以后的数据量返回一个 File ID（由 Volume ID 与 offset 组成），在写入的过程中，一并被写入的还有根底的元数据信息（文件长度与 Chunk 等信息）；当写入实现之后，调用者须要在一个内部零碎（例如 MySQL）中对该文件与返回的 File ID 进行关联保留。在读取数据时，因为 File ID 曾经蕴含了计算文件地位（偏移）的所有信息，因而能够高效地将文件的内容读取进去。 ...

关于机器学习:机器学习KNN

前言KNN能够说是最简略的分类算法之一，同时也是最罕用的分类算法之一。KNN算法是有监督学习的分类算法，与机器学习算法Kmeans有点像，但却是有本质区别的定义一个样本a在特色空间中离它最近的K个最近的样本中，大多数属于某个类别，则a样本也属于这个类别如何计算其余样本与a样本的间隔？个别时候咱们应用欧式间隔二维空间：$p =\sqrt{（x_2-x_1）^2+(y_2-y_1)^2}$N维空间：$p = \sqrt{\sum_{i=0}^{n}(x_i-y_i)^2}$K值的抉择K值过小容易受到异样点的影响K值过大容易受到样本平衡的问题如何抉择K值应用穿插验证KNN流程步骤计算样本a与训练集中每个样本点的间隔（欧式间隔）对计算出来的所有间隔进行排序选取前K个最小间隔的样本依据K个样本中哪个类别多，样本a就属于哪个类别代码导入应用包 numpy matplotlib Counter from collections import Counterimport matplotlib.pyplot as pltimport numpy as np应用 loadtxt 加载数据数据样本前两列为特征值，最初一列为标签值 x_new 为新样本 data = np.loadtxt("exe2.txt",delimiter=',')x = data[:,:2]y = data[:,-1]x_new = np.array([70.534788289883,50.8558115276420])画图展现 plt.scatter(x[y==0, 0], x[y==0, 1], color='r')plt.scatter(x[y==1, 0], x[y==1, 1], color='g')plt.scatter(x_new[0], x_new[1], color='b')plt.show() list 用于贮存新样本点到每个样本的间隔 argsort函数会将元素从小到大排序，并返回索引 list = []for i in x: distance = np.sqrt(np.sum(i - x_new)**2) list.append(distance)list_sort = np.argsort(list)print(list_sort)k = 6ten_y = [y[i] for i in list_sort[:k]]print(Counter(ten_y))残缺代码from collections import Counterimport matplotlib.pyplot as pltimport numpy as npdata = np.loadtxt("exe2.txt",delimiter=',')x = data[:,:2]y = data[:,-1]x_new = np.array([70.534788289883,50.8558115276420])# 0 类用红色示意 1 类用绿色示意新样本用蓝色示意plt.scatter(x[y==0, 0], x[y==0, 1], color='r')plt.scatter(x[y==1, 0], x[y==1, 1], color='g')plt.scatter(x_new[0], x_new[1], color='b')plt.show()# 用于报存间隔list = []for i in x: distance = np.sqrt(np.sum(i - x_new)**2) list.append(distance)list_sort = np.argsort(list)print(list_sort)k = 6ten_y = [y[i] for i in list_sort[:k]]print(Counter(ten_y))

关于机器学习:297个机器学习彩图知识点10

导读本系列将继续更新20个机器学习的知识点。 1. 深度学习的动机 2. 多元逻辑回归 3. 自然对数 4. 神经元 5. 没有收费的午餐 6. 噪声修改线性单元 7. 非参数办法 8. 正态分布 9. 规范初始化 10. 归一化观测值 11. 标记符号1 12. 标记符号2 13. 标记符号3 14. 标记符号4 15. 标记符号5 16. 概率相干概念 17. 奥卡姆剃刀 18. 比值 19. 比值比 20. 热独编码欢送Star -> 学习目录本文由mdnice多平台公布

关于机器学习:机器学习模型集成管理介绍

在本文中，我将尝试对 MLOps 进行敌对的介绍，并以简略的形式解释要害概念。作为一开始也感觉很难了解的人，我了解有必要对这个主题进行更简略的介绍。我心愿在浏览本文后，初学者可能更轻松地浏览无关 MLOps 的更高级文档。 1. MLOps 的动机因为机器学习技术在各个钻研畛域的胜利，许多公司都试图将其纳入他们的软件系统，以提高效率和解决事实世界的问题。然而，对于许多公司而言，在生产环境中施行机器学习可能是一个具备挑战性且耗时的过程。此外，一旦部署，就必须治理和保护模型，并且必须监控其性能以确保其失常运行。这些工作在大型软件系统中尤其艰难。另一方面，软件工程师应用 DevOps（开发和经营）范式，这是一组促成开发和经营团队之间合作和沟通的实际和工具，以开发和治理他们的零碎。这有助于放弃开发速度和品质。 MLOps 旨在使这些 DevOps 准则实用于机器学习零碎。思考到这一背景，MLOps 到底是什么？ 2. 定义要定义 MLOps，让咱们从查看各种定义开始： “MLOps（机器学习操作）是一种范式，包含最佳实际、概念集以及机器学习的端到端概念化、施行、监控、部署和可扩展性方面的开发文化等方面产品。”“DevOps 办法的扩大，将机器学习和数据迷信资产作为 DevOps 生态中的一等公民”咱们能够应用机器学习工程 (MLE) 的定义，其中 MLE 是应用机器学习和传统软件工程的迷信原理、工具和技术来设计和构建简单的计算零碎。 MLE 涵盖从数据收集到模型构建的所有阶段，使模型可供产品或消费者应用。” （作者：A.Burkov）基于后面的定义，咱们能够将 MLOps 了解为一组用于以高效、优化和有组织的形式设计、构建和部署机器学习模型的技术和实际。这些技术和实际通常在 MLOps 生命周期的上下文中进行探讨。 3. MLOps 生命周期 MLOps 生命周期由 MLOps 范例中波及的步骤和技术组成，从设计和开发机器学习模型到将其部署到生产环境中并随着工夫的推移对其进行监控和保护。它通常分为三个次要阶段：第一阶段是设计过程，波及定义业务问题、模型的要求及其预期用例。这通常波及创立 AI/ML 画布。第二阶段是模型开发过程，包含数据和模型工程。第三阶段是涵盖模型部署和保护的操作过程。在部署模型后，随着工夫的推移放弃模型的性能很重要，因而这些阶段通常以循环形式执行。这确保了模型运行良好并且依然满足第一阶段定义的需要。当初咱们曾经探讨了 MLOps 生命周期的各个阶段，让咱们检查一下 MLOps 工作流，它概述了在流程的每个阶段执行的特定工作和流动。 4. MLOps 工作流 MLOps 工作流概述了开发、部署和保护机器学习模型要遵循的步骤。在现实状况下，遵循工作流程就足够了：首先，理解业务问题，而后抉择、训练和部署模型。然而，在事实世界中状况并非总是如此。在任何时候，都可能须要返回到上一步。此外，在部署模型后，必须对其进行保护和监控，这就是了解 MLOps 生命周期和 MLOps 工作流很重要的起因。 4.1. 业务问题 MLOps 工作流程的第一步是理解业务问题，这波及定义模型的输出和输入，以及流程及其各种子工作。要构建此过程，您能够应用 AI（人工智能）画布或 ML（机器学习）画布，它们能够被视为组织 MLOps 工作流程的模板。 AI 画布通常为 ML/AI 实现提供高级构造，而 ML 画布提供零碎的高级形容和细节。 ...

关于机器学习:Numpy中数组和矩阵操作的数学函数

Numpy 是一个弱小的 Python 计算库。它提供了宽泛的数学函数，能够对数组和矩阵执行各种操作。本文中将整顿一些根本和罕用的数学操作。根本数学运算：Numpy 提供了许多根本数学函数，用于对数组执行加、减、乘、除等运算。这些函数包含 numpy.add()、numpy.subtract()、numpy.multiply() 和 numpy.divide()。线性代数函数：Numpy 还提供了许多线性代数函数，用于执行矩阵乘法、行列式和求逆等运算。这些函数包含 numpy.dot()、numpy.linalg.det() 和 numpy.linalg.inv()。统计和概率函数：Numpy 提供了许多统计和概率函数，用于执行均值、中位数、标准差和相关性等操作。这些函数包含 numpy.mean()、numpy.median()、numpy.std() 和 numpy.corrcoef()。三角函数和对数函数：Numpy 还提供了许多三角函数和对数函数，用于执行正弦、余弦、正切和对数等运算。这些函数包含 numpy.sin()、numpy.cos()、numpy.tan() 和 numpy.log()。根本数学运算咱们将介绍根本的数学运算: 加法应用numpy.add()一一增加两个数组元素。例如，要增加两个数组a和b，能够应用以下代码: import numpy as np a = np.array([1, 2, 3]) b = np.array([4, 5, 6]) c = np.add(a, b) print(c) # Output: [5, 7, 9]也能够应用+运算符: c = a + b print(c) # Output: [5, 7, 9]减法 numpy.subtract()可用于从另一个元素中减去一个数组。例如，要从数组a中减去数组b，能够应用以下代码: import numpy as np a = np.array([1, 2, 3]) b = np.array([4, 5, 6]) c = np.subtract(a, b) print(c) # Output: [-3, -3, -3]也能够应用-运算符: ...

关于机器学习:KXO151问题解决

KXO151 Programming & Problem Solving AIEN-SHOU - 2022 Assignment 3 The Programming TaskBeware - the version that you implement must match the specifications given below and use the resources provided (even if you prefer some other variant of the task). Other implementations will score poorly.The code you are to write is to complete an implementation of the game "Hunt the Wumpus". This game was one of the earliest text-based computer games, versions have been available from at least the mid 1970s.In this game the user is in a system of interconnected dark caves hunting the wumpus. Each cave is connected to three other caves.If the user enters the cave containing the wumpus they will be eaten, the aim is to kill the wumpus before this happens. The user is armed with a bow and 3 arrows, if they shoot into the cave containing the wumpus it will be killed. To make the task a little more challenging, one cave contains a bottomless pit, if the user enters this cave they will fall into the pit and be killed.It is possible for the user to have some idea of the location of the wumpus because its unpleasant personal habits mean that it can be smelt from a connecting cave.It is possible for the user to have some idea of the location of the pit because it causes a breeze that can be felt from a connecting cave. ...

关于机器学习:风控-宁波通商银行精英通信贷产品背后的科技力量

“客户只需提供一些必要的身份及资格证实就能够提出申请。”一名宁波通商银行工作人员示意。2015年，针对社会精英的各类高品质生产及融资需要，宁波通商银行推出了为精英人士量身定制的“精英通”产品。随借随还，最高授信可达100万元。至2022年4月末，宁波通商银行线上“精英通”总贷款6.5亿元，客户7582户，其中2022年新增客户2808户，贷款余额增量3.3亿元。多重科技赋能，进步金融服务质效宁波通商银行在宁波、上海、杭州三地分行供应链金融部下设供应链集中作业核心，建设业余供应链金融操作与治理队伍，建设全线上化供应链金融服务零碎，造成全方位反对服务体系。依靠智能决策引擎，实现智能风控、零碎主动审批与AI监控三位一体，晋升贷前、贷中、贷后的风控质效，节约审批老本。特地是疫情期间，线上化、数字化、智能化的“非接触式”金融服务，无效解决了流贷、票据承兑及贴现、惠抵通、精英通等各业务种类的线上放款，在为疫情防控和企业纾困提供无效反对的同时，充分发挥了在审批流程上短平快的差异化劣势，以及在客户体验感上易触达的特色化交互。一方面，对接宁波市普惠金融信用信息服务平台，进行样本荡涤、数据梳理与开掘，提炼要害高风险指标、应用IV筛选等计量办法并联合专家教训造成危险模型计划，不便前端营销访客应用。另一方面，接入宁波“甬智E贷”金融服务平台，与知识产权局单干建设知识产权专利评分模型，在知识产权层面进步科创客户大数据风控能力。第三方面，联合线下实地探访，要求专营团队市场人员增强服务客户的跟踪走访，理解客户的用信及经营状况。此外，宁波通商银行引入顶象关联网络平台。基于地理位置、IP地址、客户经理、公司、地址等行内大数据，进行多位度的关联剖析，构建基于客户的关联关系图谱，让客户画像更加精准化。及时发现异常账户行为以及欺诈危险团伙，将潜在危险遏制在萌芽状态。同时构建专属风控模型，为客户提供更好的金融服务，进一步晋升业务危险控制能力。翻新供应链产品，助力中小微企业倒退作为扎根区域的城商行，宁波通商银行联合宁波制造业及本身体量理论，分类施策，将供应链金融分为传统供应链和小型供应链，服务中小型制作类外围企业，围绕外围企业和其上下游客户，一直打磨与之相匹配的服务能力。这正是宁波通商银行在供应链金融畛域的差异化所在。宁波通商银行以供应链金融为发力点，不断创新供应链金融产品和模式，量身定制“产品+群计划”体系，满足中小微企业融资需要；全面嵌入企业生产经营全过程，为外围企业及其上下游企业提供一揽子金融服务，以供应链金融为纽带助力保链、稳链、强链，为区域经济高质量倒退减速。针对高端制作、基建、汽车、大生产等重点行业，紧盯重点项目，确保外围业务无效投放，联合上下游企业理论金融需要，推出“订单融资”“买方信贷”“经销商数据贷”等特色产品计划，以进步银行供应链金融的覆盖率。位于上海的某修建有限公司就是获益于上述特色产品的一员。该公司业余从事内外墙保温零碎、建筑工程防水零碎及修建涂料、修建室内装饰资料的开发研制、生产销售及工程施工，是上海市专精特新企业。疫情封控期间，因为企业与上游的结算账期个别在3个月以内，而上游大型建筑商回款周期通常在6个月至12个月，因而资金周转存在肯定压力。理解到企业需要后，宁波通商银行立刻为企业办理了“订单融资”业务，次要以借款企业的销售订单为融资切入点，无需提供任何抵押，通过对订单履约状况进行跟踪监控作为授信缓释伎俩，解决企业应收账款造成前的生产资金周转压力，大大缓解中小微企业无抵质押物的融资难题。数据显示，截至2022年9月末，宁波通商银行累计发放供应链金融贷款近100亿元，服务外围企业达100余户，供应链上下游中小微客户近1000户。数字交融策略，推动业务高速倒退作为国内首家由外资银行胜利改制而来的中央法人银行，宁波通商银行保持商贸金融专业银行定位，保持差异化、特色化倒退路线，造成笼罩长三角的“一体两翼”格局，现有经营机构21家，包含上海分行、杭州分行、资金营运核心3家分行级机构及17家支行。宁波通商银行始终致力于业余特色银行建设，在汽车、物流、航运等行业细分金融畛域造成比拟劣势。在新的局势下，着力推动“一区两链”和科创金融倒退，施行“园区金融+”策略，聚焦小型供应链，主攻普惠、中小微金融服务，推动全市首家“人才银行”和科创孵化基地建设，致力打造新的中小微业务特色。批发业务着力倒退普惠金融、银发金融、青春金融三项业务，聚焦线上“精英通”、财产治理等方向，致力打造客户贴心的批发银行。施行数字交融策略，一直晋升数据治理程度，积极探索建设智慧网点，着力晋升网络银行服务体验。强化科技兴行及332N科技架构建设，致力构建凋谢、灵便、麻利、高效、平安、稳固的科技体系，深度交融客户需要，引领撑持业务倒退。2023年1月份，宁波通商银行披露了IPO最新进展。作为取得规模的重要助推力，国内银行上市“预备役”队伍一直裁减。业务平安产品：收费试用业务平安交换群：退出畅聊

关于机器学习:2023计算机领域顶会A类以及ACL-2023自然语言处理NLP研究子方向领域汇总

2023年的计算语言学协会年会（ACL 2023）共蕴含26个畛域，代表着以后前计算语言学和自然语言解决钻研的不同方面。每个畛域都有一组相关联的关键字来形容其潜在的子畛域，这些子畛域并非排他性的，它们只形容了最受关注的子畛域，并心愿可能对该畛域蕴含的相干类型的工作提供一些更好的想法。 1.计算机领域顶会(A类)会议简称次要畛域会议全称官网截稿工夫会议工夫CVPR2023计算机视觉The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023https://cvpr2023.thecvf.com/2022.11.112023.6.18ICCV2023计算机视觉IEEE International Conference on Computer Visionhttps://iccv2023.thecvf.com/2023.3.82023.9.30ECCV2022计算机视觉European Conference on Computer Visionhttps://eccv2022.ecva.net/-------2022.10.23AAAI2023人工智能National Conference of the American Association for Artificial Intelligencehttps://aaai-23.aaai.org/2022.8.82023.2.7IJCAI 2023人工智能National Conference of the American Association for Artificial Intelligencehttps://ijcai-22.org/#2022.8.82023.2.7NIPS2023机器学习International Joint Conference on Artificial Intelligencehttps://neurips.cc/Conferences/20222023.012023.07ICML 2023机器学习International Conference on Machine Learninghttps://icml.cc/2023.012023.06.24ICLR 2023机器学习International Conference on Learning Representationshttps://iclr.cc/Conferences/20232022.09.212023.05.01ICSE 2023软件工程International Conference on Software Engineeringhttps://conf.researchr.org/home/icse-20232022.09.012023.05.14SIGKDD 2023数据挖掘ACM International Conference on Knowledge Discovery and Data Mininghttps://kdd.org/kdd2022/index.html2023.022023.08SIGIR 2023数据挖掘ACM International Conference on Research and Development in Information Retrievalhttps://sigir.org/sigir2022/2023.012023.07ACL 2023计算语言Association of Computational Linguisticshttps://www.2022.aclweb.org/2022.112023.05ACM MM 2023多媒体ACM International Conference on Multimediahttps://2023.acmmmsys.org/participation/important-dates/2022.11.182023.6.7WWW2023网络应用International World Wide Web Conferencehttps://www2023.thewebconf.org/2022.10.62023.05.01SIGGRAPH 2023图形学ACM SIG International Conference on Computer Graphics and Interactive Techniqueshttps://s2022.siggraph.org/2023.012023.08CHI 2023人机交互ACM Conference on Human Factors in Computing Systemshttps://chi2023.acm.org/2022.09.082023.04.23CSCW 2023人机交互ACM Conference on Computer Supported Cooperative Work and Social Computinghttps://cscw.acm.org/2023/2023.01.152023.10.13CCS 2023信息安全ACM Conference on Computer and Communications Securityhttps://www.sigsac.org/ccs/CCS2022/2023.012023.11VLDB 2023数据管理International Conference on Very Large Data Baseshttps://www.vldb.org/2023/?submission-guidelines2023.03.012023.08.28STOC 2023计算机实践ACM Symposium on the Theory of Computinghttp://acm-stoc.org/stoc2022/2022.112023.062.ACL 2023自然语言解决（NLP）钻研子方向畛域汇总（一）计算社会科学和文化剖析 (Computational Social Science and Cultural Analytics)人类行为剖析 (Human behavior analysis)态度检测 (Stance detection)框架检测和剖析 (Frame detection and analysis)怨恨舆论检测 (Hate speech detection)错误信息检测和剖析 (Misinformation detection and analysis)人口心理画像预测 (psycho-demographic trait prediction)情绪检测和剖析 (emotion detection and analysis)表情符号预测和剖析 (emoji prediction and analysis)语言和文化偏见剖析 (language/cultural bias analysis)人机交互 (human-computer interaction)社会语言学 (sociolinguistics)用于社会剖析的自然语言解决工具 (NLP tools for social analysis)新闻和社交媒体的定量分析 (quantiative analyses of news and/or social media)（二）对话和交互零碎 (Dialogue and Interactive Systems)书面语对话零碎 (Spoken dialogue systems)评估指标 (Evaluation and metrics)工作型 (Task-oriented)人工染指 (Human-in-a-loop)偏见和毒性 (Bias/toxity)事实性 (Factuality)检索 (Retrieval)常识加强 (Knowledge augmented)常识推理 (Commonsense reasoning)互动讲故事 (Interactive storytelling)具象代理人 (Embodied agents)利用 (Applications)多模态对话零碎 (Multi-modal dialogue systems)常识驱动对话 (Grounded dialog)多语言和低资源 (Multilingual / low-resource)对话状态追踪 (Dialogue state tracking)对话建模 (Conversational modeling)（三）话语和语用学 (Discourse and Pragmatics)回指消解 (Anaphora resolution)共指消解 (Coreference resolution)桥接消解 (Bridging resolution)连贯 (Coherence)统一 (Cohesion)话语关系 (Discourse relations)话语分析 (Discourse parsing)对话 (Dialogue)会话 (Conversation)话语和多语性 (Dialugue and multilinguality)观点开掘 (Argument mining)交际 (Communication)（四）自然语言解决和伦理 (Ethics and NLP)数据伦理 (Data ethics)模型偏见和公正性评估 (Model bias/fairness evaluation)缩小模型的偏见和不公平性 (Model bias/unfairness mitigation)自然语言解决中的人类因素 (Human factors in NLP)参加式和基于社群的自然语言解决 (Participatory/community-based NLP)自然语言解决利用中的道德思考 (Ethical considerations in NLP)透明性 (Transparency)政策和治理 (Policy and governance)观点和批评 (Reflections and critiques)（五）语言生成 (Generation)人工评估 (Human evaluation)主动评估 (Automatic evaluation)多语言 (Multilingualism)高效模型 (Efficient models)少样本生成 (Few-shot generation)剖析 (Analysis)畛域适应 (Domain adaptation)数据到文本生成 (Data-to-text generation)文本到文博生成 (Text-to-text generation)推断办法 (Inference methods)模型构造 (Model architectures)检索加强生成 (Retrieval-augmented generation)交互和单干生成 (Interactive and collaborative generation)（六）信息抽取 (Information Extraction)命名实体辨认和关系抽取 (Named entity recognition and relation extraction)事件抽取 (Event extraction)凋谢信息抽取 (Open information extraction)知识库构建 (Knowledge base construction)实体连贯和消歧 (Entity linking and disambiguation)文档级抽取 (Document-level extraction)多语言抽取 (Multilingual extraction)小样本和零样本抽取 (Zero-/few-shot extraction)（七）信息检索和文本开掘 (Information Retrieval and Text Mining)段落检索 (Passage retrieval)密集检索 (Dense retrieval)文档表征 (Document representation)哈希 (Hashing)重排序 (Re-ranking)预训练 (Pre-training)比照学习 (Constrastive learning)（八）自然语言解决模型的可解释性与剖析 (Interpretability and Analysis of Models in NLP)对抗性攻打/例子/训练 (Adversarial attacks/examples/training)校对和不确定性 (Calibration/uncertainty)反事实和比照解释 (Counterfactual/contrastive explanations)数据影响 (Data influence)数据瑕疵 (Data shortcuts/artifacts)解释的忠诚度 (Explantion faithfulness)特色归因 (Feature attribution)自在文本和自然语言解释 (Free-text/natural language explanation)样本硬度 (Hardness of samples)构造和概念解释 (Hierarchical & concept explanations)以人为主体的利用评估 (Human-subject application-grounded evaluations)常识追溯、发现和推导 (Knowledge tracing/discovering/inducing)探索 (Probing)稳健性 (Robustness)话题建模 (Topic modeling)（九）视觉、机器人等畛域的语言根底 (Language Grounding to Vision, Robotics and Beyond)视觉语言导航 (Visual Language Navigation)跨模态预训练 (Cross-modal pretraining)图像文本匹配 (Image text macthing)跨模态内容生成 (Cross-modal content generation)视觉问答 (Visual question answering)跨模态利用 (Cross-modal application)跨模态信息抽取 (Cross-modal information extraction)跨模态机器翻译 (Cross-modal machine translation)（十）大模型(Large Language Models)预训练 (Pre-training)提醒 (Prompting)规模化 (Scaling)稠密模型 (Sparse models)检索加强模型 (Retrieval-augmented models)伦理 (Ethics)可解释性和剖析 (Interpretability/Analysis)间断学习 (Continual learning)平安和隐衷 (Security and privacy)利用 (Applications)稳健性 (Robustness)微调 (Fine-tuning)（十一）语言多样性 (Language Diversity)少资源语言 (Less-resource languages)濒危语言 (Endangered languages)土著语言 (Indigenous languages)少数民族语言 (Minoritized languages)语言记录 (Language documentation)少资源语言的资源 (Resources for less-resourced languages)软件和工具 (Software and tools)（十二）语言学实践、认知建模和心理语言学 (Linguistic Theories, Cognitive Modeling and Psycholinguistics)语言学实践 (Linguistic theories)认知建模 (Cognitive modeling)计算心理语言学 (Computational pyscholinguistics)（十三）自然语言解决中的机器学习 (Machine Learning for NLP)基于图的办法 (Graph-based methods)常识加强的办法 (Knowledge-augmented methods)多任务学习 (Multi-task learning)自监督学习 (Self-supervised learning)比照学习 (Contrastive learning)生成模型 (Generation model)数据加强 (Data augmentation)词嵌入 (Word embedding)结构化预测 (Structured prediction)迁徙学习和畛域适应 (Transfer learning / domain adaptation)表征学习 (Representation learning)泛化 (Generalization)模型压缩办法 (Model compression methods)参数高效的微调办法 (Parameter-efficient finetuning)少样本学习 (Few-shot learning)强化学习 (Reinforcement learning)优化办法 (Optimization methods)间断学习 (Continual learning)反抗学习 (Adversarial training)元学习 (Meta learning)因果关系 (Causality)图模型 (Graphical models)人参加的学习和被动学习 (Human-in-a-loop / Active learning)（十四）机器翻译 (Machine Translation)主动评估 (Automatic evaluation)偏见 (Biases)畛域适应 (Domain adaptation)机器翻译的高效推理方法 (Efficient inference for MT)高效机器翻译训练 (Efficient MT training)少样本和零样本机器翻译 (Few-/Zero-shot MT)人工评估 (Human evaluation)交互机器翻译 (Interactive MT)机器翻译部署和保护 (MT deployment and maintainence)机器翻译实践 (MT theory)建模 (Modeling)多语言机器翻译 (Multilingual MT)多模态 (Multimodality)机器翻译的线上使用 (Online adaptation for MT)并行解码和非自回归的机器翻译 (Parallel decoding/non-autoregressive MT)机器翻译预训练 (Pre-training for MT)规模化 (Scaling)语音翻译 (Speech translation)转码翻译 (Code-switching translation)词表学习 (Vocabulary learning)（十五）多语言和跨语言自然语言解决 (Multilingualism and Cross-Lingual NLP)转码 (Code-switching)混合语言 (Mixed language)多语言 (Multilingualism)语言接触 (Language contact)语言变迁 (Language change)语言变体 (Language variation)跨语言迁徙 (Cross-lingual transfer)多语言表征 (Multilingual representation)多语言预训练 (Multilingual pre-training)多语言基线 (Multilingual benchmark)多语言评估 (Multilingual evaluation)方言和语言变种 (Dialects and language varieties)（十六）自然语言解决利用 (NLP Applications)教育利用、语法纠错、文章打分 (Educational applications, GEC, essay scoring)怨恨舆论检测 (Hate speech detection)多模态利用 (Multimodal applications)代码生成和了解 (Code generation and understanding)事实检测、流言和错误信息检测 (Fact checking, rumour/misinformation detection)医疗利用、诊断自然语言解决 (Healthcare applications, clinical NLP)金融和商务自然语言解决 (Financial/business NLP)法律自然语言解决 (Legal NLP)数学自然语言解决 (Mathematical NLP)平安和隐衷 (Security/privacy)历史自然语言解决 (Historical NLP)常识图谱 (Knowledge graph)（十七）音系学、形态学和词语宰割 (Phonology, Morphology and Word Segmentation)状态变动 (Morphological inflection)范式演绎 (Paradigm induction)形态学宰割 (Morphological segementation)子词表征 (Subword representations)中文宰割 (Chinese segmentation)词性还原 (Lemmatization)有限元形态学 (Finite-state morphology)形态学剖析 (Morphological analysis)音系学 (Phonology)字素音素转换 (Grapheme-to-phoneme conversion)发音建模 (Pronunciation modeling)（十八）问答 (Question Answering)常识问答 (Commonsense QA)浏览了解 (Reading comprehension)逻辑推理 (Logic reasoning)多模态问答 (Multimodal QA)知识库问答 (Knowledge base QA)语义剖析 (Semantic parsing)多跳问答 (Multihop QA)生物医学问答 (Biomedical QA)多语言问答 (Multilingual QA)可解释性 (Interpretability)泛化 (Generalization)推理 (Reasoning)对话问答 (Conversational QA)少样本问答 (Few-shot QA)数学问答 (Math QA)表格问答 (Table QA)凋谢域问答 (Open-domain QA)问题生成 (Question generation)（十九）语言资源及评估 (Resources and Evaluation)语料库构建 (Corpus creation)基线构建 (Benchmarking)语言资源 (Language resources)多语言语料库 (Multilingual corpora)词表构建 (Lexicon creation)语言资源的主动构建与评估 (Automatic creation and evaluation of languageresources)自然语言解决数据集 (NLP datasets)数据集主动评估 (Automatic evaluation of datasets)评估办法 (Evaluation methodologies)低资源语言数据集 (Datasets for low resource languages)测量指标 (Metrics)复现性 (Reproducibility)用于评估的统计测验 (Statistical testing for evaluation)（二十）语义学：词汇层面 (Semantics: Lexical)一词多义 (Polysemy)词汇关系 (Lexical relationships)文本蕴含 (Textual entailment)语义合成性 (Compositionality)多词表白 (Multi-word expressions)同义转换 (Paraphrasing)隐喻 (Metaphor)词汇语义变迁 (Lexical semantic change)词嵌入 (Word embeddings)认知 (Cognition)词汇资源 (Lexical resources)情感剖析 (Sentiment analysis)多语性 (Multilinguality)可解释性 (Interpretability)探索性钻研 (Probing)（二十一）语义学：句级语义、文本推断和其余畛域 (Semantics: Sentence-Level Semantics, Textual Inference and Other Areas)同义句辨认 (Paraphrase recognition)文本蕴含 (Textual entailment)自然语言推理 (Natural language inference)逻辑推理 (Reasoning)文本语义相似性 (Semantic textual similarity)短语和句子嵌入 (Phrase/sentence embedding)同义句生成 (Paraphrase generation)文本简化 (Text simiplification)词和短语对齐 (Word/phrase alignment)（二十二）情感剖析、文本格调剖析和论点开掘 (Sentiment Analysis, Stylistic Analysis and Argument Mining)论点开掘 (Argument mining)观点检测 (Stance detection)论点品质评估 (Argument quality assessment)修辞和框架 (Rhetoric and framing)论证计划和推理 (Argument schemes and reasoning)论点生成 (Argument generation)格调剖析 (Style analysis)格调生成 (Style generation)利用 (Applications)（二十三）语音和多模态 (Speech and Multimodality)主动语音辨认 (Automatic speech recognition)书面语语言了解 (Spoken language understanding)口语翻译 (Spoken language translation)书面语语言根底 (Spoken language grounding)语音和视觉 (Speech and vision)书面语查问问答 (QA via spoken queries)书面语对话 (Spoken dialog)视频解决 (Video processing)语音根底 (Speech technologies)多模态 (Multimodality)（二十四）文摘 (Summarization)抽取文摘 (Extractive summarization)摘要文摘 (Abstractive summarization)多模态文摘 (Multimodal summarization)多语言文摘 (Multilingual summarization)对话文摘 (Conversational summarization)面向查问的文摘 (Query-focused summarization)多文档文摘 (Multi-document summarization)长格局文摘 (Long-form summarization)句子压缩 (Sentence compression)少样本文摘 (Few-shot summarization)构造 (Architectures)评估 (Evaluation)事实性 (Factuality)（二十五）句法学：标注、组块剖析和句法分析 (Syntax: Tagging, Chunking and Parsing)组块剖析、浅层剖析 (Chunking, shallow-parsing)词性标注 (Part-of-speech tagging)依存句法分析 (Dependency parsing)成分句法分析 (Constituency parsing)深层句法分析 (Deep syntax parsing)语义剖析 (Semantic parsing)句法语义接口 (Syntax-semantic inferface)状态句法相干工作的标注和数据集 (Optimized annotations or data set for morpho-syntaxrelated tasks) 句法分析算法 (Parsing algorithms)语法和基于常识的办法 (Grammar and knowledge-based approach)多任务办法 (Multi-task approaches)面向大型多语言的办法 (Massively multilingual oriented approaches)低资源语言词性标注、句法分析和相干工作 (Low-resource languages pos-tagging, parsing and related tasks)状态丰盛语言的词性标注、句法分析和相干工作 (Morphologically-rich languages pos tagging, parsing and related tasks)（二十六）主题畛域：事实检测 (Theme Track: Reality Check)因为谬误的起因而正确 (Right for the wrong reasons)理论使用中的教训 (Lessons from deployment)（非）泛化能力 [(Non-)generalization]（非）复现能力 [(Non-)reproducibility)]评估 (Evaluation)办法 (Methodology)负面后果 (Negative results)人工智能噱头和期待 (AI hype and expectations)迷信 vs 工程 (Science-vs-engineering)其余畛域的联合 (Lessons from other fields)

关于机器学习:CMP6002B-机器学习

School of Computing SciencesModule: CMP-6002B Machine LearningAssignment: Classification with Decison TreesDate set: Tuesday 11th March 2022Value: 50%Date due: Wednesday 18th May 2022 3pmReturned by: Wednesday 17th June 2022Submission: BlackboardLearning outcomesThe students will learn about implementing variants of decision trees and ensemble techniquesand the general issues involved with implementing any classifier. They will understand betterhow to evaluate and compare classifiers on a range of data and for a specific problem. They willappreciate the difficulty in presenting technical results in a way to support or refute a hypothesis.The exercises will improve the following transferable skills: programming in Java; analysisof data and results; writing clearly and concisely; presenting data coherently. The students willalso learn the basics of how to use GitHub to work with open source software.SpecificationOverviewThe task for this assignment is to implement components of decision trees and ensembles,then to evaluate/compare them on a range of real world data.1Part 1: Building a Tree by Hand (10%)The purpose of this exercise is to make sure you understand how the basic algorithms work andto provide you with a bench check for later implementations.The data in Table 1 shows a training data set for a classification problem involving predictingthe region of a whisky based on the three taste attributes: Peaty; Woody; and Sweet. Train aTable 1: Whisky Region Classification ExamplePeaty Woody Sweet Regionyes no yes Islayyes yes yes Islayyes no no Islayyes no no Islayno yes no Islayno yes yes Speysideno yes yes Speysideno yes yes Speysideno no yes Speysideno no yes Speysidedecision tree on this data using the information gain as a splitting criteria.Construct decision trees for this data using ...

关于机器学习:COMP3027-深度学习

COMP3027Algorithms 3027/3927 Assignment 4 The University of Sydney2022 Semester 1 School of Computer ScienceTask 1 (COMP3027 only): A1 with rotations [30 marks]Good news! The packing machine has now been fixed and can actually rotate products to fit into boxes.We now need to re-evaluate bids from box manufacturers. You are given a list P of n products p1, . . . , pnwhere product pi has length length(pi) and width width(pi) and a list B of m boxes b1, . . . , bm, anda list B of m boxes b1, . . . , bm where box bj has length length(bj) and width width(bj). We say thatproduct pi rotationally fits into box bj if at least one of the following conditions hold: length(pi) ? length(bj) and width(pi) ? width(bj), or width(pi) ? length(bj) and length(pi) ? width(bj), orThe total rotational fit is the total number of product-box pairs (pi, bj) such that pi rotationally fits inbj . The goal is to compute the total rotational fit. We call this the Rotational Fit Problem.Figure 1: p1 and p2 rotationally fit in boxes b1 and b2 so the total rotational fit is 4. Note that p1 onlyrotationally fits in b2, it does not non-rotationally fit in b2.Note that there may be multiple products/boxes that share the same length and/or width.In this task, we will reduce this problem to that of the problem in A1, which we now call the Non-Rotational Fit Problem. Recall that in the Non-Rotational Fit Problem, you are also given a list ofproducts and a list of boxes, each with lengths and widths. We say that product pi non-rotationally fitsinto box bj if length(pi) ? length(bj) and width(pi) ? width(bj). The total non-rotational fit is thetotal number of product-box pairs (pi, bj) such that pi non-rotationally fits in bj . The goal is to computethe total non-rotational fit.The goal in this task is to design an algorithm that takes as input an instance I of the Rotational FitProblem and output an instance J of the Non-Rotational Fit Problem such that the total rotational fitof I is exactly equal to the total non-rotational fit of J .(a) You: “Looking at the example above, it seems like a product rotationally fits into a box if and onlyif either the height or width of the box is at least as large as both dimensions of the product.”Rubber Duck: “Aha, so maybe the new instance J should have the same set of products as theoriginal instance I, but with the following set of boxes: for every box bj of I, create a new boxb0j with length(b0j) = width(b0j) = max(length(bj), width(bj)). Then, assuming what you say istrue, a product pi rotationally fits in box bj if and only if product pi non-rotationally fits in boxb0j . Thus, the rotational fit of I is exactly equal to the non-rotational fit of J .”1You: “Nice! Ok, so all we need to do is to see if the following statement is true: given a prod-uct p and box b, p rotationally fits in b if and only if length(p) ? max(length(b), width(b)) andwidth(p) ? max(length(b), width(b)).”Your task is to provide a counter-example to the above reduction.1 In particular, you need togive a product p and box b such that length(p) ? max(length(b), width(b)) and width(p) ?max(length(b), width(b)), but p does not rotationally fit in b. (Observe that p and b forms aninstance I of the Rotational Fit Problem such that the instance J produced by the above reductiondoes not satisfy the property that the rotational fit of I is equal to the non-rotational fit of J , andhence is a counterexample to the reduction.) [5 marks](i) State the lengths and widths of p and b.(ii) Show that length(p) ? max(length(b), width(b)) and width(p) ? max(length(b), width(b)).(iii) Show that p does not rotationally fit in b.(b) Your task is to implement on Ed a reduction from the Rotational Fit Problem to the Non-Rotational Fit Problem. In particular, design an algorithm that takes as input an instance Iof the Rotational Fit Problem and outputs an instance J of the Non-Rotational FitProblem such that the total rotational fit of I is exactly equal to the total non-rotational fit of J .For full marks, your algorithm should run in linear time, i.e. O(n+m) time. [25 marks]Task 2 (COMP3927 only): 3D A1 with rotations [30 marks]In this problem, each product pi and box bj also has a height height(pi) and height(bj), respectively.Product pi rotationally fits in box bj if there exists a rotation of pi such that it fits in bj . Note that for 3dobjects, there are 3! = 6 possible rotations. Thus, pi rotationally fits in bj if one of the following holds:The total rotational fit is the total number of product-box pairs (pi, bj) such that pi fits in bj . The goalis to compute the total rotational fit. We call this the 3D Rotational Fit Problem.In this task, we will reduce this problem to that of the problem in A1, which we now call the3D Non-Rotational Fit Problem. Recall that in the Non-Rotational Fit Problem, you are also given alist of products and a list of boxes, each with lengths, widths and heights. We say that product pinon-rotationally fits into box bj if length(pi) ? length(bj), width(pi) ? width(bj) and height(pi) ?height(bj). The total non-rotational fit is the total number of product-box pairs (pi, bj) such that pinon-rotationally fits in bj . The goal is to compute the total non-rotational fit.Your task is to implement on Ed a reduction from the 3D Rotational Fit Problem to the 3D Non-Rotational Fit Problem. In particular, your algorithm should take as input an instance I of the 3DRotational Fit Problem and output an instance J of the 3D Non-Rotational Fit Problem such that thetotal rotational fit of I is exactly equal to the total non-rotational fit of J . For full marks, your algorithmshould run in linear time, i.e. O(n+m) time.Task 3 (COMP3027 and COMP3927): The Wurst-Ka¨se Scenario[70 marks]The Best Wurst-Ka¨se Festival is on! The festival celebrates the best sausage and cheese shops throughoutSydney. Each shop o?ers a sausage and cheese tasting platter. You are given, in the form of a graph,1This is actually my initial thought process when I came up with this problem (minus the Rubber Duck).2a map of the locations of various shops and a start and end location. In the interest of maintaining abalanced diet2, you want to find a path from start to finish such that the total amount of cheese collectedequals the total amount of sausage collected. More formally, you are given a directed graph G = (V,E)with a start vertex s, and an end vertex t. You are also given, for every vertex v, the amount of sausageSv 0 and the amount of cheese Cv 0 of the platter o?ered by the shop at vertex v. A simple path Pis said to be balanced if the total amount sausage on the path equals the total amount of cheese on thepath, i.e.Pv2P Sv =Pv2P Cv. The goal is to decide if there is a balanced path from s to t. We callthis the Wurst-Ka¨se Path Decision problem.In the below example, Ss = 1, Cs = 0, Su = 1, Cu = 2, Sv = 2, Cv = 1, St = 0 and Ct = 1. The paths u t has 2 sausages and 3 cheeses, so it’s imbalanced. On the other hand, the path s v u t has4 sausages and 4 cheeses, so it’s balanced. Thus, this is a YES-instance.suvtYour task is to show that the Wurst-Ka¨se Path Decision problem is NP-complete.(a) First show that the problem is in NP(i) Describe a certificate and a verifier.(ii) Give a brief justification of the correctness of the verifier.(iii) Give a brief justification that the verifier runs in polynomial time.(b) To show that the problem is NP-hard, give a polynomial-time Karp reduction from the Partition3problem.(i) Describe how you transform an instance of the Partition problem into an instance of theWurst-Ka¨se Path Decision problem.(ii) Prove the correctness of your reduction, i.e. the instance of the Partition problem is a YES-instance if and only if the instance of the Wurst-Ka¨se Path Decision problem created by yourreduction is a YES-instance.(iii) Prove that your reduction is polynomial-time.Submission details? Please do not submit in German.? Submission deadline is Friday 13 May, at 23:59. Late submissions without special consider-ation will be subject to the penalties specified in the first lecture (5% per day). . Submissionslater than Sunday 15 May, 23:59 will not be accepted.? Submit your answers as a single document to Gradescope. Your work must be typed (no images oftext, although you can use diagrams if you think it helps.) Please try to be reasonably concise.? Your report will be subject to automatic and manual plagiarism detection systems. Remember, it’sacceptable to discuss high level ideas with your peers, but you should not share the detail of yourwork, such as parts as the precise algorithms, examples, proofs, writing, or code. To facilitate anonymous grading, please do not write your name on your submission.Level of detail required in this assignment Please do not write pseudocode (it’s an unnecessarily precise level of detail for these reductions,and usually harder to follow than prose.) Please try to be fairly concise. It’s reasonable to write things like these without having to explain precisely how it’s done:– ‘check that P is a simple path’– ‘check that all the subsets are disjoint’ You don’t need to detail data structures etc., unless the choice of structure is important for showingthat the time complexity is still polynomial. Don’t forget that you’re not trying to solve these problems, you only need to find polynomial timecertifiers / polynomial time reductions as appropriate. ...

关于机器学习:重要新闻数据标注公司冰山數據荣获国家高新技术企业认定

近日，数据标注公司玉案（北京）科技有限公司 (品牌名称：冰山數據) 荣获国家高新技术企业认定（国高新），表明其的科技研发、继续翻新、成长等能力均取得国家必定。国家高新技术企业是由科技部、财政部、国家税务总局三大部委独特认定，规范非常严格，申报企业必须通过自主知识产权、高新技术畛域规定范畴、企业科技人才占比、钻研开发费用占比、企业创新能力、科技成果转化能力、成长指标等七大维度的综合考评，是中国高科技企业最权威的荣誉之一。企业荣誉作为以技术驱动的数据标注公司，冰山數據已取得16项软件著作权证书，数据安全相干的专利1项，与世界顶级企业英伟达、亚马逊AWS、华为云等机构达成深度单干，联合多方技术劣势为人工智能企业提供更优质的AI数据服务，并取得投资机构启迪之星的投资，截止目前，冰山數據的技术实力和服务质量达到业内领先水平。举荐浏览: 《冰山數據退出启迪之星X华为云初创打算》《冰山數據获邀退出NVIDIA(英伟达)初创减速打算》《启迪之星公布2021壹打算投资十大成长企业和新星企业》公司理念冰山數據成立三年以来，一直晋升本身劣势，蕴含打造一款高度自动化数据标注平台、扩大寰球优质供应商、开发自动化的外部协同平台等。冰山數據开创团队来自各大头部互联网公司和数据公司，领有多年行业教训，发现数据标注行业的诸多难题如：面对多样化的数据标注场景如何打造一套通用化的流程、在面对需要骤增时如何应答人力不足的问题、在治理数十甚至上百人的数据标注团队时如何应用技术手段解决流程凌乱的问题等……故此冰山数据提出全球化+自动化计划，目前我司在肯尼亚、印度、埃及等地领有供应商50余家，国内优质供应商数百家，共计标注员总数超过万人，并通过冰山标注平台进行对立流程治理，实时监管数据标注进度和品质，胜利解决数据标注我的项目瓶颈，目前冰山标注平台可包容上万人同时工作。同时，冰山团队非常重视企业外部的协同能力对于客户满意度的影响，为了晋升外部效率，咱们打造了一款合乎数据标注行业的自动化协同平台，将客户触达、客户跟进治理、合同治理、任务书治理、发票治理、审批治理等环节集成在冰山协同平台中，并和冰山标注平台进行互联造成闭环，从而服务好每一位企业客户，晋升企业运行效率。在《冰山数据的服务和标注平台重大降级，提供更优质的数据标注服务。》一文中介绍了冰山最近的标注平台和协同平台降级。全面进军主动驾驶畛域在人工智能畛域，主动驾驶是最受关注的赛道之一，也是数据标注行业份额中比重最大的一部分，冰山數據为主动驾驶的各种简单标注场景开发了全方位的数据标注工具，并集成在冰山标注平台中，反对2D突围框标注、视频标注、图像宰割标注、点云间断帧和多传感交融标注等性能，并继续退出更多的辅助标注性能晋升标注效率。目前，冰山數據已为国内多家主动驾驶公司和主机厂提供长期数据标注服务。冰山标注平台多传感交融标注工具为了减速您的AI迭代，请抉择冰山数据当初越来越多的AI公司正在为数据标注而苦恼，从而抉择与业余的第三方公司进行单干，冰山數據是一家全球化的数据标注公司，帮忙寰球企业提供一站式的AI数据服务，包含各种类型的数据采集和数据标注服务，咱们也打造了高度流程自动化的数据标注平台，并退出辅助标注性能晋升标注效率，从而让简单的数据标注流程变地更加有序。冰山数据与亚马逊AWS、华为云、英伟达等寰球知名企业达成生态单干，联合各方技术劣势晋升数据标注的服务质量，并取得国家高新技术企业认证、中关村高新技术企业认证、国家科技型中⼩企业认证、北京新四板挂牌企业认证、北京外贸双⾃主认证、ISO9001认证、软件著作权16项、数据安全专利1项等诸多资质与荣誉。明天起，抉择与冰山数据单干并晋升您的AI迭代速度，请通过冰山數據官方网站分割咱们。

关于机器学习:COMP30024游戏缓存解析

COMP30024Rules for the Game of CachexCOMP30024 Artificial Intelligence2022Cachex is a two-player connection game of strategy, anticipation and sabotage. Establish efficientterritorial control by construction of geometric patterns while sabotaging the best laid plans of youropponent. Defeat your opponent’s territorial intrusions and unite patterns to victory!OverviewCachex is a perfect-information two-player game played on an n × n rhombic, hexagonally tiledboard, based on the strategy game Hex. Two players (named Red and Blue) compete, with thegoal to form a connection between the opposing sides of the board corresponding to their respectivecolor.Figure 1: Example board with winning connection for Blue.1Gameplay• The game begins with an empty board and proceeds sequentially.• By convention, Red starts. Throughout the game Red and Blue take turns placing stones onempty hexagonal cells (hexes).• The game ends when one player forms an unbroken chain of stones on adjacent hexes betweentheir respective sides; this player wins the game. The hexes at each of the four corners belongto both players.• Pairs of tokens may be removed from the game through a capture mechanism (Figures 3 and4). If a 2 × 2 symmetric1 diamond of cells is formed consisting of two stones from Red andBlue each, the player who completed the diamond removes their opponent’s stones from thegame. Note that:– Either player may exploit the capture rule, and the capture rule applies for all possibleorientations of the diamond found on the gameboard.– The capture mechanism only applies to a diamond formed by 2 Red and 2 Blue stones -it does not apply if there are three of one color and one of the other.– If multiple diamonds of valid type are formed by placement of a single stone on theboard, all of the opponent’s stones in the just-formed diamonds are removed from theboard.– After a capture, the opposing party can immediately threaten a re-capture by placing apiece on one of the recently-captured positions.• To mitigate first-mover advantage, the swap rule applies (Figure 2). Once Red completes theirfirst move, Blue may choose to proceed as normal and lay down a blue stone, or steal Red’smove for their own, reflecting the position of Red’s stone along the major axis of symmetry(i.e. interchanging the row and column index) and changing the stone from red to blue. Thegame proceeds as normal, with Red playing next. The swap rule incentivizes the first playerto play as fair a move as possible - if the first move is too strong, the second player is able tosteal the advantage2. For fairness, starting with a hex in the center of the board is illegal.Like Hex, assuming both players play to win, Cachex can never end in a draw3. The only surefireway to block your opponent’s construction of a winning unbroken connection is by making yourown unbroken connection. Hence defence is almost synonymous with offense in this game - howevernote that the capture mechanism opens the possibility of sabotaging your opponent’s attempts toconstruct a chain...1This refers to the axes of symmetry of the diamond which connect opposing vertices.2If this confuses you, consider how to fairly divide a cake between two people. The first mover chooses the dividingcut. The second mover chooses which slice to take.3Barring pathological cases associated with the capture mechanism where both sides collude to draw. Here weassume everyone wants to win.© - University of Melbourne, 2022 2Figure 2: Example application of the swap rule on a 5 × 5 board. First-mover Red places a stoneat d2, which gets stolen by Blue and reflected along the axis of symmetry to the blue token at b4.It is forbidden to place the first stone in the centre.→ →Figure 3: Diamond capture mechanism, Version 1. Red places a stone in the leftmost hex, forminga symmetric diamond. This removes Blue’s two tokens in the just-formed diamond from the board.Note the rule also applies for Red and Blue interchanged from the colors in the figure.A good way to gain familiarity for the game is through manual practice. An example gameboardis attached at the end of this document. You can use pen/pencil, Go stones, or colored chocolateconfectionery as pieces.Ending the GameThe game ends when one of the following conditions is met (if multiple are met, use the first inthis list). As draws are only possible with cooperative pathological play (e.g. repeated cycles ofcaptures), teams are mildly penalized for a draw. ...

关于机器学习:CRPS贝叶斯机器学习模型的评分函数

间断分级概率评分（Continuous Ranked Probability Score, CRPS）或“间断概率排位分数”是一个函数或统计量，能够将散布预测与实在值进行比拟。机器学习工作流程的一个重要局部是模型评估。这个过程自身能够被认为是常识：将数据分成训练集和测试集，在训练集上训练模型，并应用评分函数评估其在测试集上的性能。评分函数（或度量）是将实在值及其预测映射到一个繁多且可比拟的值 [1]。例如，对于间断预测能够应用 RMSE、MAE、MAPE 或 R 平方等评分函数。如果预测不是逐点预计，而是散布呢？在贝叶斯机器学习中，预测通常不是逐点预计，而是值的散布。例如预测能够是散布的预计参数，或者在非参数状况下，来自MCMC办法的样本数组。在这种状况下，传统的评分函数不适宜统计设计;预测的散布聚合成它们的平均值或中值会导致对于预测散布的扩散和形态的大量信息的损失。 CRPS间断分级概率评分(CRPS)是一个分数函数，它将单个实在值与累积散布函数(CDF)进行比拟: 它于 70 年代首次引入 [4]，次要用于天气预报，当初在文献和行业中从新受到关注 [1] [6]。当指标变量是间断的并且模型预测指标的散布时，它能够用作评估模型性能的指标；示例包含贝叶斯回归或贝叶斯工夫序列模型 [5]。通过应用CDF， CRPS 对于参数和非参数预测都很有用：对于许多散布，CRPS [3] 都有一个解析表达式，对于非参数预测， CRPS 应用教训累积散布函数 (eCDF)。在计算测试集中每个察看值的 CRPS 后，还须要将后果聚合成一个值。与 RMSE 和 MAE 相似，应用（可能是加权的）平均值对它们进行汇总：将单个值与散布进行比拟的次要挑战是如何将单个值转换成为散布的示意。CRPS通过将根本真值转换为带有指标函数的进化散布来解决这一问题。例如如果真值是7，咱们能够用: 指标函数是一个无效的 CDF，能够满足 CDF 的所有要求。而后就能够将预测散布与真值的进化散布进行比拟。咱们必定心愿预测的散布尽可能靠近真实情况；所以能够通过测量这两个 CDF 之间的（平方）面积来数学示意： MAE与MAE关系CRPS与驰名的MAE(均匀绝对误差)密切相关。如果采纳逐点预测将其视为进化 CDF 并将其注入 CRPS 方程能够失去：所以如果预测散布是进化散布（例如逐点预计），则 CRPS 会升高为 MAE。这有助于咱们从另一个角度了解CRPS：它能够被视为将 MAE 推广到散布的预测中，或者说当预测散布进化时，MAE 是 CRPS 的特例。当模型的预测是参数散布时（例如须要预测散布参数），CRPS 对一些常见的散布有一个解析表达式 [3]。如果模型预测正态分布的参数和，则能够应用以下公式计算 CRPS： ...

关于机器学习:SimMIM更简单的掩码图像建模

出品人：Towhee 技术团队张晨、顾梦佳掩码图像建模（MIM）通常会将输出 token 的随机子集替换为一个非凡的掩码符号，目标是从损坏的图像重建原始图像 token。SimMIM 系统分析了该办法中的次要组件，从而提出了无需非凡设计、更为简略的掩码图像框架。将简化后的 MIM 利用到 ViT-B，其预训练模型在公开的图像数据集 ImageNet-1K 上可能实现 83.8% 的 top-1 微调精度，胜利超过之前最优模型。当应用更大模型 SwinV2-H 时，SimMIM 仅需用 ImageNet-1K 训练便能实现 87.1% 的 top-1 精度。SimMIM 还促成了 3B 模型 (SwinV2-G) 的训练，缩小 40 倍的训练数据也能让模型在四个具备代表性的视觉基准上达到最先进的程度。 An illustration of SimMIM.SimMIM 发现在掩码图像建模中，每个组件的简略设计都显示出十分强的表征学习能力。当输出图像的随机掩码具备适度的掩码块大小时（例如 32），可能产生弱小的前置工作。间接回归预测 RGB 值的原始像素，其性能也可能媲美简单设计的 patch 分类办法。另外，钻研发现像线性层一样的轻量预测头的性能并不比多层的差。SimMIM 最终采纳 Swin-B 作为默认 backbone，通过轻量级单层头预测随机掩码块的原始像素值，并应用简略的 L1 损失进行学习。相干材料：代码地址：https://github.com/microsoft/SimMIM论文链接：SimMIM: A Simple Framework for Masked Image Modeling更多材料：SimMIM | 续Kaiming的MAE后，MSRA提出更简略的掩码图像建模框架！

关于机器学习:NLP知识图谱项目合集信息抽取文本分类图神经网络性能优化等

NLP常识图谱我的项目合集（信息抽取、文本分类、图神经网络、性能优化等）这段时间实现了很多大大小小的小我的项目，当初做一个整体演绎不便学习和珍藏，有利于继续学习。 1. 信息抽取我的项目合集1.PaddleNLP之UIE技术科普【一】实例：实体辨认、情感剖析、智能问答https://aistudio.baidu.com/aistudio/projectdetail/4180615?contributionType=1NLP畛域工作抉择适合预训练模型以及适合的计划【标准倡议】【ERNIE模型首选】https://aistudio.baidu.com/aistudio/projectdetail/4888188?contributionType=1Paddlenlp之UIE模型实战实体抽取工作【打车数据、快递单】https://aistudio.baidu.com/aistudio/projectdetail/4321385?contributionType=1快递单信息抽取【二】基于ERNIE1.0 预训练模型https://aistudio.baidu.com/aistudio/projectdetail/4157455?contributionType=1快递单信息抽取[三]:Ernie 1.0至ErnieGram + CRF改良算法https://aistudio.baidu.com/aistudio/projectdetail/4159638?contributionType=1UIE之快递单信息抽取【四】--小样本标注数据进步准确率https://aistudio.baidu.com/aistudio/projectdetail/4160432?contributionType=1Paddlenlp之UIE关系抽取模型【高管关系抽取为例】https://aistudio.baidu.com/aistudio/projectdetail/4371345?contributionType=1文档级关系抽取模型：基于构造先验产生注意力偏差SSAN模型https://aistudio.baidu.com/aistudio/projectdetail/4666541?contributionType=1基线晋升至96.45%：2022 司法杯犯罪事实实体辨认+数据蒸馏+被动学习https://aistudio.baidu.com/aistudio/projectdetail/4911042?contributionType=1[信息抽取]基于ERNIE3.0的多对多信息抽取算法：属性关系抽取https://aistudio.baidu.com/aistudio/projectdetail/5143572?contributionType=1基于ERNIELayout&PDFplumber-UIEX多计划学术论文信息抽取https://aistudio.baidu.com/aistudio/projectdetail/5196032?contributionType=12.文本分类用意辨认我的项目合集利用实际：分类模型大集成者[PaddleHub、Finetune、prompt]https://aistudio.baidu.com/aistudio/projectdetail/4357474?contributionType=1小样本学习分类工作：在文心ERNIE3.0利用（提醒学习），提速提效快用起来！https://aistudio.baidu.com/aistudio/projectdetail/4438610?contributionType=12022 CCF大数据与计算智能大赛：小样本数据分类工作baselinehttps://aistudio.baidu.com/aistudio/projectdetail/4479243?contributionType=1Paddlenlp之UIE分类模型【以情感偏向剖析新闻分类为例】含智能标注计划）https://aistudio.baidu.com/aistudio/projectdetail/4337189?contributionType=1基于ERNIR3.0文本分类：(KUAKE-QIC)用意辨认多分类(单标签)https://aistudio.baidu.com/aistudio/projectdetail/4362154?contributionType=1基于Ernie-3.0 CAIL2019法研杯因素辨认多标签分类工作https://aistudio.baidu.com/aistudio/projectdetail/4280922?contributionType=1基于ERNIR3.0文本分类：CAIL2018-SMALL罪名预测为例(多标签)https://aistudio.baidu.com/aistudio/projectdetail/4374631?contributionType=1基于ERNIR3.0文本分类：WOS数据集为例（档次分类）https://aistudio.baidu.com/aistudio/projectdetail/4382251?contributionType=13.模型性能晋升我的项目合集在数据加强、蒸馏剪枝下ERNIE3.0模型性能晋升具体计划https://aistudio.baidu.com/aistudio/projectdetail/4436131?contributionType=1Paddle模型性能剖析工具Profiler：定位瓶颈点、优化程序、晋升性能https://aistudio.baidu.com/aistudio/projectdetail/4482932?contributionType=1可视化剖析工具VisualDL 2.4强势来袭！新增：动态图模型可视化和性能剖析https://aistudio.baidu.com/aistudio/projectdetail/4561034?contributionType=1推广TrustAI可信剖析：通过晋升数据品质来加强在ERNIE模型下性能https://aistudio.baidu.com/aistudio/projectdetail/4622139?contributionType=1AiTrust下预训练和小样本学习在中文医疗信息处理挑战榜CBLUE体现https://aistudio.baidu.com/aistudio/projectdetail/4592515?contributionType=1UIE Slim满足工业利用场景，解决推理部署耗时问题，晋升效力！https://aistudio.baidu.com/aistudio/projectdetail/4516470?contributionType=1被动学习(Active Learning)综述以及在文本分类和序列标注利用https://aistudio.baidu.com/aistudio/projectdetail/4897371?contributionType=14.常识图谱我的项目合集技术常识介绍：工业级常识图谱办法与实际https://aistudio.baidu.com/aistudio/projectdetail/4444783?contributionType=1特定畛域常识图谱交融计划：技术常识前置【一】-文本匹配算法https://aistudio.baidu.com/aistudio/projectdetail/5398069?contributionType=1特定畛域常识图谱(Domain-specific KnowledgeGraph:DKG)交融计划(重点！) 在后面技术常识下能够看看后续的理论业务落地计划和学术计划对于图神经网络的常识交融技术学习参考上面链接：[PGL图学习我的项目合集&数据集分享&技术演绎业务落地技巧[系列十]](https://aistudio.baidu.com/ai...) 从入门常识到经典图算法以及进阶图算法等，自行查阅食用！文章篇幅无限请参考专栏按需查阅：NLP常识图谱相干技术业务落地计划和码源 4.1 特定畛域常识图谱常识交融计划（实体对齐)：优酷畛域常识图谱为例计划链接：https://blog.csdn.net/sinat_39620217/article/details/128614951 4.2 特定畛域常识图谱常识交融计划（实体对齐)：娱乐常识图谱构建之人物实体对齐计划链接：https://blog.csdn.net/sinat_39620217/article/details/128673963 4.3 特定畛域常识图谱常识交融计划（实体对齐)：商品常识图谱技术实战计划链接：https://blog.csdn.net/sinat_39620217/article/details/128674429 4.4 特定畛域常识图谱常识交融计划（实体对齐)：基于图神经网络的商品异构实体表征摸索计划链接：https://blog.csdn.net/sinat_39620217/article/details/128674929 4.5 特定畛域常识图谱常识交融计划（实体对齐)论文合集计划链接：https://blog.csdn.net/sinat_39620217/article/details/128675199 论文材料链接：两份内容不雷同，且依照序号从小到大重要性顺次递加常识图谱实体对齐材料论文参考(PDF)+实体对齐计划+特定畛域常识图谱常识交融计划（实体对齐) 常识图谱实体对齐材料论文参考(CAJ)+实体对齐计划+特定畛域常识图谱常识交融计划（实体对齐) 4.6 常识交融算法测试计划（常识生产品质保障）计划链接：https://blog.csdn.net/sinat_39620217/article/details/128675698 5.图神经网络1.1 对于图计算&图学习的基础知识概览：前置知识点学习（PGL）[系列一] ：https://aistudio.baidu.com/aistudio/projectdetail/4982973?contributionType=1 本我的项目对图基本概念、关键技术（示意办法、存储形式、经典算法），利用等都进行具体解说，并在最初用程序实现各类算法不便大家更好的了解。当然之后所有图计算相干都是为了常识图谱构建的前置条件 1.2 图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二）https://aistudio.baidu.com/aistudio/projectdetail/4990947?contributionType=1 当初曾经笼罩了图的介绍，图的次要类型，不同的图算法，在Python中应用Networkx来实现它们，以及用于节点标记，链接预测和图嵌入的图学习技术，最初讲了GNN分类利用以及将来倒退方向！ 1.3 图学习初探Paddle Graph Learning 构建属于本人的图【系列三】 https://aistudio.baidu.com/aistudio/projectdetail/5000517?contributionType=1 本我的项目次要解说了图学习的基本概念、图的利用场景、以及图算法，最初介绍了PGL图学习框架并给出demo实际，过程中把老我的项目demo修改版本兼容问题等小坑，并在最新版本运行便于后续同学更有体验感 1.4 PGL图学习之图游走类node2vec、deepwalk模型[系列四]https://aistudio.baidu.com/aistudio/projectdetail/5002782?contributionType=1 介绍了图嵌入原理以及了图嵌入中的DeepWalk、node2vec算法，利用pgl对DeepWalk、node2vec进行了实现，并给出了多个框架版本的demo满足个性化需要。图学习【参考资料1】词向量word2vec https://aistudio.baidu.com/aistudio/projectdetail/5009409?contributionType=1介绍词向量word2evc概念，及CBOW和Skip-gram的算法实现。图学习【参考资料2】-常识补充与node2vec代码注解https://aistudio.baidu.com/aistudio/projectdetail/5012408?contributionType=1次要引入根本的同构图、异构图常识以及基本概念；同时对deepWalk代码的注解以及node2vec、word2vec的阐明总结；（以及作业代码注解） 1.5 PGL图学习之图游走类metapath2vec模型[系列五]https://aistudio.baidu.com/aistudio/projectdetail/5009827?contributionType=1 介绍了异质图，利用pgl对metapath2vec以及metapath2vec变种算法进行了实现，同时解说实现图分布式引擎训练，并给出了多个框架版本的demo满足个性化需要。 1.6 PGL图学习之图神经网络GNN模型GCN、GAT[系列六] [https://aistudio.baidu.com/ai...](https://aistudio.baidu.com/ai...ontributionType=1) 本次我的项目解说了图神经网络的原理并对GCN、GAT实现形式进行解说，最初基于PGL实现了两个算法在数据集Cora、Pubmed、Citeseer的体现，在引文网络基准测试中达到了与论文等同程度的指标。 1.7 PGL图学习之图神经网络GraphSAGE、GIN图采样算法[系列七] https://aistudio.baidu.com/aistudio/projectdetail/5061984?contributionType=1 ...

关于机器学习:2022总结丨-OpenDataLab热门下载数据集Top-20-榜单揭晓

OpenDataLab平台自上线以来，数据集笼罩规模曾经超过4500个，工作类型超1200个，提供了超过60TB的数据集资源，吸引了业界敌人的宽泛关注。本期跟着小编，一起来看看2022年度最受研究员欢送的数据集Top 20 都有哪些。如果感觉不错的话，记得珍藏，更多资源请拜访OpenDataLab官网：https://opendatalab.org.cn/ No.1 OpenLane● 公布方：上海人工智能实验室 · 上海交通大学 · 商汤科技研究所 ● 公布工夫：2022 ● 下载链接： https://opendatalab.org.cn/OpenLane ● 关键词：车道检测、指标检测、2D/3D折线 # No.2 MovieNet ● 公布方：香港中文大学 ● 公布工夫：2020 ● 下载链接： https://opendatalab.org.cn/MovieNet ● 关键词：电影了解、视频分类、文本摘要 No.3 MOT20● 公布方：达姆施塔特工业大学 · 慕尼黑工业大学 · 澳大利亚机器学习研究所 · University of Adelaide · 亚马逊 · 苏黎世联邦理工学院 ● 公布工夫：2020 ● 下载链接： https://opendatalab.org.cn/MOT20 ● 关键词：行人检测挑战、多指标跟踪 # No.4 ADE20K ●公布方：麻省理工学院 · 多伦多大学 ● 公布工夫：2016 ● 下载链接： https://opendatalab.org.cn/ADE20K_2016 ● 关键词：场景语义宰割 # No.5 MOT17 ● 公布方：阿德莱德大学 · 苏黎世联邦理工学院 · 达姆施塔特工业大学 ...

关于机器学习:监控Python-内存使用情况和代码执行时间

我的代码的哪些局部运行工夫最长、内存最多？我怎样才能找到须要改良的中央？” 在开发过程中，我很确定咱们大多数人都会想晓得这一点，而且通常状况下存在开发空间。在本文中总结了一些办法来监控 Python 代码的工夫和内存应用状况。本文将介绍4种办法，前3种办法提供工夫信息，第4个办法能够取得内存应用状况。 time 模块%%time 魔法命令line_profilermemory_profilertime 模块这是计算代码运行所需工夫的最简略、最间接(但须要手动开发)的办法。他的逻辑也很简略:记录代码运行之前和之后的工夫，计算工夫之间的差别。这能够实现如下: importtime start_time=time.time() result=5+2 end_time=time.time() print('Time taken = {} sec'.format(end_time-start_time))上面的例子显示了for循环和列表推导式在工夫上的差别: importtime # for loop vs. list comp list_comp_start_time=time.time() result= [iforiinrange(0,1000000)] list_comp_end_time=time.time() print('Time taken for list comp = {} sec'.format(list_comp_end_time-list_comp_start_time)) result=[] for_loop_start_time=time.time() foriinrange(0,1000000): result.append(i) for_loop_end_time=time.time() print('Time taken for for-loop = {} sec'.format(for_loop_end_time-for_loop_start_time)) list_comp_time=list_comp_end_time-list_comp_start_time for_loop_time=for_loop_end_time-for_loop_start_time print('Difference = {} %'.format((for_loop_time-list_comp_time)/list_comp_time*100))咱们都晓得for会慢一些 Time taken for list comp = 0.05843973159790039 sec Time taken for for-loop = 0.06774497032165527 sec Difference = 15.922795107582594 %%%time 魔法命令魔法命令是IPython内核中内置的不便命令，能够不便地执行特定的工作。个别状况下都切实jupyter notebook种应用。 ...

关于机器学习:机器学习-Label-vs-One-Hot-Encoder

如果您是机器学习的老手，您可能会对这两者感到困惑——Label 编码器和 One-Hot 编码器。这两个编码器是 Python 中 SciKit Learn 库的一部分，它们用于将分类数据或文本数据转换为数字，咱们的预测模型能够更好地了解这些数字。明天，本文通过一个简略的例子来理解一下两者的区别。 1. Label Encoding首先，您能够在此处找到 Label Encoder 的 SciKit Learn 文档。当初，让咱们思考以下数据：在本例中，第一列是国家列，全是文本。正如您当初可能晓得的那样，如果咱们要在数据上运行任何类型的模型，咱们就不能在数据中蕴含文本。因而，在咱们运行模型之前，咱们须要为模型筹备好这些数据。为了将这种分类文本数据转换为模型可了解的数值数据，咱们应用了标签编码器类。因而，要对第一列进行标签编码，咱们所要做的就是从 sklearn 库中导入 LabelEncoder 类，拟合并转换数据的第一列，而后用新的编码数据替换现有的文本数据。让咱们看一下代码。 from sklearn.preprocessing import LabelEncoderlabelencoder = LabelEncoder()x[:, 0] = labelencoder.fit_transform(x[:, 0])咱们假如数据在一个名为“x”的变量中。运行这段代码后，如果您查看 x 的值，您会看到第一列中的三个国家已被数字 0、1 和 2 替换。这就是标签编码的全部内容。然而依据数据，标签编码引入了一个新问题。例如，咱们将一组国家名称编码为数字数据。这实际上是分类数据，行之间没有任何关系。这里的问题是，因为同一列中有不同的数字，模型会误会数据的某种程序，0 < 1 < 2。但事实并非如此。为了克服这个问题，咱们应用 One Hot Encoder。 2. One Hot Encoder当初，正如咱们曾经探讨过的，依据咱们领有的数据，咱们可能会遇到这样的状况：在标签编码之后，咱们可能会混同咱们的模型，认为列中的数据具备某种程序或层次结构，而实际上咱们显然不这样做没有它。为防止这种状况，咱们对该列进行“OneHotEncode”。 One Hot Encoder 的作用是，它须要一个具备分类数据的列，该列曾经过标签编码，而后将该列拆分为多个列。这些数字将替换为 1 和 0，具体取决于哪一列具备什么值。在咱们的示例中，咱们将取得三个新列，每个国家一列 - 法国、德国和西班牙。对于第一列值为法国的行，“法国”列将为“1”，其余两列将为“0”。同样，对于第一列值为 Germany 的行，“Germany”列的值为“1”，其余两列的值为“0”。 One Hot Encoder 的 Python 代码也非常简单： ...

关于机器学习:KIT317-物联网系统分析

Assignment 1Due: 15 April 2022You are required to build a basic IoT system with the following modules. It will include the following:A. Ethernet Module for the Internet.B. An RGBLED or LCD for visual output.C. An LDR (Light Sensor) for sensor input.D. A switch module.E. Interrupt Button.The system should have the following features:• The IoT device must have an ACTIVE state and a SUSPENDED state.• A web page displaying different information as stated below.In the ACTIVE state:a. the LCD must display something like ‘Running’.ORb. the RGBLED goes GREEN indicating a running status.i. A webpage should be there to visualize the sensor information from (C) in real-time. Sensor data in theremote lab must be reflected on your web page every 15 seconds (approx.).Note: You can choose any styling of the web page, but it must be readable.ii. You must implement an input mechanism (interrupt) using (E). If the button is pressed, then the systemgoes into a SUSPENDED state.In the SUSPENDED state:a. the LCD must display something like ‘Maintenance Initiated’.ORb. the RGBLED goes RED indicating maintenance.iii. The device takes a 3-digit input (between 100 and 999) using the switch module (D). This number shouldbe used as the sampling rate of the LDR sensor data in (ii). For example, if you choose 150 as a 3-digitinput, your system should take 150 samples in 15 seconds before uploading the average to the webpage. (You can select your delay mechanism depending on the number of samples you are taking).iv. The web page will stop updating, i.e., there is no periodic update in this state. (* see bonus)v. Once the 3-digit input has been taken, it should move to the ACTIVE state immediately.Tasks 16 marksKIT317 2022vi. There must be a timeout of 60s for iii-v. If the user presses the interrupt button, but no modificationhappens in the 60s after the device enters the SUSPENDED state, the system automatically goes back tothe ACTIVE state. (hint: use millis() to timeout)Please see the attached timing diagram.The assignment submission should include:• Your code for the Arduino and PHP as a zip file.• A flowchart diagram for the system that you implemented.Two different states are implemented on the device (Arduino), and it moves smoothly betweenthe states. (ii and v-vi)• All working 3• Transition is not timely 2• It is implemented but does not work 1• Nothing is implemented 0The web page shows all features (i and iv)• The graph is updating, and data is saved properly 3• One of the features above is not working 2• The web page is implemented but not working 1• Not implemented 0The sampling happens correctly (iii)• The 3-digit input is taken correctly, and the sampling is happening correctly 4• One of the features above is not working 3• Two of the features above is not working 1• Not implemented 0The inputs work appropriately (ii)• The button interrupt/switch module works correctly 1• Not implemented 0The inputs work appropriately (vi)• The timeout works correctly 2• It is implemented but the features do not work properly 1• Not implemented 0Flowchart 3 ...

关于机器学习:ECMT3150-R语言分析

ECMT3150: Assignment 1 (Semester 1, 2022) Due: 5pm, 18 March 2022 (Friday) [Total: 20 marks] Bob is a grown-up now. With the pocket money from his dad Simon,Bob went to the casino to try his luck. Being a ?rst-time gambler, he decided to start bybetting big-and-small.For the sake of this question, we assume the game is fair in the sense that all rounds areindependent and the probabilities of winning and losing in a round are both equal to 0.5.More precisely, we de?ne the indicator yn as follows:yn =(if Bob wins in the nth round,if Bob loses in the nth round.The assumptions on the game given above imply that (yn)n1 is a sequence of iid randomvariables with P (yn = 1) = P (yn = 1) = 0:5.Let Vn (in dollars) denote Bob?s stake in the nth round. The stake is determined by Bobbefore the nth round starts. If Bob bets Vn in the nth round and wins, he will gain Vn inthat round (hence receiving a total of 2Vn); otherwise he will lose Vn (hence receiving a totalof 0 dollars). Note that Vn may depend on the outcomes of the ?rst n 1 rounds. A givensequence (Vn)n1 de?nes a betting strategy.Let Xn denote Bob?s total gain after the nth round. We set X0 = 0. It is clear that Xn isgiven byXn =nXi=1Viyi.(a) [4 marks] De?ne Xn := Xn Xn1 for n 1. Show that the sequence (Xn)n1 is amartingale di¤erence sequence.(b) [3 marks] Show that E(Xn) = 0 for all n. In words, Bob will break even on average.Suppose Bob adopts the ?grandpa?s strategy?by betting $1 in each round regardless of whathappened, i.e., Vn 1 for all n.(c) [3 marks] What is the distribution of Bob?s total gain after 5 rounds?(d) [2 marks] What is the probability that Bob will su¤er a loss after 5 rounds?1Bob claims that he can beat the house by adopting the following betting strategy (let?s callit ?the banker?s strategy?): He bets $1 in the ?rst round. If Bob wins in the previous round,he stops playing; otherwise he doubles the bet in the following round. Bob will keep playinguntil he wins for the ?rst time or he uses up all the money that Simon gave him, whicheverhappens ?rst. More precisely, we can represent the banker?s strategy as follows: V1 = 1, andfor n > 1,Vn =(2n1 if y1 = 1, y2 = 1, . . . , yn1 = 1,otherwise.(e) [2 marks] What is Bob?s total loss after he loses all the ?rst 10 rounds, supposing thatBob has enough pocket money to survive beyond 10 rounds?(f) [2 marks] What is Bob?s total gain after he wins for the ?rst time?(g) [4 marks] Bob claims that by adopting the banker?s strategy he will for sure bring backhome with more money than what Simon gave him if he plays long enough. Assumingthat the game is fair, do you agree with Bob? Why or why not?[Total: 16 marks] Let It be the indicator for the stock price movement in period t (-1 =price decrease; 0 = no change in price; 1 = price increase). Suppose the price movement is aMarkov process in the sense that the price movement in the current period depends only onthe price movement in the previous period. The joint probability distribution of It1 and Itis given in the table below, where p00, p01, p10, and p11 are constants. The row and columnsums are displayed in the last column and in the last row, respectively.It = 1 It = 0 It = 1It1 = 1 0.04 0.14 0.02 0.2It1 = 0 0.14 p00 p01 0.7It1 = 1 0.02 p10 p11 0.10.2 0.7 0.1(a) [2 marks] Find E(It) and V ar(It).(b) [2 marks] Is the process (It)t1 stationary? Explain.(c) [3 marks] Find the conditional distribution of It given that the price increases at timet 1. Express your answer in terms of p11.(d) [3 marks] Find the conditional variance of It given that the price increases at time t 1.Express your answer in terms of p11.(e) [2 marks] Suppose the stock price movement are independent. Find the value of p01.(f) [4 marks] Suppose the stock price movement are positively correlated. Find the rangeof values of p00.2[Total: 20 marks]Note: Please append your R codes (as a separate .R ?le) while you submit the assignment.Carol, an amateur economist, proposes the following time series model for unemploymentrate:where "t iid N(0; 0:022) (normal distribution with mean 0 and variance 0:022). The timeperiod is measured in number of quarters.(a) [3 marks] Show that the time series fytg generated by model (1) is stationary.(b) [3 marks] There is a stochastic cycle in the time series generated by model (1). Find itsperiodity in number of quarters.(c) [4 marks] Compute the ACF for the ?rst 3 lags, i.e., (1), (2) and (3).(d) [2 marks] Write an R program to simulate a sample path of fytg over 30 years. Set theinitial values y0 and y1 to be y0 = 0:1 and y1 = 0:12. While simulating the randomnumbers for "t, set the random seed to be your last 5 digits of your SID (this is to ensurethat your answer will be di¤erent from that of other students).(e) [2 marks] Plot the sample ACF and record its value for the ?rst 3 lags (the values can beretrieved from the acf command output stored as a list). Why are they di¤erent fromyour answers in part (c)?(f) [3 marks] Using the simulated sample path in part (d), estimate an AR(2) model usingthe R command arima. Write down the estimated model with the parameter estimatesand their standard error. Also record the estimated variance of the innovations.[Important note: the ?intercept?estimate in the arima output is in fact the unconditionalmean; see Rob Hyndman?s page for details: https://robjhyndman.com/hynds...arimaconstants/.](g) [3 marks] Using the simulated sample path in part (d) and the R package forecast,plot the point forecast and the con?dence interval for each period over the next 5 years.Describe the short-run and long-run behaviour of the point forecast and the con?denceinterval.

关于机器学习:CycleMLP一种用于密集预测的mlp架构

CycleMLP由香港大学、商汤科技研究院和上海人工智能实验室共同开发，在2022年ICLR上公布。 MLP-Mixer, ResMLP和gMLP，其架构与图像大小相干，因而在指标检测和宰割中是无奈应用的。而CycleMLP有两个长处。(1)能够解决各种大小的图像。(2)利用部分窗口实现了计算复杂度与图像大小的线性关系。 Cycle FC Cycle Fully-Connected Layer (Cycle FC) 和 Channel FC 、Spatial FC比拟 Channel FC:在空间大小为“1”的通道维度上聚合特色。它能够解决各种输出尺度，但不能学习空间上下文。Spatial FC (MLP-Mixer, ResMLP， & gMLP):在空间维度上有一个全局感触野。然而它的参数大小是固定的，并且对图像尺度具备二次计算复杂度。论文的Cycle FC:具备与通道FC雷同的线性复杂度和比通道FC更大的感触野。(d)-(f)为三个不同步长示例:橙色块示意采样地位。F示意输入地位。为了简略起见省略了批处理尺寸，并将特色的宽度设置为1。在放弃计算效率的同时，扩充mlp类模型的承受域，以应答上游密集的预测工作。 Cycle FC引入(SH, SW)的感触野，其中SH和SW别离为步长，随高度和宽度维数变动。根本的Cycle FC算子能够表述为: 大小为 Cin×Cout 的 Wmlp 和大小为 Cout 的 b 是Cycle FC的参数。i(c)和j(c)为第c通道上两轴的空间偏移量，定义如下：上图中(d)示意SH=3时沿两轴的偏移量，即j(c)=0， i(c)={- 1,0,1， - 1,0,1，…}，当c= 0,1,2，…，8时。(e)示意当SH=H时，周期FC具备全局感触野。(f)示意当SH=1时，沿任何轴都没有偏移，因而Cycle FC进化为Channel FC。上表所示，更大的感触野带来了对语义宰割和对象检测等密集预测工作的改良。同时，Cycle FC在输出分辨率上依然放弃了计算效率和灵活性，flop和参数数均与空间尺度呈线性关系。与Transformer中的MHSA比拟受 Cordonnier ICLR’20 的启发，具备 Nh 个头的多头自注意力 (MHSA) 层能够示意如下，相似于具备以下内核大小的卷积： Wmlp与Wmhsa的关系能够表述为: Cycle FC中的参数size为Cin×Cout, Wmhsa为K×K×Cin×Cout。Cycle FC还引入了一个演绎偏差，即MHSA中的权重矩阵应该是稠密的。 CycleMLP CycleMLP在MViT和PVTv2的根底上，采纳了窗口大小为7，步幅为4的重叠补丁嵌入模块。这些原始补丁通过线性嵌入层顺次利用几个Cycle FC 块进一步投影到更高维度（示意为 C）。。 ...

关于机器学习:Jupyter-Lab-的-10-个有用技巧

JupyterLab是 Jupyter Notebook「新」界面。它蕴含了jupyter notebook的所有性能，并降级减少了很多性能。它最大的更新是模块化的界面，能够在同一个窗口以标签的模式同时关上好几个文档，同时插件治理十分弱小，应用起来要比jupyter notebook高大尚许多。 1、拼写查看拼写查看能够让咱们的文档放弃更高的品质，默认状况下，拼错的单词会以红色背景突出显示，然而这里我将其设置为下划线。应用这个性能只有装置以下的插件： pip install jupyterlab-spellchecker2、代码格式化这里须要装置几个包，一个是提供格式化性能，另外一个是咱们的jupyterlab插件 # Install the formatters$ pip install black isort# Install the extension$ pip install jupyterlab-code-formatter通过Jupyter Lab Code Formatter扩大能够取得很多的格式化性能装置实现后，顶部会呈现一个奇怪但看起来很酷的图标。如果您不想应用该按钮，您能够将扩大配置为保留时主动格式化(在 Advanced Settings Editor 设置)。 3、多行抉择这个性能与jupyter notebook一样，点击时按住Ctrl键能够多选。只能在单个单元格内进行多选。 4、增加虚拟环境应用以下命令将虚拟环境作为内核增加到Jupyter Lab，这样就能够作为一个选项呈现在Launcher或内核列表的右上角: $ pip install ipykernel$ ipython kernel install --user --name=new_or_existing_env_name留神：以上代码须要在你须要增加的虚拟环境应用，而不是jupyter lab的环境 5、像运行脚本一样运行notebookJupyter notebook用于摸索和互动输入。然而应用jupyter run命令，能够像Python脚本一样程序执行每个笔记本单元格。 jupyter run path_to_notebook.ipynb该命令会以JSON的模式返回每个单元格的输入，所以如果有大量文本输入可能会卡顿。咱们能够将不同的超参数保留到单个笔记本中而后运行，这样能够保留运行记录。 6、宰割编辑器窗口Jupyter Lab的窗口以标签的模式展现，咱们一次能够关上好几个编辑窗口，并且能够拖动窗口，将编辑器窗口宰割，演示如下： 7、随时查看文档有三种办法能够间接从编辑器中查找简直任何函数或魔法命令的文档。第一个是应用Shift + Tab键盘快捷键（默认），它会显示一个弹出窗口，其中蕴含光标所在的函数或类的文档: 如果不喜爱点击其余中央后弹出窗口隐没，还能够应用上下文帮忙，它能够通过帮忙菜单或Ctrl + I键盘快捷键拜访。上下文帮忙显示游标指向的函数或类的实时文档。最初，一种办法能够简略地在函数或类名的开端增加一个问号(不带括号): ...

关于机器学习:YOLO家族系列模型的演变从v1到v8上

YOLO V8曾经在本月公布了，咱们这篇文章的目标是对整个YOLO家族进行比拟剖析。理解架构的演变能够更好地晓得哪些改良进步了性能，并且明确哪些版本是基于那些版本的改良，因为YOLO的版本和变体的命名是目前来说最乱的，心愿看完这篇文章之后你能对整个家族有所理解。在YOLO呈现之前，检测图像中对象的次要办法是应用不同大小的滑动窗口顺次通过原始图像的各个局部，以便分类器显示图像的哪个局部蕴含哪个对象。这种办法是合乎逻辑的，但十分缓慢。通过了一段时间的倒退，一个非凡的模型呈现了：它能够裸露感兴趣的区域，但即使是这样还是太多了。速度最快的算法Faster R-CNN均匀在0.2秒内解决一张图片，也就是每秒5帧。在以前的办法中，原始图像的每个像素都须要被神经网络解决几百次甚至几千次。每次这些像素都通过同一个神经网络进行雷同的计算。有没有可能做些什么来防止反复同样的计算? 事实证明这是可能的。然而为了这个，咱们必须略微从新定义这个问题。如果早些时候它是一个分类工作，那么当初它曾经变成了一个回归工作。 YOLO / YOLOv1第一个YOLO模型，也称为YOLOv1。 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi “You Only Look Once: Unified, Real-Time Object Detection”2015/06 https://arxiv.org/pdf/1506.02..., 除了基于Darknet框架的官网实现外，在其余罕用框架上也有大量各种风行的实现，这里就不列举了 Pascal VOC 2007 上的实时零碎比拟的性能和速度。Fast YOLO 是 Pascal VOC 检测记录中最快的模型，而其准确度也是其余实时检测器的两倍。 YOLO 的精度比Fast 版本高 10 mAP，但速度仍远高于其余模型。架构在结构上，YOLO 模型由以下局部组成： Input ——输出图像被馈送到的输出层Backbone ——输出图像以特色模式编码的局部。Neck ——这是模型的其余局部，用于解决由特色编码的图像Head(s)——一个或多个产生模型预测的输入层。该网络的第一个版本基于 GoogLeNet 的架构。它是与 MaxPool 交织的级联卷积层。级联以两个齐全连贯的层作为输入。作者训练了一个更快版本的 Fast YOLO 架构，蕴含更少的卷积层（9 个而不是 24 个）。两个模型的输出分辨率都是 448x448，然而网络次要局部的预训练就像一个分辨率为 224x224 的分类器。 ...

关于机器学习:DeepMind-发布强化学习通用算法-DreamerV3AI-成精自学捡钻石

内容一览：强化学习是多学科畛域的穿插产物，其本质是实现主动决策且可做间断决策。本文将介绍 DeepMind 最新研发成绩：扩充强化学习利用范畴的通用算法 DreamerV3。关键词：强化学习 DeepMind 通用算法北京工夫 1 月 12 日，DeepMind 官网推特发文，正式官宣 DreamerV3，这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据，就能从头开始收集钻石的通用算法，解决了 AI 畛域中的又一重要挑战。 DeepMind 在推特官宣 DreamerV3强化学习扩大成问题，倒退还需通用算法强化学习使得计算机能够通过互动解决某一工作，如 AlphaGo 在围棋比赛中战败人类，OpenAI Five 在 Dota 2 中战败业余人类玩家。 OpenAI Five 在较量中战败人类玩家研发团队与人类玩家合照然而，要想将算法利用于新的利用场景，如从棋盘游戏转到视频游戏或机器人工作，就须要工程师一直开发专门的算法 (specialized algorithms)，如间断管制、稠密处分、图像输出以及 spatial environments 等。这要求大量的专业知识和计算资源来微调算法，极大妨碍了模型的扩大。创立无需调优就能学习把握新 domain 的通用算法，成为扩充强化学习利用范畴、解决决策问题的重要途径。由此，由 DeepMind 和多伦多大学联结研发的 DreamerV3 应运而生。 DreamerV3：基于世界模型的通用算法DreamerV3 是一种基于世界模型 (World Model) 的通用和可扩大的算法，能在固定超参数的前提下，利用于宽泛域 (domain)，比专门的算法更杰出。这些 domain 包含间断动作 (continuous action) 和离散动作 (discrete action)，视觉输出和低维输出，2D 世界和 3D 世界，不同的数据估算、处分频率和处分尺度等。 DreamerV3 通用算法与专门算法性能比照DreamerV3 由 3 个从回放教训 (replayed experience) 中同时训练，且不共享梯度的神经网络组成：1、world model：预测潜在动作的将来后果2、critic：判断每种状况的 value3、actor：学习如何使有价值的状况成为可能 ...

关于机器学习:论文推荐谷歌Masked-Generative-Transformers-以更高的效率实现文本到图像的-SOTA

基于文本提醒的生成图像模型近年来获得了惊人的停顿，这得益于新型的深度学习架构、先进的训练范式(如掩码建模)、大量图像-文本配对训练数据的日益可用，以及新的扩散和基于掩码的模型的倒退。在23年1月新公布的论文 Muse中：Masked Generative Transformers 生成文本到图像利用掩码图像建模办法来达到了最先进的性能，零样本 COCO 评估的 FID 分数为 7.88，CLIP 分数为 0.32——同时显著快于扩散或传统自回归模型。 google团队总结了它们的次要奉献如下：提出了一个最先进的文本到图像生成模型，该模型取得了杰出的 FID 和 CLIP 分数（图像生成品质、多样性和与文本提醒对齐的定量测量）。因为应用了量化图像标记和并行解码，模型显著快于同类模型。架构反对开箱即用的零样本编辑性能，包含inpainting, outpainting和free mask编辑。 Muse构建在谷歌的T5之上，T5是一个大型语言模型，它承受各种文本到文本工作的训练，可通过掩码transformer 架构生成高质量图像。Muse 从 T5 嵌入中继承了无关对象、动作、视觉属性、空间关系等的丰盛信息；并学习将这些丰盛的概念与生成的图像相匹配。 Muse一共蕴含八个外围组件，例如它的语义标记化，它应用VQGAN模型的编码器和解码器对来自不同分辨率的图像进行编码，并输入离散的标记，这些标记捕捉图像的更高级别语义，而不受低级别噪声的影响。超分辨率模型将较低分辨率的潜在映射转换为更高分辨率的潜在映射，并通过更高分辨率的 VQGAN 解码生成最终的高分辨率图像。钻研人员还在放弃编码器的容量固定的前提下向 VQGAN 解码器增加额定的残差层和通道，而后微调这些新层，同时放弃 VQGAN 编码器的权重等固定。因为视觉标记“语言”放弃不变，因而能够在不从新训练任何其余模型组件的状况下能够改善生成图像的细节和视觉品质。为了改良 Muse 的文本图像对齐，还应用了一种无分类器领导 (classifier-free guidance) 的办法，该办法线性减少疏导尺度，在低疏导或无疏导的状况下对晚期标记进行采样，对前面的标记逐步减少条件提醒的影响。还采纳并行解码来缩小推理工夫。在他们的实证钻研中，Muse与各种文本到图像生成工作的风行基准模型进行了比拟。Muse 900M参数模型在CC3M数据集上实现了新的SOTA, FID评分为6.06(越低越好)，而Muse 3B参数模型在零样本COCO取得了7.88的FID评分，CLIP 分数为 0.32。 Muse展现了令人印象粗浅的无需微调的零样本编辑性能，进一步证实了解冻的大型预训练语言模型作为文本到图像生成的弱小而高效的文本编码器的后劲。这是一篇十分值得举荐的论文，并且google还为他制作了专门的网站： https://avoid.overfit.cn/post/55897da82dd241f394372fc76260320d 作者：Synced

关于机器学习:收藏丨OpenDataLab-8个新上架的超大数据集资源分享涵盖高保真3D人体重建3D车道线数据集等

OpenDataLab平台自上线以来，数据集笼罩规模曾经超过4500个，工作类型超1200个，吸引了业界敌人的宽泛关注。本文汇总了OpenDataLab平台上架的多个畛域超大规模数据集，内含来自智能数字内容、智能交通等钻研团队公布的动静4D人脸数据集、高保真合成人体数据集、多模态人体数据集、高质量物体场景数据、大规模游戏生成数据集、全新的用于测验人体新视角生成的数据集、第一个真实世界和规模最大的 3D 车道数据集等，以飨同好。 1. 数据集名称：RenFace 畛域：动静4D人脸数据集简介：RenFace是惟一的大规模全头且蕴含丰盛细粒度发型的人头数据集，同时蕴含音素平衡的话术视频。ID 数达到 500+。总采集帧数数量达到80M，视角数达到60个，图像分辨率达到2k。该数据集蕴含多人种，多年龄段，多民族被采集人，与多个高细粒度发型发色搭配，并同时对朗诵语料进行音视频采集。动静4D人脸数据集将来可利用于：2D/3D数字人脸生成、人脸重建捕获等畛域。下载链接：https://opendatalab.org.cn/OpenXD-RenFace/download2.数据集名称：Renbody畛域：动静4D⼈体数据集简介：RendBody 数据集涵盖多人种，多年龄段，多民族，多朝代及多种非凡技能的人体数据个性，是目前最大规模的高清多视角人体动作捕获数据集。该数据集ID数量达到500+，以多达60个视角、3000x4096分辨率的视频模式捕获了人体状态、动作和衣服的丰盛高清细节，并提供了齐备的数据标注和解决工具，包含人员信息、衣物类型、动作类别的手工标签，以及相机标定、前背景宰割、参数化模型等工具数据标注。动静4D人体数据集在数字人体重建、动画、生成等畛域有宽泛的利用场景。下载链接：https://opendatalab.org.cn/OpenXD-RenBody/download3.数据集名称：SynBody畛域：高保真合成人体数据集简介：SynBody数据集是大规模合成人体动态数据集，蕴含丰盛的高精度人物模型，动作序列，多样的场景，并借助UnrealEngine渲染输入高保真的视频和标注信息。SynBody在不同格调的环境中构建多人的动静场景，人物涵盖不同服装、体型、性别、年龄段的700多个人体模型数据，采纳站立、行走、奔跑、跳跃、舞蹈等丰盛的动作类型驱动人体模型，并提供了相应的SMPL/SMPLX标注。该数据集补充了学界大规模动静人体合成数据集的空缺，将反对单视角人体参数化模型预计、多视角人体参数化模型预计、人物检测宰割等多种上游工作，并有助于推动虚构数据训练方法的探索。下载链接：https://opendatalab.org.cn/OpenXD-SynBody/download4.数据集名称：OmniObject3D畛域：高质量物体场景数据简介：Object数据集将构建寰球最大的高精度实在物体3D数据集，蕴含约 6000 个实在物体扫描模型及其盘绕视频，笼罩 190 个常见静物类别，填补了学界大规模实在物品 3D 模型数据集的空缺。该数据集将反对神经渲染、外表重建、点云辨认等多种工作的泛化性和鲁棒性的钻研，并有利于搭建 2D-3D 了解和算法交融的桥梁。下载链接：https://opendatalab.org.cn/OpenXD-OmniObject3D/download5.数据集名称：HuMMan畛域：多模态人体数据集简介：HuMMan数据集是寰球最大的多模态人体数据集，蕴含1000人，500个笼罩人体次要肌肉群的动作，8种不同的模态，超过40万段视频，6000万帧数据。数据采集基于RGB-D相机及一部挪动端设施，反对动作辨认、人体参数化模型预测、人体外外表重建等相干钻研。下载链接：https://opendatalab.org.cn/OpenXD-HuMMan/download6.数据集名称：GTA-Human畛域：大规模游戏生成数据集简介：通过协同大量计算计算节点同步运行游戏Grand Theft Auto V (GTA-V)，咱们采集了GTA-Human，一个大规模数据集（2万段视频及140万帧SMPL参数标签）。除规模之外，GTA-Human利用了游戏引擎中丰盛的素材生成了多样的数据，有些数据在实在条件下是难以采集的：超过600个不同性别、年龄、种族、身型、服装的人物；2万段不同的动作序列包含各类日常流动；六种次要的地点，从城市街道到野外，提供了齐全不同的背景；每个序列的相机姿势从事实散布中采样；人与环境的交互产生了不同水平的遮挡；游戏内的工夫影响了光照条件；天气系统模拟了事实中的气象。下载链接：https://opendatalab.org.cn/OpenXD-GTA-Human/download7.数据集名称：GeneBody畛域：全新的用于测验人体新视角生成的数据集简介：GeneBody是一个全新的用于测验人体新视角生成的数据集。GeneBody提供48个视角的总共100个不同体态、衣物、外饰的表演者的370段动作序列，共295万帧图片，涵盖了从日常场景到业余场景中不同的人体动作和外观。另外数据集还提供逐帧的SMPLx预计和前景宰割。下载链接：https://opendatalab.org.cn/GeneBody/download8.数据集名称：OpenLane畛域：第一个真实世界和规模最大的 3D 车道数据集简介：OpenLane 是迄今为止第一个真实世界和规模最大的 3D 车道数据集。咱们的数据集从公共感知数据集 Waymo Open Dataset 中收集有价值的内容，并为 1000 个路段提供车道和最近门路对象（CIPO）正文。简而言之，OpenLane 领有 200K 帧和超过 880K 认真正文的车道。咱们公开公布了 OpenLane 数据集，以帮忙钻研界在 3D 感知和主动驾驶技术方面获得提高。下载链接：https://opendatalab.org.cn/OpenLane/download致谢本列表由OpenDataLab团队提供长期保护。

关于机器学习:CLIPPO纯图像的CLIP参数减半且更强大

出品人：Towhee 技术团队张晨、顾梦佳多模态模型变得越来越无效，局部起因在于对立的组件，例如 Transformer 架构。然而，多模态模型依然常常蕴含许多特定于工作和模态的局部和训练过程。例如，CLIP 通过比照损失训练独立的文本和图像塔。 CLIPPO 抉择应用比照损失进行训练，尝试应用纯像素模型来执行图像、文本和多模式工作。 CLIPPO 执行基于图像的工作，例如检索和 zero-shot图像分类，简直与 CLIP 一样好，参数数量只有一半，并且没有文本特定的塔或嵌入。当通过图像-文本比照学习和下一句比照学习联结训练时，CLIPPO 能够在自然语言了解工作上表现出色，没有任何词级损失（语言建模或掩码语言建模），优于基于像素的先前工作。令人诧异的是，CLIPPO 只需将问题和图像一起渲染，就能够在视觉问答中取得很好的准确性。因为 CLIPPO 不须要tokenizer，它能够在不批改的状况下在多语言多模态检索上实现弱小的性能。 CLIP vs. CLIPPOCLIP 在具备比照指标的图像/代替文本对上训练独自的图像和文本编码器，每个编码器都具备特定于模态的预处理和嵌入。而 CLIPPO 应用单个编码器来解决惯例图像和渲染为图像的文本。CLIPPO 通过将代替文本渲染为图像，应用共享视觉编码器（在两个独立的前向传递中）对生成的图像对进行编码，并利用与 CLIP 雷同的训练指标，来训练具备等同能力的纯像素模型。相干材料：代码地址：https://github.com/google-res...论文链接：Image-and-Language Understanding from Pixels Only

关于机器学习:297个机器学习彩图知识点9

导读本系列将继续更新20个机器学习的知识点。 1. 鞍点 2. 损失函数的饱和 3. 饱和 4. 均匀分布 5. 单位阶跃激活函数 6. 上采样 7. 验证曲线 8. 梯度隐没 9. 方差收缩因子 10. 方差 11. 方差阈值法 12. RSS 13. 值缩放 14. 随机缺失 15. 齐全随机迷失 16. 不齐全随机缺失 17. 模型复杂度 18. 模型可辨认度 19. 抉择模型 20. 动机欢送Star -> 学习目录本文由mdnice多平台公布

关于机器学习:DiTTransformers-与扩散模型强强联手

出品人：Towhee 技术团队王翔宇、顾梦佳扩散模型在图像生成畛域有着难以撼动的位置，而其通常都抉择了卷积 U-Net作为骨干模型。那么在其余畛域大杀四方的 Transformers 在扩散模型中是否还有用武之地呢？基于这一想法，DiT（Diffusion Transformer）利用transformer构造摸索了一种新的扩散模型。它不仅继承了Transformer模型类的优良扩大个性，性能还优于先前应用U-Net的模型。钻研表明，扩散模型能够胜利地用 transformer 替换 U-Net 骨干。另外，它还证实了网络复杂性与样本品质之间存在很强的相关性。通过简略地扩大 DiT 并训练具备高容量骨干的潜在扩散模型，DiT 模型能够在类条件 256 × 256 ImageNet 生成基准上实现 FID 2.27 的最新后果。The Diffusion Transformer (DiT) architecture.DiT 首先将空间示意输出通过第一层网络，将每个 patch 线性嵌入到输出中，以此将空间输出转换为一个数个 token 序列。而后，模型会将规范的基于 ViT 频率的地位嵌入利用于所有输出 token。接着，输出 token 由一系列 transformer 块解决。除了噪声图像输出之外，扩散模型有时还会解决额定的条件信息，例如噪声工夫步长、类标签、自然语言等。DiT 摸索了四种transformer 块变体，别离以不同形式解决条件输出。相干材料：代码地址：https://github.com/facebookre...论文链接：https://arxiv.org/abs/2212.09748 更多材料：https://zhuanlan.zhihu.com/p/...

关于机器学习:基于单机最高能效270亿参数GPT模型的文本生成与理解

作者：李鹏，王玮，陈嘉乐，黄松芳，黄俊单位：阿里云智能机器学习平台PAI & 达摩院自然语言根底技术概述GPT模型能较好的解决文本生成畛域的各种工作，比方文本补全，自在问答，完形填空，写作文，写摘要，写小说，写诗歌等等。最近火爆全网的人工智能产品ChatGPT也是以GPT文本生成模型为底座。尽管GPT大模型作用在这些应用领域的成果很好，然而训练老本十分高。以OpenAI推出的1750亿的GPT-3为例，在1024张A100GPU上预估须要34天，一万亿参数的GPT-3在3072张A100显卡上也至多须要84天；微软/英伟达联合推出的5300亿的NLG模型，在2048张A100显卡上耗时了3个月的训练工夫能力达到比拟好的收敛成果。针对GPT根底模型参数量大，训练&推理硬件资源耗费过低等问题，基于MoE的稠密化训练是目前最具竞争力的降本增效路径。MoE的全称是Mixture of Experts，其中的Expert对应的是Transfomrer模型的MLP层，在训练的时候从多个MLP中选取一个MLP进行激活（如下图所示）。这意味着模型能够在不减少计算强度（FLOPS/Bytes）的状况下，通过减少MLP模块的数量来减少模型参数量级，进而晋升模型在上游工作上的泛化性能。采纳MoE后的稠密Transformer模型和等同品质（验证集loss以及zeroshot nlu上游工作性能）的浓密模型相比有将近1.2倍的训练吞吐性能晋升，1.3倍的推理吞吐性能晋升。咱们在稠密架构总体设计的时候，抉择让MoE跟纯Transformer Decoder架构的GPT进行有机联合。起因是MoE跟Decoder联合成果通常会好于跟Encoder的联合成果。具体来讲，Encoder是通过随机masking的形式学习语言模型，而这种被随机masked的token会让expert的路由抉择呈现不平衡。另一方面，思考到Decoder类的GPT模型比Encoder类的Bert模型有更宽泛应用场景，因而咱们采纳GPT+MoE的技术架构路线，摸索单机最高能效的绿色低碳GPT大模型训练&推理软硬一体化适配技术在中文文本生成场景的落地可行性。基于以后比拟成熟的分布式MoE专家路由抉择技术，采纳Switch Transformer[2]中的top-1路由机制。每个Expert依据如下的softmax函数被赋予一个概率值，取概率最高（top-1）的那个Expert当作网络的FFN层。其中W_r是做路由抉择时须要学习的参数。 GPT-MoE训练&推理能效剖析根底预训练模型训练&推理性能剖析任何一种浓密（Dense）的GPT模型，都有一种成果与之对应的训练&推理速度更快的稠密（MoE）GPT模型。咱们的指标是在受限硬件比方单机条件下找到这种GPT-MoE模型配置，而后通过对MoE算法进行改良来进一步晋升它的训练能效。咱们通过比照浓密&稠密模型的训练&推理性能，来发现与浓密模型等价的高能效稠密模型。 8种GPT模型的参数量，模型构造，训练超参数如下表所示：如下图所示，1.3B+MoE32/64模型在雷同的step下比照1.3B dense体现出更低的验证集loss，其中1.3B+MoE-64模型的loss甚至低于2.7B dense模型 5个模型中，0.35B+MoE-64的训练吞吐速度最快，是其余模型的2倍左右。其余四个模型中，吞吐速度较高的是1.3B dense和1.3B+MoE-32，1.3B+MoE-64和2.7B dense的速度相近。如下图所示： ![]() 推理吞吐速度方面，1.3B Dense的显存耗费起码，0.35B+MoE64的提早最低。 input_len = 20 output_len = 128 batch_size = 1 通过以上的图表剖析，咱们能大抵判断出2.7B-Dense模型对应的高能效的稠密模型是以1.3B的dense模型为底座，同时配置32或者64个专家的MoE模型。上面咱们重点剖析下1.3B+MoE-32/64和2.7B dense模型的性价比。在单机A100上预训练200个小时后，借助Tensorboard画出预训练验证集loss曲线。咱们发现在验证集loss达到2.16时，1.3B+MoE-64模型的收敛速度是2.7B dense的1.17，1.3B+MoE-32的收敛速度落后于2.7B dense模型15%，如下图所示：从下图中的基于Faster Transformer的单级单卡推理性能上看。1.3B+MoE-32和1.3B+MoE64的吞吐速度差不多且都高于2.6B dense模型，这是合乎预期的，因为他们的底座大小都只有1.3B。 ![]() 中文ZeroShot-NLU成果评测中文文本生成成果评测文本补全诗歌生成在线体验地址：https://www.modelscope.cn/models/PAI/nlp_gpt3_text-generation_0.35B_MoE-64/summary 广告文案生成在线体验地址：https://www.modelscope.cn/models/PAI/nlp_gpt3_text-generation_1.3B_MoE-32/summary 输出prompt类型#裙色彩#红色格调#清爽图案#刺绣裙下摆#花边裙长#连衣裙裙领型#v领*裙样式#抽褶类型#裤*材质#羊毛达摩院 1.3B Dense (51200)这款连衣裙采纳了清爽的红色调,给人一种清新的感觉,同时,还带来了清新的视觉感。裙身上的刺绣图案,粗劣好看,尽显浪漫的气味。而v领的设计,则为其削减了几分优雅的气味。再加上褶皱的裙摆,更是削减了灵动的感觉。这款羊毛裤,采纳了羊毛的材质,手感柔软,衣着舒服,且不易变形,且不易变形,耐穿性强。裤子的版型是有点微微的,能够很好的润饰腿型,拉长腿部比例,显得腿部更加修长。达摩院 2.7B Dense (51200)连衣裙是每个女们的必备,这款连衣裙采纳了清爽的绿色调,带来一种清爽淡淡雅的气质,同时也带来清爽的视觉效果。v领的设计,更能衬托出柔美的天鹅颈,还能够很好的润饰脸型和脸型,更好的展现出女性的柔美。>裙子上的花朵刺绣花边装璜,更具时尚气味,更是让人眼前一亮。针织衫采纳优质的纯棉,手感柔软,衣着舒服透气,穿上身不勒身形。裤身采纳了弹力的针织面料,手感舒服,衣着舒服亲肤。裤腿处的侧边采纳的闭口设计,不仅能够起到润饰腿部的作用,又可能更加的显腿长,同时也能让你轻松领有型。PAI 0.35B+MoE-64 (70k)这款连衣裙采纳了清爽的红色调,搭配粗劣的刺绣花边,尽显甘甜气质。v领的设计,润饰脸型,衬托出粗劣的脸庞。褶皱花边的袖口,更显甘甜气质。这款裤子采纳了羊毛的面料,具备较好的弹性和透气性,衣着起来舒服。裤子的版型设计,可能很好的润饰腿型,让你看起来更加的修长。裤子的版型设计,可能很好的润饰腿型,让你的腿部看起来更加的修长。PAI 1.3B+MoE-32 (70k)这一款碎花连衣裙采纳了粗劣的刺绣花朵,清爽的气味。清爽的花边,更加的清新鲜,让你在春节令的感觉。经典百搭的一款针织衫,在视觉上的设计,让你的同时也很好的穿搭。这款牛仔裤子的裤子采纳了通过的设计,更是很好的润饰身材的腿型,衣着舒服又不紧。PAI 1.3B+MoE-64 (70k)清爽的粉红色连衣裙,穿上身后可能衬托出女性的柔美。领口处采纳的是花边的设计,让整体的层次感更加的粗劣,更能凸显甘甜。圆领的领口设计,更加的润饰脸型,更显粗劣,而且不挑人的脸蛋糕裙摆,更能凸显女性的粗劣魅力这款裤子的版型设计,能够说是腿部的地位,能够很好的拉长了身材比例,而且不会有紧绷的成果,让人看起来更加的有型。而且有着很高的剪裁设计,可能很好的润饰腿型,还能很好的遮肉,让腿部的肉肉,还能很好的展示你的腿部的曲线。作文生成在线体验地址：https://www.modelscope.cn/models/PAI/nlp_gpt3_text-generation_1.3B_MoE-64/summary 输出prompt信赖老板商店还给气喘吁吁漂亮成为事实忘不了真切达摩院 1.3B Dense (51200)回到家,我和老妈气喘吁吁地赶到左近的小店去买了一张贺卡。我把写得一片“对联”的纸贴在“商店”的墙上,还给老板20元钱。老板还给我做了一个“会飞”的邮局董事长呢!我还在纸上写了一些祝福语。老板还夸我是一个诚恳的好孩子呢!最初,我还当上了董事谁不曾有过那种梦呢?谁不曾有过那种漂亮,让人向往的漂亮呢?当你忘不了那些令人向往的梦时,那是一种如许引诱而又漂亮的梦啊!在那里人们能够大肆的沉醉一番,而在那里人们也能够过目不忘,可为什么呢?梦总是那么深远大,而又有多远大的吸引力。达摩院 2.7B Dense (51200)回到家,我急不可待地把这件事说给了他们,他们听,我刚说完还打动万分,立即向商店去买了盒方便面。谁知>商店里的老板娘火冒三丈,拿起了那盒快就筹备好的方便面。“还给?”我急得心都快跳了进去。这时,走进商店,妈妈拿起一件外套心仪已是生了。谁不曾有过那样的梦呢?谁不曾有过那样的现实呢?这毕竟是过来,而未来又会成为事实,忘不了的事,成为记忆中的一页记忆。这其中当然蕴含了许多情理,也有很多无奈用言的货色,但它们都会成为我心中最漂亮的梦幻,我迷恋着漂亮而令我向往的梦!PAI 0.35B+MoE-64 (70k)回到家,我把我做的手工事如数家珍地通知了他,老板气喘吁吁地说:“你怎么能够这样做!你这样做是不对的,咱们应该把你的信赖还给你,你看行不行?”听完后,我心情舒畅多了,心想:我当前做事肯定要仔细。于是,我便把信赖还给店里,到了商店,把我买下的信谁不曾有过漂亮的梦?谁不曾有过梦的历险?谁不曾有过漂亮的梦?谁不曾有过梦的迷茫?谁都不曾有过梦的真切?我忘不了我的梦,我的梦是成为一名画家;我忘不了我平凡的梦:成为一名作家;我忘不了我的梦是成为一名画家;我更忘不了我的漂亮中国PAI 1.3B+MoE-32 (70k)回到家,我便气喘吁吁地冲到商店,把钱还给老板说:“老板,你,你,我说话算数,还剩15元钱,够本就行了!”老板依然不信赖我,问道:“怎么回事?”“把钱拿去还给老板。”我只好硬着头皮罢了。谁不曾有过这样的梦呢?仿佛很真切,让人忘不了,也很难设想;仿佛很难设想,但它究竟是事实,梦究竟是漂亮的, 即便梦不是设想,它究竟是真切,因为漂亮的事物总有被咱们疏忽的一面而不被咱们疏忽存而已。梦永远在身边,却不在身边,只有随心走PAI 1.3B+MoE-64 (70k)回到家,老板气喘吁吁地说:“我还给你买了一件衣服,你快去商店给老板买一件衣服吧!我还给你买了一件衣服,你快去商店吧!”老板还不停地点着头。老板不信赖他,他就把钱还给了老板。谁不曾有过那种梦呢?我想,那肯定是漂亮的梦,可是事实却真切的梦,成为了事实中实在的梦,让人难以忘却。我想,这就是我梦中的漂亮梦。我的梦,成真而又实在的梦,让人忘不了。自研GPT-MoE算法翻新&试验剖析背景Top-1 Gating 是目前最支流也最无效的 Routing 算法，然而也有着显著的毛病。例如，在 Top-1 Gating 中，每一个 Token 仅会被交给一个 expert 解决，因而，时常会呈现某些 expert 须要解决很多 token，而有些 expert 仅需解决极少数量的 token 的状况，这导致解决极少 token 的 expert 无奈取得足够多的信息，无奈失去充沛的利用。 ...

关于机器学习:使用英特尔-Sapphire-Rapids-加速-PyTorch-Transformers-模型

大概一年以前，咱们展现了如何在第三代英特尔至强可扩大 CPU (即 Ice Lake) 集群上分布式训练 Hugging Face transformers 模型。最近，英特尔公布了代号为 Sapphire Rapids 的第四代至强可扩大 CPU，该 CPU 蕴含了令人兴奋的深度学习减速新指令。通过本文，你将会学到如何在一个 AWS Sapphire Rapids 集群上减速一个 PyTorch 训练任务。咱们会应用英特尔 oneAPI 汇合通信库 (oneAPI Collective Communications Library, oneCCL) 来分布式化训练任务，并应用英特尔 PyTorch 扩大库 (Intel Extension for PyTorch，IPEX) 来主动应用新指令进行性能优化。因为这两个库均已集成入 Hugging Face transformers 库，咱们可能做到在不批改一行代码的前提下开箱即用地运行咱们的示例代码。在随后的另一篇文章里，咱们还会探讨如何应用 Sapphire Rapids CPU 进行推理及其性能晋升。为何你应该思考在 CPU 上训练在英特尔至强 CPU 上训练一个深度学习模型是一个性价比高且可扩大的计划，在应用分布式训练或者在小数据集或中等数据集上微调模型时尤其如此。至强 CPU 反对一些先进的个性，如 512 位先进矢量扩大 (Advanced Vector Extensions，AVX-512) 以及超线程 (Hyper-Threading) ，这些个性进步了深度学习模型的并行性和效率，使得咱们能够在失去更好的硬件资源使用率的同时训练得更快。另外，一般而言，相比用于训练大型深度学习模型的专门硬件如 GPU 等而言，至强 CPU 更便宜和易得。至强 CPU 还更容易用于其余生产工作，从网络服务到数据库不一而足，这使得它们成为 IT 基础设施的一个万用且灵便的抉择。 ...

关于机器学习:直播回顾-这场直播回答了手机银行人机验证的必要性和可行性原创

人机验证作为手机银行验证体系中重要的一环，其验证码的安全性以及用户体验成为了次要考验。12 月22 日，顶象资深解决方案专家鳯羽就手机银行的人机验证解决方案讲起，从人机验证需要的诞生、验证码的倒退演变、手机银行验证码降级的必要性等方面为大家深度分析了手机银行人机验证的最优解决方案。人机验证需要的诞生家喻户晓，验证码的呈现是为了反抗机器流量。但近几年，随着黑灰产逐步走向专业化、规模化，且有明确的分工配合，其从业人数超千万人，每年给整个行业带来的损失是微小的，数据泄露问题成为高危问题。而从整体数据来看，寰球机器流量攻打不降反升，只管寰球机器攻击行为通过多年的反抗与治理，但不可否认，机器流量目前依然占据互联网流量中的较大局部，超过40%的流量是机器行为，其中歹意流量超过总流量1/4。零碎层面的机器攻打反抗能力曾经遇到瓶颈，无奈在不影响业务的状况下进一步晋升拦挡效率。为了解决机器流量，验证码正式诞生。验证码的价值次要体现在以下三方面：一是真人辨认。真人辨认的利用次要呈现在网站平台或App的注册、登录界面,用于判断操作者是真人还是机器程序。次要是通过辨认、输出辨别出操作者的真伪。真人辨认是验证码呈现的初衷,也是验证码的首要价值。二是平安预警。平安预警的利用次要呈现在账号遭逢危险时,例如账号异地登录、更换登录设施、遭逢暴力破解、遭逢陌生人登录时。次要是基于操作者既往的行为、环境、设施等信息,与最新的操作行为进行比对,从而核验该敏感操作是否账户持有人所为。三是身份核验。身份核验的利用次要呈现在账户登录状态下,操作者在服务申请、重要信息发送、隐衷信息批改等界面,用于核实账号操作者是否是账户持有者。次要是基于账户预留信息与操作者提交信息比对,从而实现操作者的身份进行二次核验或确认。验证码自诞生以来，先后经验了从文字验证码到图形验证码再到行为验证码的迭代过程。目前仍有不少企业仍采纳第一代传统图形化验证码来应答黑灰产的批量机器攻击行为，然而以后的技术水平下针对传统图形化验证码的自动化辨认曾经十分成熟，并且有丰盛的配套黑灰产辨认脚本软件做反对，导致传统字符验证码并没有起到料想的防控成果，也不具备良好的用户体验不符合国家适老化的要求。此外，据CNNC第48次中国互联网网络倒退情况统计报告显示，截止到2021年6月，60岁以上的网民占比曾经达到了12.2%。较2020年的六月份增长了1.9个百分点，也就是说随着老年群体规模的不断扩大，老年人在网民中的占比将进一步的进步。简言之，网民的增长主体由青年群体向未成年人和老年人群体转化的趋势是非常明显的。另一方面，越来越多的老年人退出网民大军，他们在享受数字业务带来的生存便当的同时，越来越多的公共服务也从线下搬到了线上，那么老年人无障碍纯熟应用的公共服务提出了更高的要求。而传统的验证码因其复杂程度曾经无奈满足老年人的需要。因而，适老化问题成为当下验证码亟待解决的问题。并且目前国家也在全国范畴内踊跃的推动适老化和无障碍革新专项口头，这也迫使的验证码一直的更新迭代。能够看到，验证码从最后的图文验证码倒退到行为验证码再到智能验证码，经验了先后四次迭代，一直晋升验证码的破解难度以及用户体验。手机银行为什么要降级验证码？手机银行作为人机验证的重要环节，在很多业务中都有它的身影，验证的品种和模式也十分多。比如说，针对反欺诈危险去做验证，其目标就是去做真人辨认，验证是否是实在的用户在进行操作，验证的形式能够通过名单验证、人机验证。名单验证次要是通过手机号和IP黑名单这些支流的数据名单做验证。人机验证则是通过验证码去做验证。对于验证的形式，可能有传统的密钥验证、手机验证、动静验证码、人机验证、三方的受权验证、生物验证等等，这些不同的验证形式之间也并没有相互代替的关系，在不同的业务场景有不同的危险，不同的用户体验。此外，以后还是有很多银行还在应用传统的验证码，正如前文所说，传统验证码存在诸多弊病，容易被破解，也不合乎无障碍适老化的需要随着挪动互联网的高速倒退，业务平安畛域的攻防反抗也越来越强烈，而验证码往往是最容易被疏忽的环节，因而也成为了黑灰产的首要指标。诸如羊毛党刷单、主动注册机、撞库等歹意行为层出不穷。整体来看，验证码可能带给企业业务的收益是十分大的。首先，验证码实用于多个业务场景，可在账户内场景下应用，比如说登录页面、注册页面、流动场景（积分、优惠券、红包）、辅助校验类场景等等，能够其到防爆破、防模仿等等具备高频机器特色的场景中去。其次，验证码对于业务带来的收益是非常显著的。包含简化屡次发送短信弹图片验证的代码、.防短信轰炸，灵便调整认证等级，全局管制验证码展现及强度，升高危险、可将长期保持脚本登录状态的用户过滤，增强登录态刷新的安全性、代码更简略、加强用户感知、安全性更高、可实现积分抽奖中原通过缓存实现的屡次抽奖管制，更牢靠、微信手机验证码中减少无感，可简化原发送次数代码，并使业务逻辑更清晰。更为重要的是，对于机器流量的防备，验证码是同类产品中影响最小、效率最高的。但正是因为其绝对简略的产品个性，很多企业都漠视了它的重要性，老式验证码不仅没有解决平安问题，还给用户带来了业务体验上的降落。反之，关注用户体验的业务能力播种更多用户，正所谓不积跬步，无以至千里。不积小流，无以成江海。对于金融行业来说，监管始终都是一把利剑。2020年2月，中国人民银行正式公布JR/T0068-2020《网上银行零碎信息安全通用标准》对网上银行验证码提出了具体要求。要求网上银行的验证码应随机产生，采取图片底纹烦扰、色彩变换、设置非连续性及旋转图片字体、变异字体显示款式、交互式认证等无效形式，避免验证码被自动识别。验证码应具备应用工夫限度并仅能应用一次。同年3月，中国人民银行公布《挪动金融客户端应用软件平安治理标准》，要求各金融机构增强客户端软件设计、开发、公布、保护等环节的平安治理，构建笼罩全生命周期的管理机制，切实保障客户端软件平安。其中，在身份认证平安中强调，若采纳图形验证码作为验证的辅助因素，图形验证码应具备应用工夫限度并仅能应用一次，图形验证码应由服务器生成，客户端源文件中不应蕴含图形验证码文本内容。不难看出监管对于金融业无障碍适老化的要求，这些都促使手机银行的验证码的一直降级迭代。手机银行人机验证的最优解决方案那么，对于手机银行而言，最优的人机验证解决方案应该是怎么的？它须要具备哪些特点呢？首先，验证码曾经不单单是一个验证产品，除了其自身赋予的平安能力，咱们也能够实现对验证码赋能。比方顶象的进攻云。在这个根底上，顶象推出了第五代智能验证码。新一代智能验证码联合了设施指纹、行为特色、拜访频率、地理位置等多项信息，无效的拦挡歹意登录、批量注册，阻断机器操作，拦挡非正常用户，较传统验证码相比，用户无需再通过思考或输出操作，只需微微一滑即可进行验证。通过智能甄别为失常的用户，在肯定工夫内无需再进行滑动操作，既为银行提供了平安保障也让用户无感知通过，极大晋升金融用户的用户体验。同时，可提供13种验证形式，蕴含12种不同模式的视觉验证和11种面向老年人及残障人士的语音验证，并将继续钻研拓展降级。并且能够依据企业格调针对性定制专属皮肤，适配手机暗黑模式。充沛响应国家适老化无障碍的要求，将体验蹩脚的传统字符验证码进行降级替换为更容易被用户承受的滑块验证，并反对配适合老化工具或浏览器进行对立放大；除基于视觉的滑块验证外，提供基于不同感官的验证形式，满足老年人和残障人士在不同场景上应用时的优化诉求；反对通过内置的专家策略面向开启无障碍模式的用户，能够前端齐全不弹出验证码，满足了适老化人群的应用要求，极大了晋升了用户体验。另外，验证码产品自身须要有多层防控的可信链路，让破解难上加难。与此同时，顶象智能验证码内置专家规定和训练的人机模型，笼罩危险点，波及设施信息篡改、异样轨迹、异样关联、核验信息不统一等多个方面。在设施维度，咱们会去测验设施指纹合法性，IP的危险异样，设施的检测浏览器的UA是否统一，分辨率是否统一，有没有篡等。在验证环节，咱们会通过人机模型去做轨迹模型的检测，轨迹耗时的检测，异样轨迹的检测等，而后会去检测行为以及业务侧的行为特色等，可能实现毫秒级匹配危险特色。作为进攻云的一部分，顶象智能验证码更像是一套微型的决策引擎风控系统，领有5903个模型策略、8859条规定，笼罩大多数金融业务场景，防控精准度大于99.9%。一套欠缺的监控体系能够让危险透明化啊，也就是说咱们看到的不仅仅只是一个验证行为的胜利与失败，咱们还可能看到它的一些业务参数、用户的user ID、申请IP、IP归属地、指纹、整个验证的详情，验证耗时等都能够从日志中去看到啊，不仅能够通过这套监控体系去监控验证方面的危险，还能够从日志中去看出验证形式进而优化验证策略，帮忙推动业务。正所谓，知己知彼方能屡战屡败，一套残缺的业务情报可能帮忙企业及时感知危险、进攻危险。最初，一整套高可用的零碎架构可能保障咱们的业务在大并发状况下，那个整个零碎不出问题，可能保障咱们的业务失常运作。最初再给大家简略介绍下顶象业务平安大讲堂。顶象业务平安大讲堂会集了业内大咖，分享万亿级业务平安攻防教训，打造时下最业余的业务平安直播课，通过“技术+计划+实际”三大外围专题，带您全面理解金融、互联网、航旅出行、跨境电商以及目前大热的NFT等各类业务危险及防备伎俩，深刻解析背地的产品技术，抽丝剥茧攻防实战，助您打造零危险的数字业务。下期课程将顶象技术总监大卫老师给大家带来《业务平安平台外围模块技术解析-验证码》的主题演讲，敬请期待！增加“顶象小助手”入群，与各路专家共话平安，更有丰富福利和最新平安情报。

关于机器学习:2023年AI十大展望GPT4领衔大模型变革谷歌拉响警报训练数据告急

新年伊始，大模型的话题热度不减。2022 年 11 月底，ChatGPT展示的惊人能力将大模型钻研和利用热度推向低潮，人们强烈探讨着这个高级“物种”的推出意味着什么，比方是否会颠覆搜索引擎市场格局。踏入 2023 年，这不禁让咱们对 GPT-4 的公布充斥遥想，它会比 ChatGPT 更上一层楼吗？会有哪些不一样的惊喜？岁末年初之际，科技圈的年度盘点举不胜举，相干技术预测倒是不多。本文作者 Rob Toews 公布了 2023 年 AI 倒退的十大预测，整体来看，大部分预测都离不开“大模型”这个关键词，具体分析也有其情理。当然，其中的文生图、人形机器人等畛域的倒退也无足轻重。2023，让咱们刮目相待。作者｜Rob Toews 翻译｜杨婷、徐佳渝 1. 重磅事件：GPT-4 将在年初公布GPT-4 是 OpenAI 的新一代生成语言模型，它有着弱小的性能，最近到处流传着它的音讯。 GPT-4 预计将在 2023 年年初公布，相较于 GPT-3 和 3.5，GPT-4 的性能有着跳跃式的晋升。只管最近无关 ChatGPT 的探讨正在炽热朝天地进行，但相比 GPT-4，这只是前奏而已，让咱们刮目相待！ GPT-4 会是什么样子的呢？与人们的直觉不同，咱们预测它不会比其前身 GPT-3 大太多。在往年早些时候发表的一篇有影响力的钻研论文（https://arxiv.org/pdf/2203.15...）中，DeepMind 钻研人员称当初的大型语言模型实际上比原本应该有的大小还要大。为了能在给定的无限计算估算中获得最佳模型性能，当初的模型应该用更少的参数在更大的数据集上进行训练。也就是说，训练数据比模型大小重要。当今大多数次要语言模型都是在约 3000 亿个 token 的数据语料库上训练的，比如说 OpenAI 的 GPT-3（1750 亿个参数）、AI21 Labs 的 Jurassic（1780 亿个参数）和微软/英伟达的 Megatron-Turing（5700 亿个参数）。咱们预测，GPT-4 的数据集要比下面提到的大一个数量级，也就是说它可能在 10 万亿个 token 的数据集上进行训练。同时它的参数将比 Megatron-Turing 的要少。据说，GPT-4 有可能是多模态的，除文本生成之外，它还能够生成图片、视频以及其余数据类型的输出。这意味着 GPT-4 可能像 DALL-E 一样依据输出的文本提醒词（prompt）生成图像，或者是能够输出视频而后通过文本的模式答复问题。 ...

关于机器学习:机器学习10大经典算法详解

“数据+算法=模型”。面对具体的问题，抉择切合问题的模型进行求解非常重要。有教训的数据科学家依据日常算法的积攒，往往能在最短时间内抉择更适宜该问题的算法，因而构建的模型往往更精确高效。本文演绎了机器学习的10大算法，并别离整顿了各算法的优缺点及次要特色，供大家学习参考。读完本文，你将把握以下机器学习10大算法的基本概念及次要实用状况，是机器学习过程不可错过的根底概念篇。本文涵盖的机器学习畛域10大算法包含： ·决策树算法 ·奢侈贝叶斯算法 ·K最近邻算法 ·AdaBoost算法 ·PageRank算法 ·EM算法(冀望最大化算法) ·Apriori算法 ·SVM算法 ·K均值聚类算法 ·线性回归算法Linear Regression 上面咱们将具体开展介绍。 1.决策树算法决策树，是一个相似于流程图的树形构造，树外部的每一个节点代表的是对一个特色的测试，树的分支代表该特色的每一个测试后果，而树的每一个叶子节点代表一个类别。树的最高层就是根节点。决策树的生成过程次要分为以下3个局部： 1.特征选择: 特征选择是指从训练数据中泛滥的特色中抉择一个特色作为以后节点的决裂规范，如何抉择特色有着很多不同量化评估规范规范，从而衍生出不同的决策树算法。 2.决策树生成: 依据抉择的特色评估规范，从上至下递归地生成子节点，直到数据集不可分则进行决策树进行成长。树结构来说，递归结构是最容易了解的形式 3.剪枝: 决策树容易过拟合，个别来须要剪枝，放大树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。树模型和线性模型之间的区别树形模型是一个一个特色进行解决，线性模型是所有特色给予权重相加失去一个新的值。决策树与逻辑回归的分类区别也在于此，逻辑回归是将所有特色变换为概率后，通过大于某一概率闻值的划分为一类，小于某一概率闻值的为另一类，而决策树是对每一个特色做一个划分。另外逻辑回归只能找到线性宰割(输出特色x与logit之间是线性的，除非对x进行多维映射)，而决策树能够找到非线性宰割。而树形模型更加靠近人的思维形式，能够产生可视化的分类规定，产生的模型具备可解释性(能够抽取规定)。树模型拟合进去的函数其实是分区间的阶梯函数。算法长处： ·学习以及预测的速度都十分快； ·并且树模型实用于各种各样的问题，不须要对数据进行任何非凡的解决。算法毛病： ·对连续性的字段比拟难预测。 ·容易呈现过拟合。 ·对于各类别样本数量不统一的数据，在决策树当中，信息增益的后果偏差于那些具备更多数值的特色。决策树的典型算法包含ID3，C4.5，CART等，上面重点介绍一下C4.5和CART。 C4.5 国内权威的学术组织，数据挖掘国内会议ICDM （the IEEE International Conference on Data Mining）在2006年12月评比出了数据挖掘畛域的十大经典算法中，C4.5算法排名第一。C4.5算法是机器学习算法中的一种分类决策树算法,其外围算法是ID3算法。 C4.5算法继承了ID3算法的长处，并在以下几方面对ID3算法进行了改良：1)用信息增益率来抉择属性，克服了用信息增益抉择属性时偏差抉择取值多的属性的有余； 2)在树结构过程中进行剪枝； 3)可能实现对间断属性的离散化解决； 4)可能对不残缺数据进行解决。 C4.5算法有如下长处：产生的分类规定易于了解，准确率较高。其毛病是：在结构树的过程中，须要对数据集进行屡次的程序扫描和排序，因此导致算法的低效。 CART CART（ClassificaTIon andRegression Tree）分类回归树是一种决策树构建算法。不同于ID3与C4．5，CART为一种二分决策树，是满二叉树。CART算法由Breiman等人在 1984 年提出，它采纳与传统统计学齐全不同的形式构建预测准则，它是以二叉树的模式给出，易于了解、应用和解释。 CART是在给定输出随机变量X条件下输入随机变量Y的条件概率分布的学习办法。CART假如决策树是二叉树，外部结点特色的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特色，将输出空间即特色空间划分为无限个单元，并在这些单元上确定预测的概率分布，也就是在输出给定的条件下输入的条件概率分布。 CART算法既能够解决离散型问题，也能够解决连续型问题。这种算法在解决连续型问题时，次要通过应用二元切分来解决连续型变量，即特征值大于某个给定的值就走左子树，或者就走右子树。 CART长处： ·能够生成能够了解的规定； ·计算量相对来说不是很大； ·能够解决间断和品种字段； ·决策树能够清晰的显示哪些字段比拟重要。 CART毛病： ·对连续性的字段比拟难预测； ·对有工夫程序的数据，须要很多预处理的工作； ·当类别太多时，谬误可能就会减少的比拟快； ·个别的算法分类的时候，只是依据一个字段来分类。 2.奢侈贝叶斯算法贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为根底，故统称为贝叶斯分类。而奢侈贝叶斯（Naive Bayes）分类是贝叶斯分类中最简略，也是常见的一种分类办法。 ...

关于机器学习:模型性能分析ROC-分析和-AUC

本文将介绍模型性能剖析的两个办法：ROC & AUC。 ROC 剖析和曲线下面积 (AUC) 是数据迷信中宽泛应用的工具，借鉴了信号处理，用于评估不同参数化下模型的品质，或比拟两个或多个模型的性能。传统的性能指标，如准确率和召回率，在很大水平上依赖于正样本的察看。因而，ROC 和 AUC 应用真阳性率和假阳性率来评估品质，同时思考到侧面和负面察看后果。从合成问题到应用机器学习解决问题的过程有多个步骤。它波及数据收集、清理和特色工程、构建模型，最初是，评估模型性能。当您评估模型的品质时，通常会应用精度和召回率等指标，也别离称为数据挖掘畛域的置信度和灵敏度。这些指标将预测值与通常来自保留集的理论察看值进行比拟，应用混同矩阵进行可视化。让咱们首先关注精度，也称为阳性预测值。应用混同矩阵，您能够将 Precision 构建为所有实在阳性与所有预测阳性的比率。召回率，也称为真阳性率，示意真阳性与察看到的和预测的所有阳性的比率。应用混同矩阵中的不同察看集来形容 Precision 和 Recall，您能够开始理解这些指标如何提供模型性能的视图。值得注意的是 Precision 和 Recall 只关注正例和预测，而不思考任何负例。此外，他们不会将模型的性能与中值场景进行比拟，中值场景只是随机猜想。 1. ROC 曲线ROC 作为汇总工具，用于可视化 Precision 和 Recall 之间的衡量。ROC 剖析应用 ROC 曲线来确定二进制信号的值有多少被噪声污染，即随机性。它为间断预测器提供了一系列操作点的灵敏度和特异性摘要。ROC 曲线是通过绘制 x 轴上的假阳性率与 y 轴上的真阳性率来取得的。因为真阳性率是检测信号的概率，而假阳性率是误报的概率，因而 ROC 剖析也宽泛用于医学钻研，以确定牢靠地检测疾病或其余行为的阈值。一个完满的模型将具备等于 1 的误报率和真阳性率，因而它将是 ROC 图左上角的单个操作点。而最差的可能模型将在 ROC 图的左下角有一个繁多的操作点，其中误报率等于 1，真阳性率等于 0。随机猜想模型有 50% 的机会正确预测后果，因而假阳性率将始终等于真阳性率。这就是为什么图中有一条对角线，代表检测信号与噪声的概率为 50/50。 2. AUC 面积要全面剖析 ROC 曲线并将模型的性能与其余几个模型进行比拟，您实际上须要计算曲线下面积 (AUC)，在文献中也称为 c 统计量。曲线下面积 (AUC) 的值介于 0 和 1 之间，因为曲线绘制在 1x1 网格上，并且与信号实践平行，它是信号可检测性的度量。 ...

关于机器学习:2022年最有开创性的10篇AI论文总结

2022年随着聊天GPT和Mid - journey和Dall-E等图像生成器的风行，咱们看到了整个人工智能畛域的重大进展。在人工智能和计算机科学的时代，这是令人振奋的一年。本文咱们总结了在2022年发表的最具开创性的10篇论文，无论如何你都应该看看。 1、Alpha Tensor: Discovering faster matrix multiplication algorithms with reinforcement learningFawzi, A., Balog, M., Huang, A. et al. Discovering faster matrix multiplication algorithms with reinforcement learning. Nature 610, 47–53 (2022). DeepMind 的钻研人员开发了一种称为 AlphaTensor 的深度强化学习办法，用于发现高效且精确的矩阵乘法算法。矩阵乘法是一种宽泛用于各种零碎的根底计算，包含神经网络和科学计算例程。AlphaTensor 可能发现在许多状况下优于以后最先进技术的算法，包含在应用无限域的 4x4 矩阵乘法方面获得的突破性成就。AlphaTensor 的灵活性还通过其发现结构化矩阵乘法算法和针对特定硬件优化矩阵乘法的能力失去证实。AlphaTensor 的潜在利用从矩阵乘法扩大到其余根本计算工作，展现了应用人工智能 (AI) 领导算法发现的后劲。该钻研还表明，人工智能可用于解决数学和跨迷信畛域的重要挑战。 AlphaTesor 的里程碑标记着计算效率的重要性。随着人工智能 (AI) 和数据中心的应用减少，思考对环境的影响并确保以可继续和负责任的形式开发和应用人工智能十分重要。随着世界越来越多地转向碳中和社会，咱们须要缩小人工智能零碎的能源消耗和碳排放。 2、Stable Diffusion: High-resolution image synthesis with latent diffusion modelsRombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695). ...

关于机器学习:Pandas处理大数据的性能优化技巧

Pandas是Python中最驰名的数据分析工具。在解决数据集时，每个人都会应用到它。然而随着数据大小的减少，执行某些操作的某些办法会比其余办法破费更长的工夫。所以理解和应用更快的办法十分重要，特地是在大型数据集中，本文将介绍一些应用Pandas解决大数据时的技巧，心愿对你有所帮忙数据生成为了不便介绍，咱们生成一些数据作为演示，faker是一个生成假数据的Python包。这里咱们间接应用它 import random from faker import Faker fake = Faker() car_brands = ["Audi","Bmw","Jaguar","Fiat","Mercedes","Nissan","Porsche","Toyota", None] tv_brands = ["Beko", "Lg", "Panasonic", "Samsung", "Sony"] def generate_record(): """ generates a fake row """ cid = fake.bothify(text='CID-###') name = fake.name() age=fake.random_number(digits=2) city = fake.city() plate = fake.license_plate() job = fake.job() company = fake.company() employed = fake.boolean(chance_of_getting_true=75) social_security = fake.boolean(chance_of_getting_true=90) healthcare = fake.boolean(chance_of_getting_true=95) iban = fake.iban() salary = fake.random_int(min=0, max=99999) car = random.choice(car_brands) tv = random.choice(tv_brands) record = [cid, name, age, city, plate, job, company, employed, social_security, healthcare, iban, salary, car, tv] return record record = generate_record() print(record) """ ['CID-753', 'Kristy Terry', 5877566, 'North Jessicaborough', '988 XEE', 'Engineer, control and instrumentation', 'Braun, Robinson and Shaw', True, True, True, 'GB57VOOS96765461230455', 27109, 'Bmw', 'Beko'] """咱们创立了一个100万行的DF。 ...

关于机器学习:数据分析5个数据相关性指标

1. 介绍相似性度量是许多数据分析和机器学习工作中的重要工具，使咱们可能比拟和评估不同数据片段之间的相似性。有许多不同的指标可用，每个指标各有利弊，实用于不同的数据类型和工作。本文将探讨一些最常见的相似性指标并比拟它们的优缺点。通过理解这些指标的特点和局限性，咱们能够抉择最适宜咱们特定需要的指标，并确保后果的准确性和相关性。 2. 指标2.1. 欧几里得间隔该指标计算 n 维空间中两点之间的直线间隔。它罕用于间断的数值数据，易于了解和实现。然而，它可能对异样值很敏感，并且没有思考不同特色的绝对重要性。 from scipy.spatial import distance# Calculate Euclidean distance between two pointspoint1 = [1, 2, 3]point2 = [4, 5, 6]# Use the euclidean function from scipy's distance module to calculate the Euclidean distanceeuclidean_distance = distance.euclidean(point1, point2)2.2. 曼哈顿间隔该指标通过思考两点坐标在每个维度中的相对差别并将它们相加来计算两点之间的间隔。它对离群点的敏感性不如欧氏间隔，但在某些状况下可能无奈精确反映点与点之间的理论间隔。 from scipy.spatial import distance# Calculate Manhattan distance between two pointspoint1 = [1, 2, 3]point2 = [4, 5, 6]# Use the cityblock function from scipy's distance module to calculate the Manhattan distancemanhattan_distance = distance.cityblock(point1, point2)# Print the resultprint("Manhattan Distance between the given two points: " + \ str(manhattan_distance))2.3. 余弦类似度该指标通过思考角度来计算两个向量之间的类似度。它通常用于文本数据并且能够抵制向量大小的变动。然而，它没有思考不同特色的绝对重要性。 ...

关于机器学习:中文语法纠错全国大赛获奖分享基于多轮机制的中文语法纠错

中文语法纠错工作旨在对文本中存在的拼写、语法等谬误进行自动检测和纠正，是自然语言解决畛域一项重要的工作。同时该工作在公文、新闻和教育等畛域都有着落地的利用价值。但因为中文具备的文法和句法规定比较复杂，基于深度学习的中文文本纠错在理论落地的场景中依然具备推理速度慢、纠错准确率低和假阳性低等毛病，因而中文文本纠错工作还具备十分大的钻研空间。达观数据在CCL2022汉语学习者文本纠错评测较量的赛道一中文拼写查看（Chinese Spelling Check）工作中获得了冠军,赛道二中文语法纠错（Chinese Grammatical Error Diagnosis）工作中取得了亚军。本文基于赛道二中文语法纠错工作的内容，对较量过程中采纳的一些办法进行分享，并介绍较量采纳的技术计划在达观智能校对零碎中的利用和落地。赛道一中文拼写查看的冠军计划会在后续的文章分享。本次中文语法纠错工作是对给定的句子输入可能蕴含的谬误地位、谬误类型和修改答案，而最终的评测指标是假阳性、侦测层、辨认层、定位层和修改层这五个维度指标的综合后果。而且本次评测工作应用的数据是汉语学习者的写作内容，与母语写作者相比汉语学习者的数据自身就具备句子晦涩度欠佳、谬误复杂度较低等状况。因而，本次评测的难度在于对于汉语学习者的书写内容既要保障检错和纠错的准确率和召回率，还要保障正确句子不能进行批改操作以升高模型的假阳性。本文次要从数据和模型两方面来分享本次较量中采纳的模型和策略。数据分析本次评测中，官网提供了CGED的历年较量数据(41,239条)和Lang8数据(1212,457条)供模型训练，同时提供了3767条评测数据用以验证模型的成果和性能。为理解数据的谬误散布以及数据的品质，咱们首先对评测数据进行了剖析。CGED-21验证集中的谬误散布状况如图1所示，由此能够看出数据集中占绝大多数的均为用词谬误，其次为缺失谬误，而乱序谬误的占比起码。图1 验证集谬误占比统计图同时在数据测验的过程中还发现了CGED和Lang8数据集中存在的一些数据问题。具体问题如下所示：源句子与指标句子齐全不相干；指标句子是对源句子的批注；源句子中存在谬误编辑间隔较大的状况；数据集中开端处存在多字的缺失谬误对此，咱们也摘录了数据集中存在的一些问题的样例数据；由样例数据可知，不论采纳哪种模型，数据中蕴含的这些谬误均会导致模型产生一些谬误的特色映射，从而影响模型的性能。因而在构建语法纠错模型之前首先须要对数据进行荡涤，去除品质较差的句子。在本次较量中，数据预处理是利用编辑间隔、字数差别和纠正字数等多个维度的评估来实现的。表1 数据中的谬误样例数据纠错策略本次评测工作中的语法错误能够分为拼写错误、语法错误和符号谬误。其中拼写错误包含形似音近谬误，而语法错误则次要包含用词谬误、缺失、乱序和冗余。这些谬误类型具备差异性和多样性，利用单个模型难以笼罩所有的谬误类型；因而，较量中采纳串行的多阶段中文语法纠错办法来解决中文文本中存在的各种谬误。 01拼写纠错模型对于拼写纠错工作，咱们是从数据和模型两个维度来进行解决的。数据方面，首先收集了不同起源的混同集词典并对其进行整合和裁减，而后基于混同集和微信新闻语料生成了蕴含不同错误模式的大规模语料来对模型进行训练。模型方面是利用MDCSpell[2]来实现拼写纠错工作。进一步地，咱们发现检错和纠错模块能够间接应用BERT输入的语义特色信息，而不须要舍弃CLS和SEP。而且这样还能保障两个模块的输入维度雷同更不便特色信息的交融。图2 拼写纠错模型结构图此外，拼写纠错模型的定位是解决数据中存在的形似音近问题，而且整个流程还后接了语法纠错模型，所以拼写纠错模型只须要保障纠错的准确率高而误召回低。因而在推理阶段，拼写纠错模型还利用阈值对模型的输入进行判断以确定是否承受以后的纠错后果。 02语法纠错模型拼写纠错模型只能解决数据中存在的形似音近谬误，因而咱们基于序列到编辑的Seq2Edit模型来实现残余的谬误类型的纠正。Seq2Edit是目前最优的语法纠错模型，它通过预训练模型取得输出句子的语义特色编码，而后通过全连贯层预测句子中对应的每个句子的编辑标签，该模型对应的解码空间为插入、删除、替换、放弃和挪动五种编辑操作。而且该模型还通过多任务的形式引入了检错模块，以便利用检错的输入信息加强模型的纠错成果。该语法纠错的模型构造和解码流程如下图所示：图3 语法纠错流程图原始Seq2Edit模型是通过删除和插入两种操作来解决句子中的乱序谬误，然而因为模型的训练和推理阶段存在裸露偏差，故对于间断字符的缺失谬误，模型可能因短少上下文特色信息即便通过多个轮次也无奈进行纠正。例如下表中的乱序谬误，当对一侧进行删除操作之后，而短少了大量的上下文信息故模型无奈对另一侧的插入操作进行补齐。而且模型将乱序谬误看作冗余和缺失两种谬误的汇合也会导致模型对删除操作的置信度偏高。然而通过引入挪动编辑操作的办法可能较好地解决乱序的问题。表2 原始Seq2Edit模型对乱序谬误的纠错能力在推理阶段，为了在输入的标签空间中搜寻出一条最优的解码门路，咱们利用部分门路解码办法对部分的挪动编辑操作确定一条和为0的相对路径，并通过自适应阈值的办法对不同编辑操作、不同的词性和词频确定不同的批改承受阈值，由此进步模型的纠正准确率并解决模型的适度纠正等问题。 03模型集成不同的模型学习到的语义特色信息存在一些差别，因而将多个差别较大而性能略差的模型正确的组合可能极大地晋升模型的性能。本次评测中，咱们对不同预训练模型训练的纠错模型进行加权集成以晋升模型的准确率。此次参加模型集成的有Bert、MacBert和StructBert这3个预训练模型训练的6个Seq2Edit模型。 04数据加强榜单在试验剖析的过程中，咱们发现模型对多字词的缺失和句子不同地位的谬误的纠错能力不同，并且以后的数据集未能笼罩绝大多数的谬误，因而存在OOV的问题。所以咱们利用数据生成的策略来解决因OOV导致的模型无奈对谬误进行纠正的问题。本次较量中，拼写纠错和语法纠错两个工作都用到了数据加强技术，且均应用微信公众号语料作为种子数据。对于数据加强，咱们基于字和词两个维度进行数据裁减，并保护了生僻词表、词频表、键盘布局相邻表、形近混同集和音近混同集以保障生成的句子合乎中文的语用频率和散布法则。数据加强的流程如下所述：（1）数据预处理：对句子进行预处理并掩码掉非中文字符、人名和地名等字符地位；（2）采样设错地位：确定对句子进行设错操作的字符地位；（3）采样设错类型：确定以后字符地位的设错类型；（4）采样设错操作：针对步骤（3）中的设错类型确定设错的操作，一般来说不同的设错类型对应的设错操作也不尽相同，冗余操作的设错操作包含反复以后字词、随机插入和按键盘布局相邻表等形式插入；用词谬误的替换策略包含形似混同集、音似混同集和随机替换针对拼写纠错工作形似字谬误：音似字谬误：词近似谬误的比例为0.4：0.4：0.2；而语法纠错的比例是乱序谬误：缺失谬误：冗余谬误：用词谬误别离0.05：0.1：0.15：07 05其余策略困惑度策略：困惑度能够用来评估句子的晦涩水平，因而较量中还通过困惑度对多个模型的输入进行评估并抉择困惑度最低的纠错句子作为最优解。成语纠错：中文中的成语俗语是约定俗成的，因而咱们保护了成语俗语规定表，利用规定匹配到疑似成语谬误，并对批改前后的句子进行困惑度计算以确定是否承受对句子谬误的批改。试验后果在本次较量的过程中，咱们首先比照了基于Seq2Seq的模型和基于Seq2Edit模型的基准模型成果，而后抉择了Seq2Edit模型作为本次较量的根本框架。由该赛道的评测指标可知，本次较量不仅考查模型的纠错能力，还考查模型正确区分句子对错的能力；因而咱们训练了不同性能的多个模型并通过模型集成和困惑度来抉择最优后果；不同模型的模型成果比照如下表所示。由表中数据可知，基于Seq2Seq的模型的检错能力较好，但同时模型引入了较高的误召回，从而使得假阳性的指标偏高；而基于Seq2Edit的办法更可能衡量准确率和召回率，使得模型在评测数据上获得更好的后果。同时通过比照可知，利用拼写纠错模型事后纠正用词谬误，而后再对其余谬误进行纠错，可能晋升模型的成果。表3 不同模型的成果比照技术落地计划达观智能校对零碎依靠于自然语言解决和光学字符识别等技术，实现了不同格局的输出文本的主动校对。该零碎涵盖了内容纠错、格局纠错和行文规定纠错等针对不同利用场景下的纠错模块，其中内容纠错模块包含拼写纠错、语法纠错、领导人纠错、符号纠错和敏感词检测等多种校对模块。目前达观智能校对零碎已反对公文畛域、金融畛域和通用畛域的文本校对工作，并且可针对不同畛域的校对需要为客户提供定制化的解决方案。达观智能校对零碎的如图4所示，其外围模块次要是文档解析和智能纠错。其中智能纠错模块基于预训练模型、序列标注、语言模型和常识蒸馏等技术一直晋升中文文本纠错的精度和速度。同时达观智能校对零碎也在一直摸索新的技术以更好地实现畛域迁徙和无痛解锁更多的利用场景。图4 达观智能校对零碎总结瞻望比照本次较量和理论纠错工作中的技术落地点可知中文语法纠错的相干钻研间隔工程落地还有肯定的差距。工程利用中的一些难点在于：模型复杂度较高，推理速度慢实在的纠错数据较为稀缺，尤其是母语者的谬误数据纠错模型容易呈现适度纠正的状况，即模型的假阳性偏高现有的模型往往无奈笼罩常识、知识型的谬误参考：1. http://cuge.baai.ac.cn/#/ccl_... Chenxi Zhu, Ziqiang Ying, Boyu Zhang, and Feng Mao. 2022. MDCSpell: A Multi-task Detector-Corrector Framework for Chinese Spelling Correction. In Findings of the Association for Computational Linguistics: ACL 2022, pages 1244–1253, Dublin, Ireland. Association for Computational Linguistics. ...

关于机器学习:降维和特征选择的对比介绍

在machine learning中，特色降维和特征选择是两个常见的概念，在利用machine learning来解决问题的论文中常常会呈现。特色降维和特征选择的目标都是使数据的维数升高，使数据维度降小。但实际上两者的区别是很大，他们的实质是齐全不同的。降维?升高数据集中特色的维数，同时放弃尽可能多的信息的技术被称为降维。它是机器学习和数据挖掘中罕用的技术，能够最大限度地升高数据复杂性并进步模型性能。降维能够通过多种形式实现，包含: 主成分剖析 (PCA)：PCA 是一种统计办法，可辨认一组不相干的变量，将原始变量进行线性组合，称为主成分。第一个主成分解释了数据中最大的方差，而后每个后续成分解释主键变少。PCA 常常用作机器学习算法的数据预处理步骤，因为它有助于升高数据复杂性并进步模型性能。 LDA(线性判别分析):LDA是一种用于分类工作的统计工具。它的工作原理是确定数据属性的线性组合，最大限度地拆散不同类别。为了进步模型性能，LDA常常与其余分类技术(如逻辑回归或反对向量机)联合应用。 t-SNE: t-散布随机街坊嵌入(t-SNE)是一种非线性降维办法，特地实用于显示高维数据集。它保留数据的部分构造来，也就是说在原始空间中凑近的点在低维空间中也会凑近。t-SNE常常用于数据可视化，因为它能够帮忙辨认数据中的模式和关系。独立重量剖析（Independent Component Analysis） ICA实际上也是对数据在原有特色空间中做的一个线性变换。绝对于PCA这种降秩操作，ICA并不是通过在不同方向上方差的大小，即数据在该方向上的扩散水平来判断那些是次要成分，那些是不须要到特色。而ICA并没有设定一个所谓次要成分和主要成分的概念，ICA认为所有的成分等同重要，而咱们的指标并非将重要特征提取进去，而是找到一个线性变换，使得变换后的后果具备最强的独立性。PCA中的不相干太弱，咱们心愿数据的各阶统计量都能利用，即咱们利用大于2的统计量来表征。而ICA并不要求特色是正交的。如下图所示：还有许多其余技术能够用于降维，包含多维缩放、自编码器等。技术的抉择将取决于数据的具体特色和剖析的指标。特征选择?在数据集中抉择一个特色子集(也称为预测因子或自变量)用于机器学习模型的过程被称为特征选择。特征选择的目标是发现对预测指标变量(也称为响应变量或因变量)最相干和最重要的特色。应用特征选择有很多长处: 改良的模型可解释性:通过升高模型中的特色量，能够更容易地把握和解释变量和模型预测之间的关系。升高过拟合的危险:当一个模型蕴含太多特色时，它更有可能过拟合，这意味着它在训练数据上体现良好，但在新的未知数据上体现不佳。通过抉择最相干特色的子集，能够帮忙限度过拟合的危险。改良模型性能:通过从模型中删除不相干或多余的特色，能够进步模型的性能和准确性。有许多可用的特征选择办法: 过滤办法:这些办法基于相干或互相信息等统计测量来抉择特色。包装器办法:这些办法利用机器学习算法来评估各种特色子集的性能，并抉择最佳的一个。嵌入办法:这些办法将特征选择作为机器学习算法训练过程的一部分。所应用的特征选择办法将由数据的品质和钻研的指标决定。为了为模型抉择最优的特色子集，通常是尝试各种办法并比拟后果。降维与特征选择的区别特征选择从数据集中抉择最重要特色的子集，特征选择不会扭转原始特色的含意和数值，只是对原始特色进行筛选。而降维将数据转换为低维空间，会扭转原始特色中特色的含意和数值，能够了解为低维的特色映射。这两种策略都能够用来进步机器学习模型的性能和可解释性，但它们的运作形式是截然不同的。 https://avoid.overfit.cn/post/080bfade8cd046d5ad0523311d3b86ce 作者：Ankit Sanjyal

关于机器学习:CSC301分析

CSC301 Introduction to Software Engineering (Winter 2017)Assignment 21 ObjectivePractice UML, Design Patterns and Git2 MarkingThis assignment is worth 8% of your final grade.The submission deadline is Jan 29, 2017, 11:59pm on Github.You are encouraged to work in pairs.Late submission policy: No late submissions are accepted.3 How to submit your work Please sign in to git using your mail.utoronto.ca account. Use this invitiation linkhttps://classroom.github.com/...and clone the starter code following GitHub instructions.To submit your work, add, commit and push your changes to your repository.Do not commit the files and directories generated by Eclipse, such as bin, doc, .project, etc. Markswill be deducted if you submit these.The date and time of your last commit must be on or before 29 Jan 2017, 11:59pm.The wallpaper manufacturing and distribution problemThe problem stated in this exercise is a simplified version of an actual software industry problem, solved andimplemented in various commercial wallpaper manufacturers in North America.An important specific of wallpaper manufacturing (shared with many other manufacturing processes) is thatthere is a minimum amount of wallpaper that can be printed in one production run (1000 yards for mostcommon types of commercial wallpaper).The whole process can be described as follows. For each Product, the warehouse maintains an Inventoryitem, which has two attributes: the product, the available quantity on the inventory, and the quantityrequired by the customers, also known as the backordered quantity. Also the warehouse keeps track orSalesOrders and ships them out as soon as sufficient quantity becomes available.The manufacturing facility, maintains a ProductionOrder for each inventory item. A production order isused to manufacture a quantity greater or equal to the minimum quantity, and also sufficient to cover thequantity required by SalesOrders.It is clear that an Inventory item is an Observable and SalesOrders and ProductionOrders are Observers.In addition, both SalesOrders and ProductionOrders implement a DisplayElement interface as shown inthe UML diagram below.1CSC301 Introduction to Software Engineering (Winter 2017)So here is how the solution works. Initially, we set up a number of Customer objects, and a number ofProduct ojects. For all the products that we intend to manufacture and sell, we set up and Inventory itemthat will be an Observable.Who observes Inventory items? Well, in order to sell, we should manufacture some quantities, so we setup a ProductionOrder that is supposed to generate some quantity if there is a demand for that particularinventory item.What does demand mean? Well, customers place SalesOrder items, which are supposed to be fufilled bythe warehouse, given that there is enough quantity on Inventory.Also both Observables implement DisplayElement interface that allows the display of observables.The wallpaper manufacturing and distribution workflow is as follows:Perform the setup (generate Customers, Products, Inventory items and ProductionOrders).Customers place SalesOrders.If there is enough quantity on inventory, the SalesOrder gets shipped immediately so it does not needto go to the list of observers. Otherwise it should be registered as an Observer.When an SalesOrder gets registered as an observer, the backorderedQuantity should be updatedaccordingly.Meanwhile, the ProductionOrder gets notified so if the backorderedQuantity is greater or equalthan minQuantity, the ProductionOrder activates the manufacturing facility to make some quantity(sufficient to cover all SalesOrders!) and updates the availableQuantity.The SalesOrders should get notified on the availability and ship out. The inventory should be main-tained accordingly.If a quantity is made by a ProductionOrder or if a quantity is shipped in behalf of a SalesOrder thedisplay method should display the appropriate information on the console.A complete example is shown below. The code (in the main method) that generates this output is providedin full in the starter code.Shipping Order# 3 to Home Depot , Product : Flower Fie ld , Quantity : 800 .0Shipping Order# 1 to Wal?Mart , Product : Flower Fie ld , Quantity : 500 .0Production Order# 1 , item Flower Fie ld , produced 1300 .0Shipping Order# 4 to Home Depot , Product : Stormy Sea , Quantity : 1400 .0Shipping Order# 2 to Home Depot , Product : Stormy Sea , Quantity : 700 .0Production Order# 2 , item Stormy Sea , produced 2100 .0Stormy Sea , Ava i l ab l e : 0 . 0 , Backorders : 0 . 0[PO2 Stormy Sea 2 0 0 0 . 0 ]Flower Fie ld , Ava i l ab l e : 0 . 0 , Backorders : 0 . 0[PO1 Flower F i e ld 1 0 0 0 . 0 ]What is to be done? Read the execise carfelly and study the provided UML diagram. Check our the starter code and using the UML diagram, write your solution. Please do use the same names for your classes, class variables and methods as indicated in the associatedUML diagram. Throughout your coding process, follow the UML diagram carefully.

关于机器学习:AI-训练加速原理解析与工程实践分享

本文整顿自同名线上分享，是 12 月份「百度百舸 - 云原生 AI」技术公开课的第二期。这次分享将系统性的剖析在 AI 模型训练过程中的次要性能瓶颈，以及以后针对这些瓶颈的次要的减速计划和技术原理，并介绍百度智能云在这方面的一些实际成绩。明天的分享，次要包含三个局部：首先介绍咱们为什么须要做 AI 训练减速，也就是整体背景和出发点是什么；第二局部咱们会系统性的剖析理论训练过程中的可能会遇到的性能瓶颈问题，而后针对这些问题，介绍目前次要的减速计划；第三局部介绍百度百舸平台的 AI 训练减速套件 AIAK-Training 在一些模型训练减速上的实际成果。一、为什么须要AI训练减速？在 AI 零碎中，一个模型从生产到利用，个别包含离线训练和推理部署两大阶段。离线训练阶段，就是产生模型的过程，用户须要依据本人的工作场景，筹备好训练模型所须要的数据集，以及神经网络算法。算法能够了解为是一个高度简单的非凸数学函数，函数中包含很多变量以及参数。模型训练的过程其实就是在学习神经网络模型中的参数。模型训练开始后，会读取数据，而后送入模型进行前向计算，并计算与实在值的误差。而后执行反向计算失去参数梯度，最初更新参数。训练会进行多轮的数据迭代。训练实现之后，咱们会保留训练好的模型，而后将模型做上线部署，承受用户的实在输出，通过前向计算，实现推理。因而，无论是训练还是推理，外围都是数据计算。为了减速计算效率，个别都是通过 GPU 等异构减速芯片来进行训练和推理。另外，从深度学习模型倒退历程来看，为了可能继续冲破模型的精度下限，模型参数量其实在疾速的收缩。然而更大的参数量，就会带来更大的计算复杂度。下图左侧是摘自一篇公开的论文，从这篇总结里，咱们看到在 2010 年之前，模型的计算量大概 20 个月翻一番。在 2010~2015 年，惯例模型计算每 5-6 个月翻一番。而在 2015 年之后，衍生了大模型训练的趋势，计算量增长 10~100 倍。模型训练对算力以及基础设施的要求越来越高，训练须要更多的算力，也须要更长的工夫，这也导致了须要更多的资源老本。这里咱们列举了一些论文或钻研中公开的老本数据，反馈了模型训练的费用是十分昂扬的。因而，如何稳固的进行模型训练，如何继续降本增效其实至关重要。在这样的大背景下，百度智能云推出了百度百舸 · AI 异构计算平台，指标是为 AI 场景提供软硬一体化的解决方案。通过 AI 计算、AI 存储、AI 减速、AI 容器四层技术栈，满足下层业务场景的需要。 AI 计算层，提供了包含高性能的 GPU、以及昆仑等异构芯片资源，以及高性能的 RDMA 或 IB 网络，以及自研的超级 AI 计算机 X-MAN 等；AI 存储层，包含对象存储 BOS 满足数据湖存储的需要、以及专为 AI 设计的高性能并行文件系统 PFS；AI 减速层，包含数据湖存储减速套件 RapidFS，AI 训练减速套件 AIAK-Training，AI 推理减速套件 AIAK-Inference；AI 容器层，也即是资源调度层，利用云原生的技术能力，满足 GPU、AI 作业等弹性调度的需要。云原生 AI 的内容在咱们上一期的技术公开课有专门分享。 ...

关于机器学习:为深度学习选择最好的GPU

在进行机器学习我的项目时，特地是在解决深度学习和神经网络时，最好应用GPU而不是CPU来解决，因为在神经网络方面，即便是一个十分根本的GPU也会胜过CPU。然而你应该买哪种GPU呢?本文将总结须要思考的相干因素，以便能够依据估算和特定的建模要求做出理智的抉择。为什么 GPU 比 CPU 更适宜机器学习？CPU（中央处理器）是计算机的主力，它非常灵活，不仅须要解决来自各种程序和硬件的指令，并且处理速度也有肯定的要求。为了在这种多任务环境中表现出色，CPU 具备大量且灵便疾速的处理单元（也称为核）。 GPU（图形处理单元）GPU在多任务处理方面不那么灵便。但它能够并行执行大量简单的数学计算。这是通过领有更多数量的简略外围（数千个到上万）来实现的，这样能够同时解决许多简略的计算。并行执行多个计算的要求非常适合于: 图形渲染——挪动的图形对象须要一直地计算它们的轨迹，这须要大量一直反复的并行数学计算。机器和深度学习——大量的矩阵/张量计算，GPU能够并行处理。任何类型的数学计算，能够拆分为并行运行。在Nvidia本人的博客上曾经总结了CPU和GPU的次要区别: 张量处理单元(TPU)随着人工智能和机器/深度学习的倒退，当初曾经有了更专门的解决外围，称为张量核（Tensor cores）。在执行张量/矩阵计算时，它们更快更无效。因为咱们在机器/深度学习中所解决的数据类型就是张量。尽管有专用的tpu，但一些最新的GPU也包含许多张量核，咱们会在前面总结。 Nvidia vs AMD这将是一个相当短的局部，因为这个问题的答案必定是Nvidia 尽管能够应用AMD的gpu进行机器/深度学习，但在写本文时，Nvidia的GPU具备更高的兼容性，并且通常更好地集成到TensorFlow和PyTorch等工具中（比方目前PyTorch的AMD GPU的反对还只能在Linux上应用）。应用AMD GPU须要应用额定的工具(ROCm)，这个会有一些额定的工作，并且版本可能也不会更新的很快。这种状况未来可能会有所改善，然而当初为止，最好还是应用Nvidia。 GPU抉择的次要属性抉择一个够实现机器学习工作并且合乎估算的GPU，基本上归结为四个次要因素的均衡: GPU有多少内存?GPU有多少个CUDA和/或张量核?卡应用什么芯片架构?功耗要求是多少（如果有）？上面将逐个探讨这些方面，心愿能让你更好地了解什么对你来说是重要的。 GPU内存答案是，越多越好! 这实际上取决于你的工作，以及这些模型有多大。例如，如果你正在解决图像、视频或音频，那么依据定义，你将解决相当大量的数据，GPU RAM将是一个十分重要的思考因素。总有方法解决内存不足的问题(例如缩小批处理大小)。然而这将会节约训练的工夫，因而须要很好地均衡需要。依据教训，我的倡议如下: 4GB：我认为这是相对的最小值，只有你不是在解决过于简单的模型，或者大的图像、视频或音频，这个在大多数状况下能工作，然而达不到日常应用的须要。如果你刚刚起步，想尝试一下又不想全力投入，那么能够从它开始 8GB：这是一个日常学习很好的开始，能够在不超过RAM限度的状况下实现大多数工作，但在应用更简单的图像、视频或音频模型时会遇到问题。 12GB：我认为这是科研最根本的的要求。能够解决大多数较大的模型，甚至是那些解决图像、视频或音频的模型。 12GB+ ：越多越好，你将可能解决更大的数据集和更大的批处理大小。超过12GB才是价格真正开始上涨的开始。一般来说，如果老本雷同的话，抉择“速度较慢”但内存较大的卡会更好。请记住，GPU的劣势是高吞吐量，这在很大水平上依赖于可用的RAM来通过GPU传输数据。 CUDA外围和Tensor 外围这其实很简略，越多越好。首先思考RAM，而后就是CUDA。对于机器/深度学习来说，Tensor 核比CUDA核更好(更快，更无效)。这是因为它们是为机器/深度学习畛域所需的计算而准确设计的。然而这并不重要，因为CUDA内核曾经足够快了。如果你能失去一张蕴含Tensor 核的卡，这是一个很好的加分点，只是不要太纠结于它。前面你会看到“CUDA”被提到很屡次，咱们先总结一下它: CUDA外围——这些是显卡上的物理处理器，通常有数千个，4090曾经1万6了。 CUDA 11 -数字可能会扭转，但这是指装置的软件/驱动程序，以容许显卡失常的工作。NV会定期公布新版本，它能够像任何其他软件一样装置和更新。 CUDA代数(或计算能力)-这形容了显卡卡在它的更新迭代的代号。这在硬件上是固定的，因而只能通过降级到新卡来扭转。它由数字和一个代号来辨别。例子:3。x[Kepler]，5。x [Maxwell]， 6。x [Pascal]， 7。x[Turing]和8。x(Ampere)。芯片架构这实际上比你设想的更重要。咱们这里不探讨AMD，我的眼里只有”老黄“。下面咱们曾经说了，30系列的卡就是Ampere架构，最新的40系列是 Ada Lovelace。个别老黄都会应用一个驰名科学家和数学家来对架构命名，这次抉择的是驰名英国诗人拜伦之女，建设了循环和子程序概念的女数学家、计算机程序创始人Ada Lovelace来命名。理解对于卡的计算能力，咱们要理解2个方面：显着的性能改良这里一个重要的性能就是，混合精度训练：应用精度低于 32 位浮点数的数字格局有很多益处。首先它们须要更少的内存，从而可能训练和部署更大的神经网络。其次它们须要更少的内存带宽，从而放慢数据传输操作。第三数学运算在精度升高的状况下运行得更快，尤其是在具备 Tensor Core 的 GPU 上。混合精度训练实现了所有这些益处，同时确保与齐全精度训练相比不会失落特定于工作的准确性。它通过辨认须要齐全精度的步骤并仅对这些步骤应用 32 位浮点而在其余任何中央应用 16 位浮点来实现这一点。 ...

关于机器学习:COMP304-移动开发

Mobile Apps Development COMP-304Lab Assignment #3 Page 1 of 3Lab Assignment #3Due Date: Mid-night (11.59 pm) Friday, 4th March Marks/Weightage: 30/10%End Date: Mid-night (11.59 pm) Monday, 7th March with 20% penalty. No Exceptions.Demo: You are required to create a short video of the lab explaining its code/implementation andupload it along with code. Also, you may be asked to demonstrate it as advised/instructed by theprofessor.Purpose: The purpose of this lab assignment is to: ...

关于机器学习:如何检测时间序列中的异方差Heteroskedasticity

工夫序列中非恒定方差的检测与解决，如果一个工夫序列的方差随工夫变动，那么它就是异方差的。否则数据集是同方差的。异方差性影响工夫序列建模。因而检测和解决这种状况十分重要。让咱们从一个可视化的例子开始。上面的图1显示了航空公司乘客的工夫序列。能够看到在整个序列中变动是不同的。在该系列的后一部分方差更高。这也是数据程度跨度比后面的数据大。方差的变动对预测会产生很大的影响。它会影响模型的拟合从而影响预测性能。然而只靠人眼查看方差是不事实的，所以如何更系统地检测和解决异方差问题呢? 检测异方差性你能够应用统计测验来查看工夫序列是否为异方差序列。其中包含以下内容。 White 测验; Breusch-Pagan测验; Goldfeld-Quandt测验这些测验的次要输出是回归模型的残差(如一般最小二乘法)。零假如是残差的散布方差相等。如果p值小于显著性程度，则回绝该假如。这就阐明工夫序列是异方差的，测验显著性程度通常设置为0.05。 Python库statsmodels实现了上述三个测试。上面的代码片段将它们封装在一个类中: import pandas as pd import statsmodels.stats.api as sms from statsmodels.formula.api import ols TEST_NAMES = ['White', 'Breusch-Pagan', 'Goldfeld-Quandt'] FORMULA = 'value ~ time' class Heteroskedasticity: @staticmethod def het_tests(series: pd.Series, test: str) -> float: """ Testing for heteroskedasticity :param series: Univariate time series as pd.Series :param test: String denoting the test. One of 'white','goldfeldquandt', or 'breuschpagan' :return: p-value as a float. If the p-value is high, we accept the null hypothesis that the data is homoskedastic """ assert test in TEST_NAMES, 'Unknown test' series = series.reset_index(drop=True).reset_index() series.columns = ['time', 'value'] series['time'] += 1 olsr = ols(FORMULA, series).fit() if test == 'White': _, p_value, _, _ = sms.het_white(olsr.resid, olsr.model.exog) elif test == 'Goldfeld-Quandt': _, p_value, _ = sms.het_goldfeldquandt(olsr.resid, olsr.model.exog, alternative='two-sided') else: _, p_value, _, _ = sms.het_breuschpagan(olsr.resid, olsr.model.exog) return p_value @classmethod def run_all_tests(cls, series: pd.Series): test_results = {k: cls.het_tests(series, k) for k in TEST_NAMES} return test_results异方差类蕴含两个函数：het_tests函数利用特定的测验(White、Breusch-Pagan或Goldfeld-Quandt)。run_all_tests函数一次性利用所有三个测验。这些函数的输入是相应测试的p值。 ...

关于机器学习:2023年机器学习趋势分析

原文地址：2023年机器学习趋势剖析机器学习和人工智能是一个推动不同行业重大翻新的畛域。据预测，2023年，人工智能市场将达到5000亿美元，2030年将达到15971亿美元。这意味着机器学习技术在不久的未来将会有继续的高需要。然而，机器学习行业倒退十分迅速：新技术和科学研究定义了新产品和服务的构建形式。2022年底，从机器学习工程师到初创公司创始人，每个人都在寻找下一年最有心愿的趋势。 01 机器学习技术趋势因为每天都有新的翻新呈现，咱们永远无奈100%必定地预测明年会有什么样的技术需要。但依据咱们在2022年看到的状况，以下是2023年最有心愿的机器学习趋势。 1.1 基石模型（Foundation models）大型语言模型是一项重要的翻新，最近很受欢迎，而且在之后较长的一段时间很可能会始终随同着咱们。基石模型是一种人工智能工具，即便与惯例神经网络相比，也能够依据大量数据进行训练。工程师们心愿计算机不仅要通过搜寻模式进行了解，还要积攒常识来达到新的了解程度。基石模型在内容生成和摘要、编码和翻译以及客户反对方面十分有用。家喻户晓的基石模型案例有GPT-3和MidJourney。基石模型的一个惊人之处在于，它们还能够疾速扩大，并解决从未见过的数据，因而具备杰出的生成能力。这些解决方案的当先供应商是NVIDIA和Open AI。 1.2 多模态机器学习在计算机视觉或自然语言解决等波及模型与事实世界交互的工作中，模型通常只能依赖一种类型的数据，图像或者文本。但在现实生活中，咱们通过许多感官感知四周的世界：嗅觉、听觉、视觉和滋味。多模态机器学习通过多种形式（模态）来体验咱们四周的世界的事实来构建更好的模型。“多模态（MML）”就意味着要构建能够像人类一样一次以多种模态感知事件的ML模型。建设MML能够通过组合不同类型的信息并在训练中应用它们来实现。例如，将图像与音频和文本标签相匹配，使其更易于辨认。到目前为止，多模式机器学习是一个很新的畛域，尚待2023年开发和倒退，但许多人认为它可能是实现通用人工智能的要害。 1.3 TransformersTransformers是一种人工智能架构，它应用编码器和解码器对输出数据序列进行转换，并将其变换为另一个序列。许多基石模型也建设在Transformers上。咱们想独自提出它们，是因为它们用于许多其余应用程序。事实上，据报道，Transformers正在席卷AI世界。 Transformers也被称为Seq2Seq模型，宽泛用于翻译和其余自然语言解决工作。因为Transformers能够剖析单词序列而不是单个单词，所以它们通常显示出比一般人工神经网络更好的后果。 Transformers模型可能调配权重，以评估序列中每个单词的重要性。而后，该模型将其转换为不同语言的句子，并思考到调配的权重。能够帮忙您构建Transformers Pipeline的一些当先解决方案是 Hugging Face和Amazon Comprehend。 1.4 嵌入式机器学习嵌入式机器学习（或TinyML）是机器学习的一个子畛域，它使机器学习技术可能在不同的设施上运行。 TinyML可用于家用电器、智能手机、笔记本电脑、智能家居零碎等。正如ABI Research的AI&ML首席分析师Lian Jye Su所解释的：人工智能的广泛应用和生活化推动了物联网（IoT）剖析的倒退。从物联网设施收集的数据用于训练机器学习（ML）模型，为物联网整体产生有价值的新思路。这些利用须要依赖简单芯片组的弱小且低廉的解决方案。嵌入式机器学习零碎的日益遍及是芯片制造业的次要推动力之一。如果说十年前，依据摩尔定律，芯片组上的晶体管数量每两年翻一番，这也让咱们可能预测计算能力的增长，那么在过来几年中，咱们曾经看到了每年40-60%的飞跃。咱们置信，这一趋势在将来几年也将继续上来。随着物联网技术和机器人技术的宽泛遍及，嵌入式零碎变得更加重要。Tiny ML畛域有本人独特的挑战，这些挑战尚待2023年解决，因为它须要最大限度的优化和效率，同时节俭资源。 1.5 Low-code和No-code解决方案机器学习和人工智能简直渗透到了从农业到营销到银行业的各个领域。使ML解决方案易于非技术员工应用通常被管理者认为是放弃整个组织效率的要害。然而，与其经验漫长而低廉的编程学习过程，不如简略地抉择须要零或靠近零编码技能的应用程序。但这不是No-code解决方案可能要解决的惟一问题。 Gartner发现，市场上对高质量解决方案的需要比Deliver的可能性更大——“Deliver这些解决方案的速度至多比it能力快5倍”。（Gartner has found that the demand for high-quality solutions on the market is bigger than the possibilities to deliver – “it grows at least 5x faster than IT capacity to deliver them”.） No-code和Low-code解决方案能够帮忙补救这一差距并满足需要。同样，Low-code解决方案使技术团队可能更快地提出并测试他们的假如，从而缩小交付工夫和开发成本。如果10年前，须要一整个团队来构建应用程序或启动网站，那么明天只有一个人就能够做到同样的事件，而且速度很快。 ...

关于机器学习:论文推荐CCNet用于语义分割的交叉注意力

CCNet， Transformer递归穿插自注意力，比非部分神经网络更无效。华中科技大学、地平线、ReLER 和伊利诺伊大学香槟分校联结研发论文提出了穿插网络 (CCNet)，对于每个像素，CCNet 中的一个新的穿插注意力模块收集其穿插门路上所有像素的上下文信息。通过进一步的递归操作，每个像素最终都能够从所有像素中捕捉残缺图像的依赖关系。与 Non-Local Neural Network 相比，CCNet 应用的 GPU 内存缩小了 11 倍，FLOP 缩小了约 85%。TPAMI的CCNet，进一步加强了更好的损失函数，扩大到3D状况。 CCNet (2019 ICCV) CNN骨干：深度卷积神经网络(DCNN)，以全卷积的形式设计，如DeepLabv2，用于生成空间大小为H×W的特色图X。去除最初两个下采样操作，并在后续的卷积层中应用收缩卷积，从而将输入特色映射的宽度/高度放大X到输出图像的1/8。穿插注意力模块对于输出X，利用卷积层来取得降维的特色图H，而后将特色图H输出到cross -cross attention模块以生成新的特色图H '。特色图H '仅聚合程度和垂直方向的上下文信息。为了取得更丰盛、更密集的上下文信息，特色图H '会再次输出到穿插注意力模块中，以取得特色图H ’’。特色图H”中的每个地位实际上收集了所有像素的信息。两个穿插注意力模块在前后共享雷同的参数，这样能够防止增加过多的额定参数，它被命名为循环穿插注意力(RCCA)模块。而后，密集上下文特色H”与部分示意特色x会被连接起来，通过一个或多个卷积层进行批量归一化和激活进行特色交融。最初将交融后的特色送入宰割层预测最终的宰割后果。 CCNet (2020 TPAMI)类别统一的特色学习在TPAMI中，除了宰割损失的穿插熵损失lseg之外，还减少了类别统一的损失来驱动RCCA模块间接学习类别统一特色。lvar、ldis、lreg 被用于惩办每个实例具备雷同标签的特色之间的大间隔惩办不同标签的均匀特色之间的小间隔别离向原点绘制所有类别的均匀特色示意如下图中设C是类的汇合，Nc是属于类C的无效元素个数，hi是空间地位i的特征向量，c是类C∈C(聚类核心)的均值特色。是一个分段间隔函数。v和d别离为边距。为了缩小计算量，首先在RCCA模块的输入上利用一个带有1×1核的卷积层进行降维，而后将这三个损失利用于通道较少的特色图。最终损失l是所有损失的加权和: 这里的v= 0.5， d=1.5， ==1， =0.001, 16为用于降维的通道数。 3D穿插注意力 3D注意力架构是对2D版本的扩大，它从工夫维度收集了更多的上下文信息。试验后果Cityscapes数据集在没有附加特色的状况下，采纳单尺度测试的CCNet依然能够达到相当的性能。经过训练和验证集的训练，CCNet在测试集上的性能大大优于所有以前的最先进技术。在基线中增加一个穿插留神模块(R=1)，性能进步了2.9%。将循环次数从1次减少到2次能够进一步提高1.8%的性能，证实了密集上下文信息是效性的。将循环从2个减少到3个，稍微进步了0.4%的性能。在损失函数中应用分段函数能够取得比繁多二次函数稍好的性能。下图中，“+RCCA”分两步造成密集的上下文信息，后一步能够从第一步生成的特色图中学习到更好的注意力图，因为第一步曾经嵌入了一些长期依赖关系。与非部分神经网络中的“+NL”办法相比，论文提出的“+RCCA”办法在计算全图像依赖时，GPU内存占用缩小了11倍，FLOPs显著升高了约85%的非部分块。当R=2时，能够学习到长期依赖关系，而当R=1时则不能。 ...

关于机器学习:MMEval正式支持OneFlow评测

1 MMEval 介绍MMEval（https://github.com/open-mmlab...）是一个跨框架的机器学习算法评测库，提供高效精确的分布式评测以及多种机器学习框架后端反对，具备以下特点：提供丰盛的计算机视觉各细分方向评测指标（自然语言解决方向的评测指标正在反对中）反对多种分布式通信库，实现高效精确的分布式评测反对多种机器学习框架，依据输出主动散发对应实现MMEval 的架构如下图所示： 2 MMEval 反对 OneFlow 评测从 MMEval 0.2.0 起，开始反对 OneFlow 的评测！目前曾经为 7 个 Metric 适配反对了 oneflow.Tensor 作为输出。它们别离是 Accuracy，SingleLabelMetric，MultiLabelMetric，AveragePrecision，MeanIoU，F1Metric 和 EndPointError。上面以 Accuracy 为例，展现 MMEval 对 OneFlow 的评测反对。首先须要装置 MMEval 和 OneFlow，咱们能够通过 pip 来进行装置： pip install mmevalpip install --pre oneflow -f https://staging.oneflow.info/branch/master/cu112应用 oneflow.Tensor 作为 Accuracy 的输出： import oneflow as flowfrom mmeval import Accuracyaccuracy = Accuracy()predicts = flow.Tensor([1, 2, 3, 4])labels = flow.Tensor([3, 2, 1, 4])results = accuracy(predicts, labels)# {'top1': 0.5}同时，MMEval 也增加了一个分布式通信后端 OneFlowDist，以反对 OneFlow 的分布式评测。能够应用以下两种形式来设置应用 OneFlowDist 分布式后端： ...

关于机器学习:变分自编码器VAE的数学原理

变分自编码器(VAE)是一种利用宽泛的无监督学习办法，它的利用包含图像生成、示意学习和降维等。尽管在网络架构上常常与Auto-Encoder分割在一起，但VAE的实践根底和数学公式是截然不同的。本文将探讨是什么让VAE如此不同，并解释VAE如何连贯“变分”办法和“自编码器”。本文更专一于VAE的统计概念和推导。咱们将从介绍VAE所要解决的问题开始，解释变分办法在解决方案中所起的作用，并探讨VAE与AE之间的分割。最初还会将VAE利用于图像重建工作来进行具体的演示。咱们思考一个由随机变量x的N个i.i.d.样本(标量或向量)组成的数据集。假如数据是由一些随机过程产生的，这里蕴含一个未察看到的随机变量z(即潜在变量)。生成过程有两个步骤: 值 z 是从某个先验散布 p(z; ) 生成的，值是从一些依赖于的条件散布 p(x|z=; ) 生成的，其中先验p(z;)和条件似然p(x|z;)都是未知参数集的参数散布。咱们感兴趣的是与给定场景相干的以下三个问题: 参数集的MAP/ML预计，应用它能够模仿上述生成过程并创立人工数据。对于参数的抉择，给定观测值x，隐变量z的后验推断，即p(z|x;)，这对示意学习很有用。对于参数的抉择，变量x的边际推断，即p(x;)，这在须要先验x的状况下是有用的。变分法变分法是解决上一节提出的三个问题的要害。让咱们从后验推理开始，即计算 p(z|x=; )。咱们能够通过利用贝叶斯定理和概率链式法则写出后验概率：假如咱们能够抉择参数，因而先验散布p(z;)和似然p(|z;)由生成过程定义的值是已知的。所以实践上后验p(z|;)能够在计算分母中的积分后计算出来，这波及到枚举不可观测变量z可能具备的所有可能值。然而如果没有对 p(z|; ) 或 p(z; ) 的任何简化假如，积分是难以解决的，这意味着任何用于评估积分的办法（包含枚举运算）的计算复杂度都是指数级的。变分法就是为这种状况而设计的，它容许咱们通过将统计推理问题转化为优化问题来防止辣手的积分问题。变分法提出了一个辨认模型 q(z|; ) 作为实在后验 p(z|; ) 的近似值。通过最小化 q(z|; ) 和 p(z|; ) 之间的 KL 散度，咱们能够解决后验推理问题。为了简化计算，这里将对辨认模型和生成模型的参数和进行联结优化。让咱们对KL散度做进一步的推导，为简略起见，参数和将被省略。 logp(x)是一个常数，所以在优化过程中能够疏忽。咱们还要重写ELBO: 优化问题当初等价于: 算法学习的过程借助变分法能够防止简单的积分，而下一个挑战是对给定的优化问题应用什么算法。如果可能解决这个问题那么下面提到的三个问题就都不是问题了。就像其余深度学习模型一样，咱们应用随机梯度降落进行优化，将要最大化的优化指标（即 ELBO）重写为要最小化的损失函数的模式：这里原始冀望项应用蒙特卡洛办法进行近似，即对从 q(z|x; ) 中提取的 L 个样本 z 求均匀 logp(x|z; )。给定可微损失函数，VAE 的残缺学习算法如下： ...

关于机器学习:云知声-基于-JuiceFS-的超算平台存储实践

云知声从一家专一于语音及语言解决的技术公司，当初技术栈曾经倒退到具备图像、自然语言解决、信号等全栈式的 AI 能力，是国内头部人工智能独角兽企业。公司拥抱云计算，在智慧医疗、智慧酒店、智慧教育等方面都有相应的解决方案。 Atlas 是云知声的底层根底技术平台，撑持着云知声所有模型的迭代：第一层是业务层，次要是公司的业务如语音解决、图像处理、自然语言解决等。第二层是控制中心，从数据生产、数据接入到模型公布都能够一站式实现。第三层是外围的计算层，次要反对深度学习，以及数据预处理。最底层是基础架构层，次要是由 GPU 集群、CPU 集群以及分布式存储形成，所有的机器都是用 100Gbps 的 InfiniBand 高速网互联。存储场景与需要云知声初期的建设指标就是要建成一站式的 AI 平台，蕴含 AI 模型的生产，数据预处理，模型开发，模型训练以及最初模型的上线。如上图所示，每个步骤都须要跟数据交互，其中数据预处理和模型训练须要比拟大的 IO。 • 数据预处理，次要是语音解决会提取语音特色，会把语音特色转成 numpy 格局的文件；图像处理的过程中，会对图像做预处理，做训练数据的格局转换；• 模型开发，次要是算法工程师做代码的编辑，模型算法的调试；• 模型训练，途中会须要做多轮数据读取，以及模型会输入到相应的存储上，这个步骤所须要的 IO 十分大；在模型上线的时候，服务会去读取存储系统中的模型文件。总结一下咱们对存储的需要：可能对接整个模型开发的的全链路，在几个比拟外围的功能块中都要可能反对；反对 CPU、GPU 的数据读取的工作；咱们的场景次要是语音、文本和图像数据，这些场景的特点是文件大小都比拟小，所以要反对小文件场景下的高性能解决。咱们的业务场景次要是读多入写少，模型训练的时候大部分是在读取数据，根本不会写入数据。基于以上这些需要点，咱们须要一套高性能牢靠的分布式存储系统。云知声存储建设历程晚期的时候，咱们的 GPU 只有十几台左右，过后应用 NFS 做了一个小规模的集群。同时在 2016 年引入了 CephFS 的测试环境，过后那个版本的 CephFS 在小文件场景下性能不太好，所以就没有把 CephFS 带入到生产环境。起初咱们持续做了调研，发现 Lustre 在 HPC 畛域是最为罕用的高性能文件系统。测试表明 Lustre 在规模化的构建以及性能方面体现都不错，于是从2017 年到 2022 年，咱们全副是用 Lustre 来承载所有的数据业务。然而随着应用的 GPU 越来越多，当初有 5.7 亿亿次/秒左右的浮点解决能力，底层存储的 IO 曾经跟不上下层计算能力。于是，咱们开始摸索新的存储，为后续的存储扩容做降级，同时在应用 Lustre 的过程中也遇到了一些问题。 ...

关于机器学习:文字语义纠错技术探索与实践张健

背景文本语义纠错的应用场景十分宽泛，基本上只有波及到写作就有文本纠错的需要。书籍面市前就有独立的校对的环节来保障出版之后不呈现显著的问题。在新闻中咱们也时不时看到因为文字审核没到位造成大乌龙的状况，包含上市公司在公开文书上把“长期大会”写成为“临死大会”，政府文件把“报效国家”写成了“报销国家”。无关文本纠错的辅助工具能给文字工作人员带来较大的便当，对审核方面的危险也大幅升高。除了不同的写作场景，文本纠错还会用在其余一些智能解决零碎中，具体的状况包含：音频通话记录通过主动语音辨认（ASR）转写成文本之后，存在一些转译谬误；光学字符识别（OCR）零碎辨认图片中的文字并进行提取，会存在字符识别谬误；在搜索引擎或主动问答零碎外面，用户在查问过程中的输出谬误，往往会导致系统无奈了解用户的实在用意，须要进行查问纠正改写。这些状况都须要通过文本纠错技术来进行修改，使产品整体的用户体验更加敌对。文本语义纠错在学术畛域有三个子工作，别离是拼写查看（Spelling Check）、语法检错（Grammatical Error Detection）和语法纠错（Grammatical Error Correction）。其中语法检错是对文本中的语法错误进行检测，拼写查看是对文本中的错别字进行修改，语法纠错是纠正文本中的语法错误。拼写查看在英文场景体现为单词拼写错误，在中文场景体现为音近形近错别字。而语法纠错除此之外，还包含字词缺失、字词冗余、字词使用不当、语序不当等谬误类型。语法纠错区别于拼写查看的一个显著特点是，语法纠错纠正后的文本和原始文本的长度不肯定相等，而拼写查看纠正前后的文本长度都是保持一致的，这也决定了两者的算法反对存在差别。一般来说，拼写查看能够看作为语法纠错的一个工作子集。咱们对语法纠错的问题作一下形式化定义，输出的原始文本定义为X={x1,x2,...,xn};原始文本正确的纠正后果文本序列定义为Y={y1,y2,...,ym}，算法预测输入的文本，定义为P={p1,p2,...,pk}。评估指标在开始咱们的文本语义纠错算法探索之旅之前，咱们先思考一个问题，到底怎么样的模型体现才是公认更无效的，这个好坏应该从何种形式、如何量化地评估进去。这也是咱们在解决其余所有类型的NLP工作都须要先思考的问题，这个问题就是如何定义咱们的评测指标。上面列举了纠错算法罕用的一些评测指标： 01 M2（MaxMatch）M2指标次要是通过计算输入文本和原始文本之间的编辑汇合G，而后与人工标注的编辑汇合E联合，计算准确率、召回率、F0.5值（采纳F0.5示意对准确率更加关注）。这里的编辑了解为一个转换动作，通过一组转换动作，能够实现原始文本到纠正文本的转换，M2指标定义形如： F0.5=1.25*RP/(R+0.25P)下表列举了一组示例和计算过程：表 1 纠错文本示例其中编辑汇合G={孜→自，书→书写}，人工标注编辑汇合E={孜→自,俱→具,读书→读}能够计算出来:P=1/2=0.5R=1/3=0.33F0.5=1.250.330.5/(0.33+0.25*0.5)=0.45 02 ERRANTERRANT[1]是升级版的M2。M2的局限性也比拟显著，依附前置的人工标注，有比拟大的工作量，而且人工标注编辑汇合产生的形式可能不太统一，导致匹配不准。ERRANT在生成标准答案的编辑汇合和生成预测的编辑汇合都采纳了主动判断的形式，同时反对了25种的谬误类型，输入了更丰盛维度的错误报告信息。毛病是该工具面向英文，中文须要做较大革新。 03面向标注状态的其余指标上述两者在解决纠错工作评测时存在一些毛病，包含M2不反对检错性能评估，编辑不能正确反映正当纠错动作等等。咱们会在一些学术评测上看到，依据看待纠文本进行的谬误标注类型来制订的评测指标。上面举了NLPCC2022语法纠错评测指标为例，它对应的谬误类型总共有赘余(Redundant Words，R)、脱漏(Missing Words，M)、误用(Word Selection，S)、错序(Word Ordering Errors，W)四类，评估的维度蕴含以下方面：假阳性（False Positive）：正确句子被判蕴含谬误的比例。侦测层（Detective-level）：对句子是否蕴含谬误做二分判断。从句子是否有错，判断p/r/f1辨认层（Identification-level）：给出谬误点的谬误类型。按一个句子的谬误品种计算p/r/f1定位层（Position-level）：对谬误点的地位和覆盖范围进行判断，以字符偏移量计。谬误地位是否对计算p/r/f1修改层（Correction-level）：提交针对字符串误用（S）和缺失（M）两种谬误类型的修改词语。修改词语能够是一个词，也能够是一个词组。M/S的修改词语角度因为纠错工作自身的特殊性（同一个谬误的文本能够有多种正确的纠正答案，或者同一个地位能够采纳不同的谬误类型进行标注），目前现存的评测指标大都有其局限性，如何定义主客观、对立、正当的语法纠错评测指标依然在一直探讨。公开数据集在确定了评估指标之后，咱们曾经确定了评判算法好坏的一个规范。锅曾经端好，就等米下锅了,数据对于算法研发人员来说是必需品，一方面它是验证成果的信息起源,另一方面它是进行模型构建的训练语料。比拟好的形式是从公开的渠道获取比拟优质的标注数据。目前公开的中文语义纠错数据集包含NLPCC2018[2]、NLPTEA2020[3]、SIGHAN2015[4]等,较多是非母语学生学习汉语收集得来的语料集，训练和验证的数据标注模式如图所示:图1 公开数据集（NLPTEA2020、NLPCC2020和SIGHAN2015）无监督办法文本语义纠错的算法整体能够分成无监督和有监督的两种形式，咱们先从无监督的办法开始看。无监督办法的外围是如何构建一个好用的语言模型，并且用在纠错的工作上。对于NLPer来说，咱们经验了太多的预训练语言模型，像BERT、XLNet、GPT3等等，其本质还是语言模型或者说经典语言模型的一些变种。语言模型实际上是对文本序列的概率分布进行建模，艰深地来表白，语言模型是判断一句话是不是合乎常理，或者谈话应该怎么说才正当（合乎概率分布）。这个正好就对应上了纠错工作的实质需要，咱们从最经典的N元语言模型开始来介绍一下语法纠错的解决逻辑。 01 n元语言模型一个语言模型构建字符串的概率分布p(W)，假如p(W)是字符串作为句子的概率，则概率由下边的公式计算：然而这样去计算句子概率会导致宏大的计算量，导致依据马尔科夫假如，一个词只和他后面n-1个词相关性最高，这就是n元语法模型，简化后的计算公式为：在失去这个论断之后，咱们尝试应用N元语言模型来解决拼写查看的问题。假如咱们采纳的是5元语言模型，训练阶段应用大量的语料来进行统计所有的p(w5|w1w2w3w4)并存储起来。在预测阶段，设定待纠正的文本序列为W={w1,w2,...,wn}，针对每个地位的wk，咱们通过事后构建好的混同集取得w的音近形近字wk'。而后通过上述公式别离计算原始文本和批改文本的句子概率P(w1...wk...wn)、P(w1...wk'...wn)。如果P(w1...wk’...wn)>P(w1...wk...wn)，则阐明批改后文本的通顺度晋升（概率升高），能够承受该纠正批改（wk替换为wk'）。从而咱们的纠错执行过程则蕴含如下：计算输出句子的归一化对数概率，并且为句子的每个字构建一个混同汇合；对句子每个字针对其不同混同字从新打分，利用单个最佳进行校对，将概率进步到以后最高值以上；反复下面过程直至概率没变动。图2 N元语言模型纠错执行计算过程上述过程比拟好了解，同时能够显著看进去一些硬伤，包含会OOV（未登录词）问题导致语言模型计算出来的概率为0；模型会过分虐待高频短串，或者漠视低频短串。这时候须要通过平滑技术来改善概率算法，典型平滑办法蕴含Add-one、Interpolation和Modified Kneser-ney等。此外，仍有些难以通过技术手段解决的问题，包含上下文范畴局限较大（n 的减少会导致计算和资源耗费成倍增加）和短少泛化（不足理论予以的了解），此时须要引入基于神经网络的语言模型。 02基于神经网络的语言模型比拟经典的基于神经网络的语言模型，数学表达式能够写为：以k元文法为例，把前k-1个词作为特色，用softmax预测最初一个词。个别基于神经网络的语言模型设计得更加简单，会把上下文的信息造成特色，来预测当中的每一个词。定义基于上下文context下wi的预测概率为P(wi|context_i),句子的概率能够示意为：办法[5]就是采纳了BERT和GPT作为根底的语言模型来计算句子的概率。有监督办法无监督的纠错算法在解决文本时存在以下弱点：容易受部分高频或低频的序列影响，成果不够稳固；在须要对准确率和召回率进行均衡调整时，不太好通过阈值的形式进行管制；能够较好利用在拼写查看的工作上，然而对于句子长度有变动的语法纠错工作反对就比拟弱。此时须要应用有监督算法来作为实现伎俩。 01 NMT/Seq2Seq解决字词冗余/缺失这类纠错前后句子长度有变动的工作，咱们第一感觉就想起能够通过文本生成的形式来训练对应的模型实现该性能。而且语法纠错工作和文本生成工作的状态基本上是统一的，也导致了文本生成模型很天然地被研究者留神，引入到语法纠错的工作畛域。 NMT-based GEC[6]是第一篇通过应用神经网络机器翻译来实现语法纠错的文章。2014年seq2seq模型一提出即引发了较大反应，后续seq2seq成为了文本生成的支流构造。seq2seq将一个作为输出的序列映射为一个作为输入的序列，这一过程由编码（Encoder）输出与解码（Decoder）输入两个环节组成, 前者负责把序列编码成一个固定长度的向量，这个向量作为输出传给后者，输入可变长度的向量。下图展示了一个根底的seq2seq构造。图3 seq2seq构造办法[7]应用了经典的Encoder-Decoder模型构造来解决中文语法纠错问题，嵌入层应用了非凡的嵌入示意，同时在编码层应用了卷积神经网络强化了纠错的局部性，具体的模型构造如下：图4 Encoder-Decoder构造纠错模型 02 LaserTagger 因为书写谬误的呈现概率广泛不高，纠错工作自身的输入输出存在大量重叠（根本不必改），所以大多数文本能够放弃不变。然而咱们在通过seq2seq的形式进行实现时，对于失常的字符也要全副进行预测，造成效率十分低下。因而谷歌在EMNLP 2019提出了LaserTagger，在应用Encoder-Decoder的模型构造条件下，把预测的内容从文字变成了编辑操作类型。lasertagger其模型构造（采纳BERT作为编码层、自回归Transformer作为解码层）如下所示：图5 LaserTagger纠错模型编辑操作类型蕴含Keep（将单词复制到输入中），Delete（删除单词）和Add（在之前增加短语X），其中被增加的短语来自一个受限的词汇表。通过构造的革新，lasertagger体现了推理速度快和样本训练效率高的有点。因为预测的类型只有三种，绝对于seq2seq而言，解码的空间大幅升高，推理性能晋升显著，绝对于BERT+seq2seq的模型构造，larserTagger的性能晋升靠近100倍。同时因为预测的内容求解空间也大幅升高，所以对样本的需求量也大幅缩小，在1000份的样本下也能获得不错的成果。 03 PIE 与LaserTagger同年提出来的PIE（Parallel Iterative Edit Models）[8]同样是针对seq2seq 生成文本的可控性较差，推理速度也比较慢的问题进行来改良。与LarserTagger相似，PIE结构模型来对编辑操作进行预测，不过编辑操作的类型稍有区别，多了一个替换（replace)和词性变换（面向英文）。在解决替换和增加操作时，PIE将BERT编码层进行了扩大来反对替换和增加的信息输出，采纳了一个双层的双向transformer，构造如下所示：图6 PIE纠错模型上图示意了一个长度为3的文本输出（x1,x2,x3)。在最底层的输出层，M示意mask标识符的嵌入向量，p示意地位嵌入，x示意词嵌入。在中间层和输入层，r示意对应地位的替换信息，h示意对应地位的的原始信息，a示意对应地位的插入信息。之后利用三类信息来别离计算不同操作的概率，并归一化，CARDT 别离代表复制、插入、替换、删除、词形变换，计算公式如下：纠错过程中，PIE模型输入概率最高的编辑操作，实现批改后再迭代地进行预测，直至句子不产生扭转后进行。 ...

关于机器学习:CSE30-Pollution-Lookup

Assignment 7: Pollution LookupRevisitedCSE30: Computer Organization and Systems Fall 2021Instructors: Bryan Chin and George ObaidoDue: Monday, March 7th, 2022 @ 11:59PMPlease read over the entire assignment before starting to get a sense of what you will need toget done in the next week. REMEMBER: Everyone procrastinates but it is important to knowthat you are procrastinating and still leave yourself enough time to finish. Start early. YouMUST run the assignment on the pi cluster. You HAVE to SSH: You will not be able tocompile or run the assignment otherwise.Please read the FAQ and search the existing questions on Edstem before asking for help.This reduces the load on the teaching staff, and clutter/duplicate questions on Edstem.Additionally, staff support is not guaranteed to be available after 9pm on Wednesdays.Table of Contents ...

关于机器学习:强化学习的基础知识和6种基本算法解释

强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。监督学习(SL):关注在给定标记训练数据的状况下取得正确的输入无监督学习(UL):关注在没有事后存在的标签的状况下发现数据中的模式强化学习(RL):关注智能体在环境中如何采取行动以最大化累积处分艰深地说，强化学习相似于婴儿学习和发现世界，如果有处分(正强化)，婴儿可能会执行一个口头，如果有惩办(负强化)，婴儿就不太可能执行这个口头。这也是来自监督学习和非监督学习的强化学习之间的次要区别，后者从静态数据集学习，而前者从摸索中学习。本文将波及强化学习的术语和根本组成部分，以及不同类型的强化学习(无模型、基于模型、在线学习和离线学习)。本文最初用算法来阐明不同类型的强化学习。本文的公式基于Stuart J. Russell和Peter Norvig的教科书《Artificial Intelligence: A Modern Approach》(第四版)，为了放弃数学方程格局的一致性所以略有改变，。强化学习在深入研究不同类型的强化学习和算法之前，咱们应该相熟强化学习的组成部分。 Agent:从环境中接管感知并执行操作的程序，被翻译成为智能体，然而我个人感觉代理更加失当，因为它就是作为咱们人在强化学习环境下的操作者，所以称为代理或者代理人更失当Environment:代理所在的实在或虚拟环境State (S):代理以后在环境中所处的状态Action (A):代理在给定状态下能够采取的动作Reward (R):采取行动的处分(依赖于口头)，处于状态的处分(依赖于状态)，或在给定状态下采取行动的处分(依赖于口头和状态)在一个婴儿摸索世界的例子中，婴儿(代理)在事实世界(环境)中，可能感到高兴或饥饿(状态)。因而，宝宝能够抉择哭泣，吃或睡(动作)，如果宝宝饿的时候吃了货色(处分)，宝宝就满足了（正处分）。强化学习波及摸索，强化学习的输入是一个最优策略。策略形容了在每个状态下要采取的口头;相似于说明书。比方，政策能够是宝宝饿了就吃，否则，宝宝就该睡觉。这也与监督学习造成了比照，监督学习的输入只是一个繁多的决策或预测，比策略更简略。强化学习的指标是通过优化所采取的口头来最大化总累积处分。和婴儿一样，咱们不都想从生存中取得最大的累积利益吗?；）马尔可夫决策过程(MDP)因为强化学习波及一系列最优行为，因而它被认为是一个间断的决策问题，能够应用马尔可夫决策过程建模。这里的状态(用S示意)被建模为圆圈，动作(用A示意)容许代理在状态之间转换。在上图2中，还有一个转换概率(用T示意)，T(S11, A1, S12)是在状态S11采取A1动作后转换到状态S12的概率。咱们能够认为动作A1是向右的动作A2是向下的。为了简略起见，咱们假如转移概率为1，这样采取行动A1将确保向右挪动，而采取行动A2将确保向下挪动。参照图2，设指标为从状态S11开始，完结于状态S23，黄色状态为好(处分+1)，红色状态为坏(处分-1)，紫色为指标状态(处分+100)。咱们心愿智能体理解到最佳的口头或路线是通过采取行动A2-A1-A1来走向下-右-右，并取得+1+1+1+100的总处分。再进一步，利用金钱的工夫价值，咱们在处分上利用折扣因子gamma，因为当初的处分比当前的处分更好。综上所述，从状态S11开始执行动作A2-A1-A1，预期效用的数学公式如下: 下面的例子是一个简略的例子，个别状况下都会有一些变动，比方，转移概率不可能是1，因为须要在口头中思考不确定性因素，例如采取某些口头可能并不总是保障胜利地向右或向下挪动。因而，咱们须要在这个不确定性上取一个期望值最优动作可能还不晓得，因而个别的示意形式是将动作示意为来自状态的策略，用(S)示意。处分可能不是基于黄色/红色/紫色状态，而是基于前一个状态、口头和下一个状态的组合，用R(S1， (S1)， S2)示意。问题可能不须要4步就能解决，它可能须要有限多的步骤能力达到目标状态思考到这些变动，确定给定状态下策略的冀望效用U(s)的更个别的方程是这样的: 用上图4的话来说，状态的预期效用是折现处分的预期总和。所以一个状态的效用与其相邻状态的效用相干;假如抉择了最优口头，状态的效用是转移的预期处分加上下一个状态的折扣效用。这就是递归。在数学上应用上面的方程示意上图5是驰名的Bellman方程，它求解最大效用并推导出最优策略。最优策略是在思考转移概率的状况下，对所有可能的下一个状态进行求和，使以后状态的最大效用加上下一个状态的折现效用。回到MDP问题中，图2的最优策略是，如果代理处于状态S11, S12或S13，代理应该通过采取动作A2向下挪动，如果代理处于状态S21或S22，则代理应该通过采取动作A1向右挪动。这里的最优策略是通过求解Bellman方程来执行取得最大以后和折现将来处分的口头。 MDP个别用(S, A, T, R)示意，它们别离示意一组状态，动作，转移函数和处分函数。MDP假如环境是齐全可察看的，如果代理不晓得它以后处于什么状态，咱们将应用局部可察看的MDP (POMDP) 图5中的Bellman方程，能够应用值迭代或策略迭代来求解最优策略，这是一种将效用值从将来状态传递到以后状态的迭代办法。强化学习相似于求解MDP，但当初转移概率和处分函数是未知的，代理必须在训练期间执行动作来学习无模型与基于模型的强化学习下面提到的MDP示例是基于模型的强化学习。基于模型的强化学习具备转移概率T(s1, a, s2)和处分函数R(s1, a, s2)，它们是未知的，他们示意要解决的问题。基于模型的办法对仿真很有用。基于模型的强化学习的例子包含值迭代和策略迭代，因为它应用具备转移概率和处分函数的MDP。无模型办法不须要晓得或学习转移概率来解决问题。咱们的代理间接学习策略。无模型办法对于解决事实问题很有用。无模型强化学习的例子包含Q-learning 和策略搜寻，因为它间接学习策略。离线学习vs.在线学习离线学习和在线学习又称为被动学习和被动学习。离线学习在离线(被动)学习中，通过学习效用函数来解决该问题。给定一个具备未知转移和处分函数的固定策略，代理试图通过应用该策略执行一系列试验来学习效用函数。例如，在一辆主动驾驶汽车中，给定一张地图和一个要遵循的大抵方向(固定策略)，但管制出错(未知的转移概率-向前挪动可能导致汽车略微左转或右转)和未知的行驶工夫(处分函数未知-假如更快达到目的地会带来更多处分)，汽车能够反复运行以理解均匀总行驶工夫是多少（效用函数）。离线强化学习的例子包含值迭代和策略迭代，因为它应用应用效用函数的Bellman方程(图5)。其余的一些例子包含间接效用预计、自适应动静布局(Adaptive Dynamic Programming, ADP)和工夫差分学习(Temporal-Difference Learning, TD)，这些将在前面具体论述。在线学习在线(被动)学习中，通过学习布局或决策来解决问题。对于基于模型的在线强化学习，有摸索和应用的阶段。在应用阶段，代理的行为相似于离线学习，采纳固定的策略并学习效用函数。在摸索阶段，代理执行值迭代或策略迭代以更新策略。如果应用值迭代更新策略，则应用最大化效用/值的一步前瞻提取最佳口头。如果应用策略迭代更新策略，则可取得最优策略，并可依照倡议执行操作。以主动驾驶汽车为例，在摸索阶段，汽车可能会理解到在高速公路上行驶所破费的总工夫更快，并抉择向高速公路行驶，而不是简略地沿着大方向行驶(策略迭代)。在应用阶段，汽车依照更新的策略以更少的均匀总工夫(更高的效用)行驶。在线强化学习的例子包含Exploration、Q-Learning和SARSA，这些将在前面几节中具体论述。 ...

关于机器学习:Python中的魔法方法

python中的魔法办法是一些能够让你对类增加“魔法”的非凡办法,它们常常是两个下划线突围来命名的 Python的魔法办法，也称为dunder(双下划线)办法。大多数的时候，咱们将它们用于简略的事件，例如构造函数(__init__)、字符串示意(__str__， __repr__)或算术运算符(__add__/__mul__)。其实还有许多你可能没有据说过的然而却很好用的办法，在这篇文章中，咱们将整顿这些魔法办法! 迭代器的大小咱们都晓得__len__办法，能够用它在容器类上实现len()函数。然而，如果您想获取实现迭代器的类对象的长度怎么办? it = iter(range(100)) print(it.__length_hint__()) # 100 next(it) print(it.__length_hint__()) # 99 a = [1, 2, 3, 4, 5] it = iter(a) print(it.__length_hint__()) # 5 next(it) print(it.__length_hint__()) # 4 a.append(6) print(it.__length_hint__()) # 5你所须要做的就是实现__length_hint__办法，这个办法是迭代器上的内置办法(不是生成器)，正如你下面看到的那样，并且还反对动静长度更改。然而，正如他的名字那样，这只是一个提醒（hint），并不能保障齐全精确:对于列表迭代器，能够失去精确的后果，然而对于其余迭代器则不确定。然而即便它不精确，它也能够帮咱们取得须要的信息，正如PEP 424中解释的那样 length_hint must return an integer (else a TypeError is raised) or NotImplemented, and is not required to be accurate. It may return a value that is either larger or smaller than the actual size of the container. A return value of NotImplemented indicates that there is no finite length estimate. It may not return a negative value (else a ValueError is raised).元编程大部分很少看到的神奇办法都与元编程无关，尽管元编程可能不是咱们每天都须要应用的货色，但有一些不便的技巧能够应用它。 ...

关于机器学习:使用PyTorch进行知识蒸馏的代码示例

随着机器学习模型的复杂性和能力一直减少。进步大型简单模型在小数据集性能的一种无效技术是常识蒸馏，它包含训练一个更小、更无效的模型来模拟一个更大的“老师”模型的行为。在本文中，咱们将摸索常识蒸馏的概念，以及如何在PyTorch中实现它。咱们将看到如何应用它将一个宏大、轻便的模型压缩成一个更小、更高效的模型，并且依然保留原始模型的准确性和性能。咱们首先定义常识蒸馏要解决的问题。咱们训练了一个大型深度神经网络来执行简单的工作，比方图像分类或机器翻译。这个模型可能有数千层和数百万个参数，这使得它很难部署在事实应用程序、边缘设施等中。并且这个超大的模型还须要大量的计算资源来运行，这使得它在一些资源受限的平台上无奈工作。解决这个问题的一种办法是应用常识蒸馏将大模型压缩成较小的模型。这个过程包含训练一个较小的模型来模拟给定工作中大型模型的行为。咱们将应用来自Kaggle的胸部x光数据集进行肺炎分类来进行常识蒸馏的示例。咱们应用的数据集被组织成3个文件夹(train, test, val)，并蕴含每个图像类别的子文件夹(Pneumonia/Normal)。共有5,863张x射线图像(JPEG)和2个类别(肺炎/失常)。比拟一下这两个类的图片: 数据的加载和预处理与咱们是否应用常识蒸馏或特定模型无关，代码片段可能如下所示: transforms_train = transforms.Compose([ transforms.Resize((224, 224)), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])]) transforms_test = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])]) train_data = ImageFolder(root=train_dir, transform=transforms_train) test_data = ImageFolder(root=test_dir, transform=transforms_test) train_loader = DataLoader(train_data, batch_size=32, shuffle=True) test_loader = DataLoader(test_data, batch_size=32, shuffle=True)老师模型在这个背景中老师模型咱们应用Resnet-18并且在这个数据集上进行了微调。 import torch import torch.nn as nn import torchvision class TeacherNet(nn.Module): def __init__(self): super().__init__() self.model = torchvision.models.resnet18(pretrained=True) for params in self.model.parameters(): params.requires_grad_ = False n_filters = self.model.fc.in_features self.model.fc = nn.Linear(n_filters, 2) def forward(self, x): x = self.model(x) return x微调训练的代码如下 ...

关于机器学习:5G新引擎助力矿山向无人化智慧化转型

作者简介马巍，腾讯云 TVP 行业大使，现任三一智矿科技有限公司董事长，企业家、职业经理人、主动驾驶行业专家，曾任职多家出名智能化企业高管。三一智矿由三一团体全资注册成立，马巍学生作为公司创始人，从零开始组建公司团队，打造核心技术，通过四年倒退，公司实现矿山智能化产品研发推广，外围专利技术冲破 200 余件，并已实现井工综采智能化产品多矿利用、露天矿山无人驾驶商业化经营。一、矿山行业时机与挑战并存实际上，早在 2016 年国家就已开始布局智慧矿山的建设，随后，无论是在露天矿还是在井下矿设施方面咱们也都做出了相应的致力和投入。近年来，矿山行业的发展势头非常强劲，然而在倒退过程中也存在一些亟待解决的问题，能够概括为以下几个方面：港环境恶劣、矿难频发、生产平安形势严峻；亟待经营老本、晋升管理效率；从业人员断层重大、招工难；作业形式落后、效率低下等成为普遍性的行业痛点。但也正是基于这样的条件，挑战随同着时机并存，咱们能够借力政策的疏导和新兴技术的引入来推动行业倒退。5G 技术的大带宽、低时延、广连贯等个性，为打造智慧矿山创新型利用，助力矿山行业转型降级奠定了坚实基础。毋庸置疑，智慧化转型是矿山行业倒退的必经之路，其中，智慧化次要体现在机械化“换人”、自动化“减人”，和智能化“无人”三方面。而矿山行业抉择智慧化门路的起因一方面是因为用工荒的内部问题须要失去解决，另一方面则是煤炭行业转型降级的外在要求。智慧矿山建设将推动煤炭行业倒退步入新常态，促成其高质量、高效益倒退。二、5G技术落地智慧矿山的利用随着5G技术在矿山行业的布局，咱们须要正确把握其在井工矿和露天矿不同场景下的具体利用。首先，在井工矿场景下：一方面，咱们要井上井下协同作业。井工矿的整体智能化设计不是从顶层、数据层或平台层，而是从云端层，更多的是设施端。从掘径设施到开采工序，都以设施的智能化、少人化为主，利用 5G 大带宽个性，通过矿用 5G 手机、智能头灯等，井下人员能够随时随地与井上管理人员、技术人员实现暗淡环境下的 4K 超高清视频通话，助力井上技术人员看清井下生产细节，进步治理、技术撑持效率。另一方面，咱们要打造 5G+综采智能化工作面。将工作面数据在集控核心进行汇聚，通过 5G 网络实现高空对工作面采煤机、液压支架、三机设备的近程操作，对工作面监控数据、视频的回传。而在露天矿场景下：其工序相较于井工矿简略许多，次要通过在矿区实现选矿区及矿区指挥调度核心的 5G 网络覆盖，部署 5G+智能采矿、5G+调度零碎、5G+智能管控等利用。 5G 网络的低时延个性在满足管制可交互的条件下，能够实现露天采矿场电动自卸车、宽体车、挖机等设施无人驾驶及近程操控。5G+智能管控平台，实现工作量统计、故障数据统计、设施油耗统计、人员考勤统计等的智能化，极大地晋升了生产运输效率，保障了人员作业平安，真正帮忙企业降本增效。综上所述，无人化、少人化将是矿山行业的将来倒退方向，随着矿山智能化的倒退，行业数字化转型正在加剧，为了实现矿山设备智能化，设施互联成为了必不可少的条件。但做矿区的设施智能化只是第一步，打造一个云端的平台能力真正地将矿山智慧化地调度起来，5G 技术是从“端”到“云”中的一大要害。三、瞻望5G时代智慧矿山的将来作为企业，咱们更多是想将技术利用到整个行业和产品上，目前咱们也在不断完善矿山的解决方案，心愿将来能使用到业务的商业模式和对外的单干模式上。咱们始终贯彻“数字矿山、智慧矿山、绿色矿山”的理念，使用古代 AI、大数据、人工智能、云平台和 5G 等科技，致力于矿山无人驾驶运输、智能矿山管理系统以及 AI 云算法平台的开发和使用，打造具备自主决策能力的智慧矿山经营零碎。值得一提的是，矿山行业的倒退必须从产品画像到杀手个性逐步深刻，将来的智慧矿山肯定是在解决行业顽疾的同时，发明时机与价值。目前三一智矿也和腾讯云达成了深度单干，独特推动矿山无人化的建设，咱们单干推出了“主动驾驶+近程操控”的无人化计划，基于腾讯云实时音视频（TRTC）与 5G 网络交融技术，能够将视频传输时延大幅升高，为作业人员提供更加稳固、晦涩、牢靠的近程操作体验。将来，咱们将持续携手，积极响应国家“数字化”和“双碳”的战略规划，为国家能源行业高质量倒退和数字经济建设提供强有力撑持。

关于机器学习:互联网时代云计算的6大特征

1 云计算的定义云计算是目前业内的热点概念它以凋谢的规范和服务为根底，以互联网为核心，提供平安、疾速、便捷的数据存储和网络计算服务，让互联网这片“云”上的各种计算机独特组成数个宏大的数据中心及计算中心。它能够被看成是网格计算和虚拟化技术的交融：即利用网格分布式计算解决的能力，将IT资源构筑成一个资源池，再加上成熟的服务器虚拟化、存储虚拟化技术，以便用户能够实时地监控和调配资源。云计算更多的是指，通过千万台互联的电脑和服务器进行大量数据运算，为搜索引擎、金融行业建模、医药模仿等利用提供资源和超级计算能力[1]。例如某用户想要建设一个网站，只须要租用运营商提供的虚构服务器就能够了，网站压力过大时，能够霎时申请更多的资源，压力变小时，能够将多余的资源开释。云计算不便了用户对计算资源的获取和治理，从而降低成本。综上，云计算的含意有两个方面。它一方面形容了一种不便的基础设施，用来结构应用程序，其位置相当于PC机上的操作系统；另外一方面则形容了建设在这种基础设施之上的云计算利用。一个计算云是虚拟化的计算资源池，用来包容各种不同的工作模式，并且这些工作模式能够通过疾速部署的形式部署到物理设施上。因为应用了分布式的计算技术，云计算可能将计算扩大到更多的计算资源，以及应用冗余的资源进行容错解决。 2 云计算的特色从上述云计算的定义能够看出，云计算后端具备十分宏大、牢靠的云计算中心，对于云计算使用者来说，在付出大量老本的前提下，即可取得较高的用户体验。更加具体地来说，云计算具备以下6大特色：以互联网为核心。云计算平台运营商以互联网为核心，将存储和运算能力散布在网络所连贯的各个节点之中，从而弱化终端的计算能力，使互联网的计算架构由“服务器＋客户端”向“云服务平台＋客户端”演进。这意味着互联网的重大改革，互联网的性能将更为弱小，甚至引发现有的企业信息化个别模式的扭转。 [3]灵活性。使用户可能疾速和廉价地利用技术基础设施资源。服务的实现机制对用户通明，用户无需理解云计算的具体机制，就能够取得须要的服务。因为可能应用网络浏览器接入零碎，于是用户能够从任何地位，利用正在应用的设施，如个人电脑或者移动电话，通过互联网拜访他们所需的信息，取得他们所需的服务。经济性。老本大大降低，资本开销将转换为业务收入。云计算的基础设施通常是所提供的第三方，这使得用户不须要为了一次性或非经常性的计算工作购买低廉的设施。以计算量为计费规范，也缩小了客户对设施常识的要求。可靠性。云计算零碎由大量商用计算机组成集群向用户提供数据处理服务，利用多种硬件和软件冗余机制，这使得它适宜于业务连续性和劫难复原。云计算的平安因为中央集权的数据管理而进步，这是因为供应商可能把资源用于进行平安审计和解决平安问题，而个别的客户能力或者资金无限。[4]可扩展性。当初大部分的软件和硬件都对虚拟化有肯定反对，各种仃资源，软件、硬件都虚拟化放在云计算平台中对立治理，通过动静的扩大虚拟化的档次达到对以上利用进行扩大的目标。可持续性。因为计算机及相干的基础设施是次要的生产能源，供应商出于各方面思考，都会是通过进步资源利用率，建设更无效的零碎，从而升高整体能耗。3、云计算倒退现状及关键技术1959年，克里斯托弗·斯特雷奇首次提出了虚拟化的概念，随后虚拟化技术一直倒退使得其曾经成为目前云计算底层根底设施的技术撑持，在此之后的几十年倒退中，在1999年，Marc Andreessen创立的第一个商业化IaaS平台：Loud Cloud。随即2006年8月，Google CEO埃里克在搜索引擎大会首次提出“云计算”的概念。到2020年，通过十四年的倒退，云计算曾经从一个概念成长为宏大的产业，有许多公司沉闷的身影。现在，云计算服务是企业最先进的技术，市场还将持续减速变动，各个云计算提供商之间的竞争持续升温。4、工业界对云计算的钻研与利用状况云计算最早起源于工业界，工业界对于云计算的钻研都是围绕产业化和提高效益来开展的，目标是促成产业倒退和使本人身在将来的竞争中占据无利的位置。Goole公司是云计算的先驱者，在其搜索引擎进行了最早的利用，还疏导大学生“云”零碎的编程开发；随即IBM在2007年11月推出的蓝云（bule cloud）计算平台，为客户带来即买即用的云计算平台；亚马逊也于2007年推出的名为“弹性计算机云”（Elastic Compute Cloud，EC2）的免费服务，当然其余IT巨头天然不敢落后，微软大力发展window Live在线服务和数据讯处以及网络软件“Live Mesh”；2008年，雅虎、惠普、意特尔联结发表将建设全球性的开源云计算钻研测试床，称之为Open Cirrus等等这些都算是晚期云计算倒退的见证[5-6]。而随着云计算的疾速衰亡与各大国家、企业的器重，寰球企业开始宽泛应用云计算，从寰球市场来看，曾经造成了“3A”的产品格局。亚马逊的AWS以寰球40%的寰球市场份额占据寰球市场份额占据龙头之位，紧随其后的是微软的Azure，阿里云凭借126%的增速跻身寰球第三。近几年，亚马逊网络服务（AWS）推出了其桌面即服务（DaaS）WorkSpaces，进一步扩大其云生态系统[7]；微软在2013年也推出Cloud OS云操作系统，包含Windows Server 2012 R2、System Center 2012 R2、Windows Azure Pack在内的一系列企业级云计算产品及服务[8]；甲骨文公司也打算布局已从云治理组件转到Oracle、Solaris等虚构零碎服务[9]。除此之外在国内云计算的倒退也获得了显著成就，以阿里云为代表位列首位，百度等企业紧随其后。这些利用都是个随着云计算的倒退而发明的一种不同于以往的全新商业模式，在该模式下用户不在须要关怀如何依据本人的业务需要来购买服务器、软件和解决方案，只须要依据本人的需要，通过互联网来购买本人须要的计算解决资源即可。5、云计算关键技术从各种文献对云计算的形容能够看出，云计算以数据为核心进行密集计算，交融了多种技术。其中云计算平台的重要技术特点是资源的分散化、虚拟化和治理的集中化[5-19]。与云计算机相关的技术至多包含以下几个方面：（1）虚拟化技术虚构技术是云计算技术的外围，能够为云计算提供零碎虚构层面的反对。实现服务器虚拟化，存储虚拟化以及网络虚拟化。（2）分布式海量数据存储大数据时代产生的数据是海量的，而云计算的一个微小劣势就是疾速高效解决海量数据，这种技术具备高吞吐率和高传输率的特点，能够满足大量用户的需要。（3）海量数据管理技术为实现云计算系统对大量数据集进行解决和剖析，进而向云计算用户提供高品质的服务，云计算的数据管理技术必须要实现高效的治理大数据集。（4）编程形式云计算采纳MapReduce编程模式，将工作主动分成多个子工作，通过Map和Reduce两部实现工作在大规模计算节点中的调度与调配。以后，在“互联网+”时代背景下，云计算未然成为数字经济时代下的根底设施，中国放慢施行大数据策略，大数据生态系统的日益完善为云计算倒退奠定了重要根底，云计算也催化出大数据在应用领域的“井喷”。从中国与发达国家的比拟发现，国内云计算硬件方面获得了较快的倒退，但在与云计算软件资源相干的要害畛域应更好地参考国内模式，加大搀扶推动力度，在自由贸易促成方面仍有较大的进步空间。在人工智能的倒退过程中，大数据能够帮忙人工智能作出精准判断，云网络则能够保留大数据运算后果并进一步推动人工智能。因而，在整个人工智能、大数据和云计算的倒退中，云计算为大数据的倒退提供了松软的根底，而云计算和大数据的交融则为人工智能的倒退提供着源源不断的能源，同时，人工智能的继续倒退又为大数据和云计算的倒退带来了更多的时机。这三者之间穿插日渐频繁，界线也日渐含糊，所出现的交融倒退的趋势不可阻挡，人类也必将迎来簇新的信息技术时代。

关于机器学习:强化学习调参技巧二DDPGTD3SAC算法为例

1.训练环境如何正确编写强化学习里的 env.reset() env.step() 就是训练环境。其编写流程如下： 1.1 初始阶段：先写一个简化版的训练环境。把工作难度降到最低，确保肯定能失常训练。记录失常训练的智能体的分数，与随机动作、传统算法失去的分数做比拟。DRL算法的分数应该显著高于随机动作（随机执行动作）。DRL算法不应该低于传统算法的分数。如果没有传统算法，那么也须要本人写一个部分最优的算法评估策略的性能: 大部分状况下，能够间接是对Reward Function 给出的reward 进行求和失去的每轮收益episode return作为策略评分。有时候能够须要间接拿策略的理论分数作为评分须要保障这个简化版的代码：高效、简洁、可拓展 1.2 改良阶段：让工作难度逐步提高，对训练环境env 进行迟缓的批改，时刻保留旧版本的代码同步微调 Reward Function，能够间接代入本人的人类视角，为某些行为增加正负处分。留神处分的均衡（有正有负）。留神不要为Reward Function 增加太多额定规定，时常回过头勾销一些规定，防止适度改正。同步微调 DRL算法，只倡议微调超参数，但不倡议对算法外围进行批改。因为工作变艰难了，所以须要调整超参数让训练变快。同时摸清楚在这个训练环境下，算法对哪几个超参数是敏感的。有时候为了节省时间，甚至能够为 off-policy 算法保留一些典型的 trajectory（不倡议在最终验证阶段应用）。每一次批改，都须要跑一下记录不同办法的分数，确保：随机动作 < 传统办法 < DRL算法。这样能力及时发现代码逻辑上的谬误。要竭力防止代码中呈现复数个的谬误，因为极难排查。 1.3 收尾阶段：尝试缓缓删掉Reward Function 中一些比较复杂的货色，删不掉就算了。抉择<font color="red">高下两组超参数</font>再跑一次，确认没有优化空间。 2. 超参数解释剖析2.1 off-policy算法中常见的超参数网络宽度： network dimension number。DRL 全连贯层的宽度（特色数量）网络层数： network layer number。一个输出张量到输入须要乘上w的次数随机失活： dropout批归一化： batch normalization记忆容量：教训回放缓存 experimence replay buffer 的最大容量 max capacity批次大小： batch size。应用优化器更新时，每次更新应用的数据数量更新次数：update times。应用梯度降落更新网络的次数折扣因子： discount factor、gamma【网络宽度、网络层数】越简单的函数就须要越大容量的神经网络去拟合。在须要训练1e6步的工作中，我个别抉择宽度128、256，层数小于8的网络（请留神，乘以一个w算一层，一层LSTM等于2层）。应用ResNet等构造会有很小的晋升。个别抉择一个稍微冗余的网络容量即可，把调整超参数的精力用在这下面不划算，我倡议这些超参数都粗略地抉择2的N次方，因为：避免适度调参，超参数抉择x+1 与 x-1并没有什么区别，然而 x与2x肯定会有显著区别2的N次方大小的数据，刚好能残缺地放进CPU或GPU的硬件中进行计算，如Tensor Core过大、过深的神经网络不适宜DRL，因为：深度学习能够在整个训练完结后再应用训练好的模型。而强化学习须要在几秒钟的训练后马上应用刚训好的模型。这导致DRL只能用比拟浅的网络来保障疾速拟合（10层以下）并且强化学习的训练数据不如有监督学习那么稳固，无奈划分出训练集测试集去防止过拟合，因而DRL也不能用太宽的网络（超过1024），防止参数适度冗余导致过拟合【dropout、批归一化】她们在DL中失去宽泛地应用，惋惜不适宜DRL。如果非要用，那么也要抉择十分小的 dropout rate（0~0.2），而且要留神在应用的时候关掉dropout。我不必dropout。益处：在数据有余的状况下缓解过拟合；像Noisy DQN那样去促成策略网络摸索害处：影响DRL疾速拟合的能力；稍微减少训练工夫【批归一化】通过大量试验，DRL相对不能间接应用批归一化，如果非要用，那么就要批改Batch Normalization的动量项超参数。 ...

关于机器学习:DGIOT边缘主机功能6USB串口替代普通dtu网关的设备接入

<img width=”100%” src="https://www.dgiotcloud.cn/wp-content/uploads/2022121403290572.png" /> [小迪导读]：dgiot边缘主机自带6个USB口、2个RS232串口以及2个网口，可用组态对边缘主机上的USB口、串口和网口等上的外设进行可视化治理，包含如下性能：通过6个USB口外接USB转485转换器模仿6个485转以太网/无线的网关/dtu2个RS232串口能够模仿2个232转以太网的dtu8个串口(包含虚构串口)能够组成8口的串口服务器通过以太网能够接入局域网内的PLC/OPC/BACnet等工业设施本章只解说6个USB口转串口的设施接入：零碎须要应用的设施：边缘主机USB-485转换器操作步骤：1.应用边缘主机产品边缘主机在原有的数据采集服务器和数据存储核心的根底上，利用边缘主机本身的外设拓展出复合的网关设施性能，例如：dtu、串口服务器、plc网关、楼宇自控网关等多种性能的设施。 2.重启边缘主机通道<img width="60%" src="https://www.dgiotcloud.cn/wp-content/uploads/2022121404122559.png" > [小迪揭示]：非边缘主机无边缘主机通道3.查看登录的边缘主机<img width="80%" src="https://www.dgiotcloud.cn/wp-content/uploads/2022121409253989.png" > 4.IP/amis中点击组态应用边缘主机组态串口配置可参考下方实战教程网关配置配置串口参数服务器地址可近程可本地 <img width="80%" src="https://www.dgiotcloud.cn/wp-content/uploads/2022121404191895.png" > 5.点击下方链接进行设施接入串口设施接入与以下设施接入操作相似(可进行参考) DGIOT实战教程——实在电表接入DGIOT实战教程——实在ModbusRTU接入DGIOT实战教程——甲烷传感器接入DGIOT实战教程——风量传感器接入DGIOT实战教程——红外传感器接入虚构设施尝试接入虚构串口应用阐明虚构电表应用阐明以及介绍DGIOT实战教程——虚构ModbusRTU接入[小迪点评] dgiot边缘主机反对串口接入设施，让用户更加方便快捷的接入设施，并且dgiot边缘主机自带6串口进步设施接入量。通过边缘主机简化了边缘侧线路的布线，不须要网关和供电适配器，通过USB就可提供5V/12V的供电，通过边缘主机晋升了设施的集成化水平，6个USB口最多能接入192个485串口设施通过边缘主机晋升了设施采集管制性能，一个边缘主机能够对上百的传感器进行高频(秒级)的实时采集和管制想理解更多 dgiot 的具体细节，欢送大家在GitHub上查看相干源代码。

关于机器学习:预告｜2022-星策-Summit-企业数智化转型论坛议程公布

Start Together， Star Together ，一起开始，一起闪耀！由星策开源社区主办、思否社区协办的首届“ 星策Summit ” 行将来袭！本次大会面向企业管理层、CTO、CEO、AI工程师、开发者，波及企业智能化转型、MLOps、FeatureStore 等畛域，特邀星策社区成员单位代表、企业智能化转型专家，及 AI 业界当先开源技术讲师，独特分享企智转型优良案例，研究人工智能的前沿翻新技术，共话企智转型与AI技术相结合的新浪潮！企业数智化转型分论坛将于2022年12月16日13:30 线上发展，本论坛聚焦企业数智化转型，携手企业转型专家：胡时伟、沈欣、狄安、付晓岩、刘瑞宝，别离从技术、产业和国家政策方向、开源、企业架构、宏观宏观等角度，深刻分析企业数智化转型痛点、难点，分享转型案例，与转型教训，帮忙企业在数字化浪潮中不落伍，少绕路，少踩坑，推动企业数字化转型取得实效。流动议程：议题一：介绍流动流程+议题讲师：孙越，星策社区产品经理议题二：数字化转型与下一代企业讲师：胡时伟，星策社区导师，第四范式联结创始人，首席架构师议题三：见路不走—数字化落地的思考与实际讲师：沈欣，星策社区导师，广东省连锁经营协会技术委员会联席主席议题四：开源重构软件和企业的生产关系讲师：狄安，星策社区导师，OpenTEKr创始人，上海开源技术协会副秘书长议题五：让咱们独特用架构思维推动数字化转型取得实效讲师：付晓岩，星策社区导师，原IBM 副合伙人、企业架构交付总监，原阿里云新金融事业部资深行业解决方案总监议题六：蒙牛数智化转型方法论讲师：刘瑞宝，蒙牛前数科部总监参加流动：https://6684201514000.huodong... 欢送大家继续关注 & 进qun交换，更多议程敬请期待！

关于机器学习:多元时间序列特征工程的指南

应用Python依据汇总统计信息增加新个性，本文将通知你如何计算几个工夫序列中的滚动统计信息。将这些信息增加到解释变量中通常会取得更好的预测性能。简介自回归多变量工夫序列蕴含两个或多个变量，钻研这些数据集的目标是预测一个或多个变量，参见上面的示例。上图是蕴含9个变量的多变量工夫序列。这些是智能浮标捕捉到的陆地情况。大多数预测模型都是基于自回归的。这相当于解决了一个监督学习回归工作。该序列的将来值是指标变量。输出的解释变量是每个变量最近的过来值。自回归在一个次要假如下工作。最近的过来值蕴含了对于将来的足够信息。但这可能不肯定是真的。咱们能够尝试从最近的数据中提取更多的信息。例如，滚动汇总统计信息有助于形容最近的动静。自动化特色工程特色工程包含提取和生成解释变量，这是任何数据迷信我的项目的要害。特色的品质是模型性能的一个外围方面，所以数据科学家在这个过程中破费了大量的工夫。个性工程通常是一个特地的过程：数据科学家基于他们的畛域常识和专业知识创立个性，如果该过程的可能自动化化解决将会为咱们节俭很多的工夫。让咱们看看如何在多元工夫序列中做到这一点。基线模型读取数据咱们将应用从智能浮标收集的多元工夫序列作为本文的数据集 [1]。这个浮标位于爱尔兰海岸。它捕捉了 9 个与陆地条件相干的变量。其中包含淡水温度、波浪高度和淡水流速等。下面的图 1 显示了 2022 年第一个月的状况。以下是应用 pandas 读取这些数据的办法： import pandas as pd # skipping second row, setting time column as a datetime column # dataset available here: https://github.com/vcerqueira/blog/tree/main/data buoy = pd.read_csv('data/smart_buoy.csv', skiprows=[1], parse_dates=['time']) # setting time as index buoy.set_index('time', inplace=True) # resampling to hourly data buoy = buoy.resample('H').mean() # simplifying column names buoy.columns = [ 'PeakP', 'PeakD', 'Upcross', 'SWH', 'SeaTemp', 'Hmax', 'THmax', 'MCurDir', 'MCurSpd' ]这个数据集钻研的指标是预测SWH(显著波高)变量的将来值。这个变量常被用来量化海浪的高度。这个问题的一个用例是预计海浪发电的大小，因为这种能源是一种越来越受欢迎的代替不可再生能源。 ...

关于机器学习:MSE-Bias²-Variance什么是好的统计估计器

“偏差-方差衡量”是ML/AI中被常常提到的一个风行概念。咱们这里用一个直观的公式来对它进行解释: MSE = Bias² + Variance本文的目标并不是要证实这个公式，而是将他作为一个入口，让你理解统计学家如何以及为什么这样构建公式，以及咱们如何判断是什么使某些估算器比其余估算器更好。用公式来概括细节尽管很直观然而并不具体，所以本文将具体解释为什么我说这个公式是正确的。先决条件如果你对一些外围概念有肯定的理解，这些货色就会更容易了解，所以这里有一个疾速的关键词列表: 偏差;散布;预计;估计量;期望值E(X);损失函数;均值;模型;察看;参数;概率;随机变量;样本;统计;方差V (X) 这些根本的统计学概念你都应该有一个根本的概念，如果有一些疑问请自行搜寻。 E(X)和V(X)期望值 E(X) 期望值，写为 E(X) 或 E(X = x)，是随机变量 X 的实践概率加权平均值。能够通过对X能够取的每个潜在值x乘以相应的概率P(X= x)进行加权(相乘)，而后将它们组合起来(如对身高等连续变量用∫示意，或对离散变量求和，如身高取整到最靠近英寸:E(x) =∑x P(X= x) 如果我有一个偏心的六面骰子，X能够取{1,2,3,4,5,6}中的每一个值，其概率为1/6，所以: E (X) = (1) + (1/6) (2) (1/6) + (3) (1/6) + (4) (1/6) + (5) (1/6) + (6) (1/6) = 3.5 或者说 3.5是X的概率加权平均值，并且没有人在乎3.5是不可能在骰子后果中呈现的。方差V (X) 下面E(X)公式中的(X - E(X))²替换X失去散布的方差： V(X) = E[(X - E(X))²] = ∑[x - E(X)]² P(X = x)这是一个定义，所以这部分没有证实。让咱们计算骰子的方差: ...

关于机器学习:走进一款新的文生图模型-Nvidia-eDiffI

编者按：AIGC(AI生成内容)目前正处于暴发前夜。在前几期的IDP Inspirtation，咱们已经介绍过大语言模型GPT-3，图像编辑模型Imagic和Runway Erase and Replace。本期，让咱们追随Victor Dey一起走进Nvidia的文生图模型eDiff-I，并一起探讨生成式AI的现状挑战和将来前景。以下是译文，Enjoy! 作者 | Victor Dey, VentureBeat 编译 | 岳扬人工智能（AI）文转图生成器畛域是当下科技公司的新战场。当初很多人工智能公司都想要开发一个生成模型，并可能通过绝对简略的文本提醒生成粗劣真切的图像。在OpenAI的DALL-E 2[1]、谷歌的Imagen[2]和Meta的Make-a-Scene以其图像合成能力而闻名于天下之后，Nvidia以其名为eDiff-I[3]的文转图模型退出了这场比赛。与其余通过迭代去噪进行图像合成的生成式文转图模型不同，Nvidia的eDiff-I应用一个专门对生成过程的不同区间进行去噪的弱小去噪器汇合。 Nvidia独特的图像合成算法eDiff-I的开发者将该模型形容为 “新一代生成性人工智能内容创作工具，可能提供前所未有的文转图性能”。在最近发表的一篇论文中[4]，作者说，目前的图像合成算法在很大水平上依赖文本提醒来创立与文本齐全对标的信息，而文本调节简直齐全被疏忽，将图像合成工作转移成产生高度真切的图片。这导致人们意识到比起在整个生成过程中共享模型参数，可能有更好的办法来示意生成过程的这些模型。 “因而，与以后支流的做法相比，咱们更倡议训练一个专门用于不同合成阶段的文转图扩散模型汇合。”Nvidia钻研团队在他们的论文中如此说。“为了放弃模型训练的效率，咱们最开始训练一个繁多的模型，而后将其逐渐拆分成专门的模型，为迭代生成过程的特定阶段进行更进一步的训练。” eDiff-I的图像合成管道是由三个扩散模型组成——一个低分辨率扩散模型，能够合成64 x 64分辨率的样本，以及两个高分辨率扩散模型，能够别离将图像逐渐上采样到256 x 256和1024 x 1024分辨率。这些模型首先通过计算其T5 XXL嵌入和文本嵌入来解决输出的文本。eDiff-I的模型架构还利用了从参考图像计算出来的CLIP图像编码。这些图像嵌入作为格调矢量送入级联扩散模型，逐渐生成分辨率为1024 x 1024的图像。这些独特的步骤使eDiff-I对其生成的内容有更强的管制。除了将文本生成图像外，eDiff-I模型还有两个性能——格调转移，容许你应用参考图像的格调来管制生成的图案的格调，以及 “用文字绘画”，用户能够通过在虚构画布上绘制宰割图来创立图像，这个性能对于用户创立特定场景的图像来说十分不便。图片起源：Nvidia AI 提出一种新的去噪过程扩散模型的合成通常是通过一系列迭代去噪过程进行的，这些流程通过随机乐音逐步生成图像，在整个去噪过程中应用同一个去噪器神经网络。eDiff-I模型采纳了另一种独特的去噪办法，该模型在生成过程的不同期间内训练专门用于去噪的去噪器汇合。Nvidia将这种新的去噪网络称为 “专家级去噪器”，并称这一过程极大地提高了图像生成的品质。eDiff-I应用的去噪架构。图片起源：Nvidia AI Deepgram[5]的首席执行官Scott Stephenson说，eDiff-I提出的新办法能够被使用到DALL-E或Stable Diffusion的新版本中，可使合成图像在品质和控制能力方面获得重大提高。 Stephenson通知VentureBeat：“这必定会减少训练模型的复杂性，但在生产应用过程中并没有明显增加计算的复杂性，可能宰割和定义所产生的图像的每个组成部分应该是什么样子，能够减速图像创作过程。它能让人和机器更加严密地单干。” 比同期间的其余AI文转图生成器好？其余同期间产品如DALL-E 2和Imagen只应用繁多的编码器，如CLIP或T5，而eDiff-I的架构在同一模型中应用两个编码器。这样的架构使eDiff-I可能从雷同的文本输出中产生大量不同的视觉效果。 CLIP为创立的图像提供了风格化的成果，然而，输入的图像常常脱漏文本信息。而应用T5文本嵌入创立的图像能够依据文本信息产生更好的内容。通过联合它们，eDiff-I产生了集成这两种长处的图像。雷同的文本输出产生的变动。图片起源：Nvidia AI 开发团队还发现，文本信息的描述性越强，T5的体现就越比CLIP好，而且将两者联合起来会产生更好的合成输入。该模型还在规范数据集（如MS-COCO）上进行了模型评估，表明CLIP+T5的trade-off曲线显著优于独自的任何一种。 Nvidia的钻研表明，依据Frechet Inception Distance（FID）——这是一种评估人工智能生成的图像品质的指标，eDiff-I的体现优于DALL-E 2、Make-a-Scene、GLIDE和Stable Diffusion等竞争对手。在COCO 2014验证数据集上同当下其余最先进的模型进行的Zero-shot FID得分比拟。图片起源：Nvidia AI Nvidia的钻研称，在对简略和具体的文字说明生成的图像进行比拟时，DALL-E 2和Stable Diffusion都未能依据文字说明精确合成图像。此外，该钻研发现，其余生成模型要么会产生谬误的信息，要么疏忽了一些属性。同时，eDiff-I能够在大量样本根底上正确地从英文文本中建设特色模型。钻研小组也从每种办法中产生了多张输入图像，并挑出了最好的一张列入下图中。生成式AI的以后挑战当下文转图的扩散模型可能使艺术表白大众化，为用户提供了产生粗疏和高质量图像的能力，而不须要专门技能。然而，它们也能够被用于进行照片解决，以达到歹意目标或发明欺骗性或无害的内容。生成模型和AI图像编辑的最新研究进展对图像的真实度和其余方面有着较大的影响。Nvidia示意，可通过主动验证图像真实性和检测伪造的内容来应答此类挑战。目前大规模文转图生成模型的训练数据集大多未经过滤，可能蕴含由模型捕捉并反映在生成数据中的偏差。因而，须要意识到根底数据中的这种偏差，并通过踊跃收集更具代表性的数据或应用偏差校对办法来对消偏差。 ...

关于机器学习:whylogs工具库的工业实践机器学习模型流程与效果监控-⛵

本文解说如何应用whylogs工具库，构建具体的AI日志平台，并监控机器学习模型的流程与成果。外围操作包含：环境配置、新建我的项目并获取ID、获取组织ID和拜访Key、将配置文件写入WhyLabs、监控模型性能指标。作者：韩信子@ShowMeAI 机器学习实战系列：https://www.showmeai.tech/tutorials/41 本文地址：https://www.showmeai.tech/article-detail/395 申明：版权所有，转载请分割平台与作者并注明出处珍藏ShowMeAI查看更多精彩内容残缺的机器学习利用过程，除了数据处理、建模优化及模型部署，也须要进行后续的成果验证跟踪和ML模型监控——它能保障模型和场景是放弃匹配且有优异成果的。模型上线后，可能会存在成果降落等问题，面临数据漂移等问题。详见ShowMeAI的文章机器学习数据漂移问题与解决方案。 ShowMeAI在这篇文章中，将给大家展现如何应用开源工具库 whylogs 构建详尽的 AI 日志平台并监控 ML 模型。日志零碎&模型监控环境配置要构建日志零碎并进行模型监控，会应用到开源数据日志库whylogs，它能够用于捕捉数据的要害统计属性。装置形式很简略，执行下列 pip 命令即可 pip install "whylogs[whylabs]"接下来，导入所用的工具库whylogs、pandas和os。咱们也创立一份 Dataframe 数据集进行剖析。 import whylogs as whyimport pandas as pdimport os# create dataframe with datasetdataset = pd.read_csv("https://whylabs-public.s3.us-west-2.amazonaws.com/datasets/tour/current.csv")应用 whylogs 创立的数据配置文件能够独自用于数据验证和数据漂移可视化，简略的示例如下： import whylogs as whyimport pandas as pd#dataframedf = pd.read_csv("path/to/file.csv")results = why.log(df)这里也解说一下云端环境，即把配置文件写入 WhyLabs Observatory 以执行 ML 监控。为了向 WhyLabs 写入配置文件，咱们将创立一个帐户（收费）并获取组织 ID、Key和我的项目 ID，以将它们设置为我的项目中的环境变量。# Set WhyLabs access keysos.environ["WHYLABS_DEFAULT_ORG_ID"] = 'YOURORGID'os.environ["WHYLABS_API_KEY"] = 'YOURACCESSTOKEN'os.environ["WHYLABS_DEFAULT_DATASET_ID"] = 'PROJECTID' 新建我的项目并获取 IDCreate Project > Set up model > Create Project，整个操作过程如下图所示： ...

关于机器学习:边玩边学交互式可视化图解快收藏这18个机器学习和数据科学网站⛵

机器学习算法实践比拟枯燥乏味，但有许多乏味且有用的网站，您能够像游戏一样交互式操作，并同时学习机器学习概念、模型和利用常识。以下是 ShowMeAI 为大家整顿的18个交互式机器学习网站，学起来！作者：韩信子@ShowMeAI 机器学习实战系列：https://www.showmeai.tech/tutorials/41 深度学习实战系列：https://www.showmeai.tech/tutorials/42 本文地址：https://www.showmeai.tech/article-detail/340 申明：版权所有，转载请分割平台与作者并注明出处珍藏ShowMeAI查看更多精彩内容机器学习的很多算法实践十分枯燥乏味，但有许多乏味且有用的网站，您能够像游戏一样交互式操作，并同时学习机器学习概念、模型和利用常识。以下是 ShowMeAI 为大家整顿的18个交互式机器学习网站，快快来一起体验一下吧，好玩又好学。 Image-to-Image 在线变换在这个网站上，您能够执行图像到图像的转换。在左侧，您能够草绘或创建对象的一些简略示意。而后解决数据，让模型在右侧生成更实在的图像。 Image-to-Image Demo: Interactive Image Translation with pix2pix-tensorflow GAN 在线实验室在这里，您能够理解无关生成反抗网络（GAN）的学习过程的更多信息并对其进行可视化。 GAN Lab 素描 RNN 在线作图在这个网站上，您首先抉择一个物体或动物，而后开始素描。而后，在您放开笔后，神经网络将持续您的草图以创建对象/动物。 magenta: sketch rnn AI 聊天写故事机器人在 AI Dungeon 中，您能够在与 AI 聊天机器人交互时动态创建故事。您能够抉择不同的世界或场景，或者将故事引向您想要的任何方向。 AI Dungeon Tensorflow Embedding 投射器Tensorflow Embedding 投射器是一个很棒的AI可视化平台，咱们能够通过它应用不同的降维技术在 2D 或 3D 中可视化高维数据。它反对上传本人的数据并将其可视化。 Embedding Projector ...

关于机器学习:297个机器学习彩图知识点6

导读本系列将继续更新20个机器学习的知识点。 1. Leaky ReLU 2. 学习曲线 3. 学习 4. 学习速率 5. 线性激活函数 6. 向量的线性组合 7. 线性判别分析 8. 线性无关 9. 线性可分 10. 指数之和的对数 11. 逻辑回归 12. 模型比照 13. sigmoid函数 14. 曼哈顿间隔 15. 矩阵 16. 矩阵求逆 17. 矩阵乘法 18. 马修斯相关系数 19. 最大范数 20. 均匀绝对误差欢送Star -> 学习目录 <- 点击跳转国内链接 -> 学习目录 <- 点击跳转本文由mdnice多平台公布

关于机器学习:使用Python进行交易策略和投资组合分析

咱们将在本文中掂量交易策略的体现。并将开发一个简略的动量交易策略，它将应用四种资产类别:债券、股票和房地产。这些资产类别的相关性很低，这使得它们成为了极佳的危险均衡抉择。动量交易策略这个策略是基于动量的的，因为交易者和投资者早就意识到动量的影响，这能够在宽泛的市场和工夫框架中看到。所以咱们称之为动量策略。趋势跟踪或工夫序列动量 (TSM) 是在繁多工具上应用这些策略的另一个名称。咱们将创立一个根本的动量策略并在 TCS 上对其进行测试以查看其性能。 TSM策略剖析首先，咱们将导入一些库 import numpy as np import pandas as pd import matplotlib.pyplot as plt import yfinance as yf import ffn %matplotlib inline咱们构建根本的动量策略函数TSMStrategy。函数将通过工夫序列的对数回报、感兴趣的时间段以及是否容许做空的布尔变量的布尔变量来返回预期体现。 def TSMStrategy(returns, period=1, shorts=False): if shorts: position = returns.rolling(period).mean().map( lambda x: -1 if x <= 0 else 1) else: position = returns.rolling(period).mean().map( lambda x: 0 if x <= 0 else 1) performance = position.shift(1) * returns return performance ticker = 'TCS' yftcs = yf.Ticker(ticker) data = yftcs.history(start='2005-01-01', end='2021-12-31') returns = np.log(data['Close'] / data['Close'].shift(1)).dropna() performance = TSMStrategy(returns, period=1, shorts=False).dropna() years = (performance.index.max() - performance.index.min()).days / 365 perf_cum = np.exp(performance.cumsum()) tot = perf_cum[-1] - 1 ann = perf_cum[-1] ** (1 / years) - 1 vol = performance.std() * np.sqrt(252) rfr = 0.02 sharpe = (ann - rfr) / vol print(f"1-day TSM Strategy yields:" + f"\n\t{tot*100:.2f}% total returns" + f"\n\t{ann*100:.2f}% annual returns" + f"\n\t{sharpe:.2f} Sharpe Ratio") tcs_ret = np.exp(returns.cumsum()) b_tot = tcs_ret[-1] - 1 b_ann = tcs_ret[-1] ** (1 / years) - 1 b_vol = returns.std() * np.sqrt(252) b_sharpe = (b_ann - rfr) / b_vol print(f"Baseline Buy-and-Hold Strategy yields:" + f"\n\t{b_tot*100:.2f}% total returns" + f"\n\t{b_ann*100:.2f}% annual returns" + f"\n\t{b_sharpe:.2f} Sharpe Ratio")函数输入如下： ...

关于机器学习:CS6382调度算法

CS6382: Assignment 1February 18, 2022Question 1: SchedulingGiven a job set J = { j1, · · · , jn } consisting of n jobs and one machine. Eachjob ji has a processing time pi. The processing time piis a position relatedfunction, i.e., pi = ai, where ∈ { 1, 2, · · · , n } is the position that the job isprocessed and aiis a given parameter which is associated with job ji. Notethat different jobs have different ai. Once a job starts processing, the next jobcannot be started until it finishes.Give an algorithm that computes a job order such that the makespan isminimized, where makespan is the maximum finishing time among all jobs.The algorithm should be polynomial and you need to prove the correctness.Example consider the following job set J = { j1, j2, j3 }, where a1 = 2, a2 = 3and a3 = 4. If the job order is j1, j2, j3, then the makespan is 21 + 32 + 43 = 75.Question 2. Stacking BoxesYou are given a set of n types of rectangular boxes, where the i-th box hasheight h[i], width w[i], and depth d[i] (all positive integers). You want to builda stack of boxes as high as possible, but you can place a box above another onlyif the dimensions of the base of the box below are strictly greater than the baseof the box above. It is possible to turn the boxes, so that all sides can serve asa base. It is also possible to use several instances of the same type of box.Design an algorithm to output the best solution.Question 3. Divide and ConquerGiven an array A with n entries, with each entry holding a distinct number. Thevalues in this array first decrease and then increase with the index. That is, forsome index p between 1 and n, the values in the array entries A[1], A[2], · · · , A[p]decrease and the values in the array entries A[p], A[p + 1], · · · , A[n] increase.Give an algorithm that finds p by reading at most O(log n) entries of A. Youneed to prove the running time of the algorithm.1Question 4. Bin PackingSuppose that we are given a set of n objects, where the size si of the i-th objectsatisfies 0 < si < 1. We wish to pack all the objects into the minimum numberof unit-size bins. Each bin can hold any subset of the objects whose total sizedoes not exceed 1. ...

关于机器学习:星策转型大咖说第二弹前喜茶数字化副总裁前百果科技首席技术市场官沈欣老师数字化转型经验分享

在寰球数字经济的大浪潮下，发展数字化转型，已成为企业适应数字经济，谋求生存倒退的必然选择。星策社区是国内首个聚焦企业智能化转型畛域的开源社区。社区的成立旨在汇聚企业智能化转型，以共享共建的模式减速各行业的转型降级。 “星策转型大咖说”是星策社区发动的一档专门针对企业数字化转型的深度访谈视频节目。专一于访谈在数字化转型过程中可能实现自我进化从而适应以后环境的企业，从而为当下亟待转型的企业带来一些启发。本次“星策社区大咖说”将于 2022年11月28日（下周一）晚 20:00 线上召开！特邀请前喜茶数字化副总裁、前百果科技首席技术市场官-沈欣分享沈欣老师在数字化转型过程中的思考、方法论，以及优质转型案例。流动详情见海报，欢送扫码进群获取直播链接、点击「浏览原文」即可报名参会～社区往期内容可查阅B站（https://space.bilibili.com/12...）

关于机器学习:使用HuggingFace实现-DiffEdit论文的掩码引导语义图像编辑

在本文中，咱们将实现Meta AI和Sorbonne Universite的钻研人员最近发表的一篇名为DIFFEDIT的论文。对于那些相熟稳固扩散过程或者想理解DiffEdit是如何工作的人来说，这篇文章将对你有所帮忙。什么是DiffEdit?简略地说，能够将DiffEdit办法看作图像到图像的一个更受管制的版本。DiffEdit承受三个输出- 输出图像题目-形容输出图像指标查问文本-形容想要生成的新图像的文本模型会依据查问文本生成原始图像的批改版本。如果您想对理论图像进行轻微调整而不须要齐全批改它，那么应用DiffEdit是十分无效的。从上图中能够看到，只有水果局部被梨代替了。这是一个十分惊人的后果! 论文作者解释说，他们实现这一指标的办法是引入一个遮蔽生成模块，该模块确定图像的哪一部分应该被编辑，而后只对遮罩局部执行基于文本的扩散。从下面这张论文中截取的图片中能够看到，作者从输出的图像中创立了一个掩码，确定了图像中呈现水果的局部(如橙色所示)，而后进行掩码扩散，将水果替换为梨。作者提供了整个DiffEdit过程的良好可视化示意。这篇论文中，生成遮蔽掩码仿佛是最重要的步骤，其余的局部是应用文本条件进行扩散过程的调节。应用掩码对图像进行调节的办法与在“Hugging face”的In-Paint 实现的想法相似。正如作者所倡议的，“DiffEdit过程有三个步骤：步骤1:为输出图像增加噪声，并去噪:一次参考提醒文本，一次参考查问文本(或无条件，也就是不参考任何文本)，并依据去噪后果的差别推导出一个掩码。步骤2:对输出图像进行DDIM编码，预计与输出图像绝对应的潜在值步骤3:在文本查问条件下执行DDIM解码，应用推断的掩码将背景替换为来自编码过程中相应工夫步" 1 "的像素值上面咱们将这些思维实现到理论的代码中。让咱们从导入所需的库和一些辅助函数开始。 import torch, logging ## disable warnings logging.disable(logging.WARNING) ## Imaging library from PIL import Image from torchvision import transforms as tfms ## Basic libraries from fastdownload import FastDownload import numpy as np from tqdm.auto import tqdm import matplotlib.pyplot as plt %matplotlib inline from IPython.display import display import shutil import os ## For video display from IPython.display import HTML from base64 import b64encode ## Import the CLIP artifacts from transformers import CLIPTextModel, CLIPTokenizer from diffusers import AutoencoderKL, UNet2DConditionModel, DDIMScheduler ## Helper functions def load_artifacts(): ''' A function to load all diffusion artifacts ''' vae = AutoencoderKL.from_pretrained("CompVis/stable-diffusion-v1-4", subfolder="vae", torch_dtype=torch.float16).to("cuda") unet = UNet2DConditionModel.from_pretrained("CompVis/stable-diffusion-v1-4", subfolder="unet", torch_dtype=torch.float16).to("cuda") tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.float16) text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.float16).to("cuda") scheduler = DDIMScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", clip_sample=False, set_alpha_to_one=False) return vae, unet, tokenizer, text_encoder, scheduler def load_image(p): ''' Function to load images from a defined path ''' return Image.open(p).convert('RGB').resize((512,512)) def pil_to_latents(image): ''' Function to convert image to latents ''' init_image = tfms.ToTensor()(image).unsqueeze(0) * 2.0 - 1.0 init_image = init_image.to(device="cuda", dtype=torch.float16) init_latent_dist = vae.encode(init_image).latent_dist.sample() * 0.18215 return init_latent_dist def latents_to_pil(latents): ''' Function to convert latents to images ''' latents = (1 / 0.18215) * latents with torch.no_grad(): image = vae.decode(latents).sample image = (image / 2 + 0.5).clamp(0, 1) image = image.detach().cpu().permute(0, 2, 3, 1).numpy() images = (image * 255).round().astype("uint8") pil_images = [Image.fromarray(image) for image in images] return pil_images def text_enc(prompts, maxlen=None): ''' A function to take a texual promt and convert it into embeddings ''' if maxlen is None: maxlen = tokenizer.model_max_length inp = tokenizer(prompts, padding="max_length", max_length=maxlen, truncation=True, return_tensors="pt") return text_encoder(inp.input_ids.to("cuda"))[0].half() vae, unet, tokenizer, text_encoder, scheduler = load_artifacts()让咱们还抉择了一个图像，将在代码实现过程中应用它。 ...

关于机器学习:如何为机器学习进行数据标签版本控制和管理

一个丰盛食物数据集的案例钻研介绍几个月前，托洛卡和ClearML公司一起创立了此联结我的项目。咱们的指标是向其余机器学习的从业者展现从收集数据到将数据输出机器学习模型之前，如何对其进行版本化和治理。咱们置信，遵循这些最佳实际将帮忙其他人构建更好、更弱小的人工智能解决方案。如果您也对此好奇，请查看咱们独特创立的我的项目。我的项目：食品数据集咱们是否丰盛现有数据集并让算法学会辨认新特色？咱们在Kaggle上找到了以下数据集，并很快确定它非常适合咱们的我的项目。该数据集由应用MyFoodRepo收集的数千张不同类型的图像组成，并已在Creative Commons CC-BY-4.0 许可下公布。您能够在官网食品辨认基准论文中查看无关此数据的更多详细信息。咱们留神到，食物能够分为两大类：固体和饮料。此外，咱们留神到有些食物……比另一种更可口。那么咱们是否用这些额定的信息来丰盛这个数据集，而后制订一个可能辨认新特色的算法呢？答案是必定的，咱们应用托洛卡和ClearML公司做到了。 —— 如何正文数据？对于这一步，咱们应用了托洛卡众包平台。它是一种工具，您能够在其中创立正文我的项目，而后将其分发给世界各地的近程正文者。我的项目的第一步是创立界面和具体阐明。在这种状况下，咱们想提出两个问题：● 主观问题：对于食物的类型，无论是固体还是液体？● 主观问题：对于一个人是否感觉食物开胃？咱们应用了如下所示的界面：此外，在阐明中，咱们曾经明确阐明了什么是固体和液体食物，给出了例子，并提供了边缘案例。一旦指令和界面准备就绪，咱们就必须为咱们的我的项目邀请执行者。托洛卡正文器遍布世界各地，因而咱们必须认真抉择可能参加咱们我的项目的人员。因为咱们给出的阐明是用英语写的，所以咱们决定只邀请说英语的人，并通过考试来测试他们对它们的了解水平。考试包含10个工作，咱们在这些工作上测试了对于食物类型的第一个问题的答案。咱们有5种固体、4种液体和1个应标记为其余的边缘案例。咱们要求考试成绩达到100%能力进入正文我的项目。下图显示了参加考试的人给出的答案散布。如果您认真查看最初一个条目，您会留神到它的正确响应百分比绝对较低，仅为 49%，而其余部分则高于 90%。这是咱们用来捕获不留神浏览阐明的执行者的边缘案例。最初一张图片由各种类型的食物组成，包含液体和固体，因而它应该被标记为“其余”。侥幸的是，咱们过滤掉了答复谬误的人。咱们为管制正文品质而施行的下一个措施是： ● 疾速响应规定● 重叠● 和管制工作当用户对给定工作的响应过快时，应用疾速响应规定。这意味着他甚至没有工夫正确地查看和查看工作，而且他不太可能失去正确的回应。另一方面，重叠让咱们对响应更有信念，因为每个工作都调配给几个正文者，并且他们的工作能够聚合。在这种状况下，咱们应用了三个重叠。咱们还在失常工作之间调配了管制工作。这意味着对于给正文者的每九个工作，将有一个管制工作查看他给出的响应是否正确。如果正文者对管制工作给出了不正确的响应，他就会被从我的项目中删除。作为此正文的后果，咱们应用三个独特的正文器对 980 张图片进行了正文。收集后果大概须要 30 分钟，破费 6.54 美元。咱们也有总共 105 人参加了这个我的项目。当初能够将后果传递给 ClearML 工具，这些工具将用于版本化和剖析收集的数据。如果您的我的项目须要其余类型的正文，您能够在此处浏览不同的正文演示。数据管理 —— 当初咱们实际上曾经创立了一个框架来获取和正文数据，咱们能够间接应用它，或者更好的是，对它进行版本化，这样咱们就能够记住谁做了什么以及什么时候做的 :) ...

关于机器学习:2022年11月10篇论文推荐

随着最大的人工智能钻研会议(NeurIPS 2022)行将到来，咱们进入了2022年的最初阶段。让咱们回顾一下人工智能世界最近产生了什么。在介绍举荐论文之前，先说一个很有意思的我的项目： img-to-music:设想图像听起来是什么样的模型! https://huggingface.co/spaces...。有趣味的能够看看。上面咱们开始介绍10篇举荐的论文。这里将涵盖强化学习(RL)、扩散模型、主动驾驶、语言模型等主题。 1、Scaling Instruction-Finetuned Language Modelshttps://arxiv.org/abs/2210.11416 Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay et al. 一年前Google 的 FLAN¹ 展现了如何通过将带标签的 NLP 示例从新表述为自然语言指令并将它们蕴含在预训练语料库中来进步语言模型 (LM) 的通用性。这篇论文则扩充该技术利用。 OpenAI 驰名的 GPT系列的模型的一个胜利要害是应用未标记数据进行训练。但这并不意味着自回归 LM 不能应用标记数据进行训练：正文能够注入到模型的训练中而无需任何架构更改。这里的要害思维是：不是让分类头为输入输出标签，而是将带标签的例子从新表述为用自然语言编写的指令。例如，能够将带有标签的情感分类示例转换为具备以下模板的语句：文本：The film had a terrific plot and magnific acting. 标签[POSITIVE] 改为： The film [is good because it] had a terrific plot and magnific acting. 这里有一个问题，就是要将零样本性能与 GPT-3 等齐全自监督模型进行比拟，必须确保评估中应用的工作不蕴含在训练集中！（也就是数据泄露的问题）最后的 FLAN 论文在 137B 参数模型上，应用了有来自几十个 NLP 工作的 30k 额定指令展现了这种技术的弱小性能。在本文中，他们通过将 (1) 工作数量扩大到 1836，(2) 模型大小扩大到 540B 参数，以及 (3) 增加思维链提醒来进入下一个级别。 ...

关于机器学习:一文详解AI模型部署策略

编者按：模型部署是AI开发生产流程中的重要步骤。对于许多组织而言，抉择最佳的模型部署策略以扩大到生产级零碎，都是一项简单且具备挑战的工作。明天IDP将和大家一起，追随Yashawi Nayak，全面理解模型部署策略。“这篇文章是为那些想理解ML模型如何在生产中部署以及在部署这些模型时能够应用什么策略的人筹备的。本文将阐明部署ML模型的根本办法，能够采取的不同部署策略，以及这些策略个别在哪里施行。每个数据迷信团队都会有一套不同的要求，所以要慎重考虑。”以下是译文，Enjoy!作者 | Yashawi Nayak编译 | 岳扬一、理解机器学习模型的部署与部署软件或应用程序相比，模型部署是不一样的。一个简略的ML模型生命周期会有如下这些阶段，如范畴界定、数据收集、数据工程、模型训练、模型验证、部署和监控。 ML生命周期（图片由本文作者提供）当咱们在部署ML模型时，须要思考一些因素，比方：模型的大小和打包——模型的大小对咱们如何打包有微小的影响。较小的模型通常能够被搁置在FastAPI服务器中，并在Docker容器中进行封装。然而，较大的模型可能须要在部署期间加载——从近程存储中拉取，并通过模型服务器（如TFServing或TorchServer）运行。模型的再训练和版本保护——对模型的再训练频率影响着部署策略。你是否常常须要比拟你的模型性能？你在生产环境中须要多长时间能力更新你的模型？你会在生产环境中保护你的模型的不同版本吗？流量和申请路由——依据流量和模型的类型决定实时推理或批量模型部署。你想将多少流量分流到每个版本的模型？有多少用户会有机会拜访某一个模型版本？数据和概念漂移——随着工夫的推移，事实世界的数据在一直变动，这可能不会被反映在模型中。比如说，购买力与工资的关系如何，可能每年或每月都在变动。或者在新冠疫情期间，消费者的购买模式如何变动。但模型大多依赖于历史数据，这影响到咱们的部署架构设计：咱们应该从新训练和重新部署吗？咱们是否应该临时只对模型进行从新训练和阶段性的调整？这个因素在数据迷信团队的长期部署策略中施展较大的作用。对于这些因素，咱们有模型部署的六个常见策略。这些策略次要是从DevOps和UX方法论中借用的，在ML场景中也同样实用。通常，在技术层面上，生产环境中的模型部署波及到API端点网关、负载平衡器、虚拟机集群、服务层、某种模式的持久性数据存储和模型自身。通用模型的部署（图片由本文作者提供）部署策略通常在负载均衡器和服务层面进行配置，次要是配置路由和入口规定。以一个动物辨认和分类零碎为例。从一个简略的猫狗分类器开始，这将是模型的首个版本。假如咱们曾经训练了一个模型的副原本辨认考拉，所以第二个版本是一个猫狗考拉分类器。咱们将如何部署模型的最新版本？模型版本 (图片由本文作者提供) 二、模型部署策略2.1 Big Bang：重新部署WHAT：这种模式的部署是一种“从头开始”的部署形式。你必须移除现有的部署，能力部署新的。 WHERE：在开发环境中个别是能够承受的。能够用不同的配置从新创立部署，次数不限。通常状况下，部署管道会移除现有的资源，并在其地位上创立新的版本。重新部署 (图片由本文作者提供) 这种部署形式会造成到肯定工夫的中断。当初这样的机器学习开发的速度是不可承受的。在咱们的例子中，咱们用版本2替换版本1，这过程中就会替换掉所有相干的基础设施和库配置。 2.2 滚动更新策略WHAT：滚动更新策略是逐个更新模型/应用程序的所有实例。假如你目前有4个正在运行应用程序的pod，而后应用滚动更新策略部署新版本的模型，这样一个接一个的pod会被替换成新的。这种办法造成服务中断的工夫为零。 WHERE：当你想用一个新的版本疾速更新你的整个模型集时会很有用。应用这种策略也容许你在须要时回滚到旧版本。该策略次要用于测试环境，当团队须要测试新版本的模型时。滚动更新策略 (图片由本文作者提供) 一般来说，这不会是生产零碎中的惟一实现办法，除非你仅在整个零碎中部署一个特定版本的模型。在上述例子中，咱们只替换了模型利用pod，放弃其余基础设施原样不动。 2.3 Blue/Green部署WHAT：这种部署模式实质上是一种服务器替换的部署模式。在这种部署模式中，有两个雷同的零碎可用，用户的申请被转到其中一个零碎，而更新则在另一个零碎上实现。一旦更新通过测试和验证，用户的申请就会被路由到较新的零碎，其实实质上是把旧的模型换成新的。 WHERE：次要是在一般应用程序或网络应用场景中应用该种部署形式，也能够用于模型部署，在批处理和实时推理部署中都能够应用。因为该模式是将负载平衡指向一组不同的机器，因而造成服务中断的工夫基本上为零。蓝绿部署（图片由本文作者提供）如你所见，咱们用新的模型版本创立一个新的雷同零碎，而后只需将流量切换到新的零碎。然而，咱们须要把保护两个雷同的基础设施零碎的老本思考进去。是否抉择这种办法取决于基础设施的规模和承受能力。 2.4 金丝雀（Canary）部署WHAT：在Canary部署中，咱们将更新后的模型部署到咱们现有的零碎中，并给局部用户推送新版本模型。这意味着咱们的一小部分用户将可能拜访最新的模型，其余的用户仍将应用旧的版本。这种部署形式次要是用来测试新版本的运行状况。通常，一小部分用户（大概5%-30%）会接触到最新版本，因为这有助于ML工程师和开发人员理解哪些性能可能须要推出，哪些须要重构。 WHERE：当团队须要理解新模型的性能时，通常会在模仿环境（staging）和生产环境（production）中进行Canary部署。这能够通过两种形式进行：金丝雀滚动部署金丝雀并行部署金丝雀部署（左侧为滚动部署，右侧为并行部署) 滚动部署（Rolling Deployment）将最新模型放到同一集群内的大量实例上，并将一组用户申请发送到这些pod。并行部署（Parallel Deployment）在现有实例旁边创立了一组较小的新实例，并将肯定比例的用户申请发送到这些pod上。用户的申请通常通过头信息进行标记，而后通过负载均衡器的配置，将其发送到相应的目的地。这意味着有一组用户被抉择来查看最新的模型，而且同一组用户每次都会看到最新模型。用户申请不会被随机地发送到新的pod。这阐明Canary部署具备会话亲和性。在上文的猫狗考拉分类器例子中，假如选定10%的用户能够向模型提交图像，这10%的用户提交的图像将用考拉选项进行分类，其余用户只能应用猫狗分类器。 2.5 A/B测试WHAT：这种办法在用户体验钻研中应用最多，能够用来评估用户喜爱什么。在机器学习场景中，咱们能够应用这种部署形式来理解用户喜爱什么，哪种模式可能对他们更无效。 WHERE：寰球范畴内的举荐零碎部署中大多采纳此种部署模式。依据人口统计学，例如一个在线购物网站采纳了两种不同类型的举荐引擎，一个服务于个别的用户，一个服务于特定的天文区域——有更多的母语反对。工程师们能够在一段时间后确定哪种引擎能给用户带来更顺畅的体验。为什么咱们须要A/B测试 (图片来自本文作者) 回到咱们举的那个例子中，假如咱们在寰球范畴内部署了猫狗分类器，但咱们在澳大利亚-太平洋岛屿地区部署了版本1和版本2，用户申请有可能被随机发送到版本2。而后从新训练版本2以辨认更多的当地动物种类并部署它，你认为澳大利亚的人们会喜爱哪个版本？ Note：那么Canary和A/B测试之间有什么区别？次要的区别是： Canary是基于会话亲和性（来自客户端的申请总是路由到同一个服务器进行解决）的，大多数状况下，同一组用户将看到最新的模型，而在A/B测试中，用户被随机发送到不同的版本。Canary是专门用来测试应用程序或模型是否按预期工作的，而A/B更多的是为了理解用户体验。Canary的用户比例从未超过50%，很小比例的用户申请（现实状况下低于35%）被发送到较新的测试版本。2.6 影子部署（Shadow）WHAT：影子部署用于生产环境中，用生产数据测试最新版本的模型。生成用户申请的正本并发送给新模型，但现有的零碎也会同时给出响应。 WHERE：如果有一个高流量的生产零碎，为了验证新模型如何解决生产数据和流量负载，能够用影子模式部署新模型。每次向模型发送申请时，都会向更新的版本发送一个申请正本。只由现有的模型发送响应，而新模型不发送响应。 ...

关于机器学习:特征选择技术总结

在本文中，咱们将回顾个性抉择技术并答复为什么它很重要以及如何应用python实现它。本文还能够帮忙你解答以下的面试问题: 什么是特征选择?说出个性抉择的一些益处你晓得哪些特征选择技巧?辨别单变量、双变量和多变量剖析。咱们能用PCA来进行特征选择吗?前向特征选择和后向特征选择的区别是什么?什么是特征选择，为什么它很重要？个性抉择是抉择与ML模型更加统一、非冗余和更相干的根本个性的过程。在ML我的项目中应用个性抉择是必要的，因为: 它有助于缩小数据集的大小和复杂性，并且能够应用更少的工夫来训练模型及进行推理；具备较少特色的简略机器学习模型更容易了解和解释；它能够防止适度拟合。更多特色使模型变得更加简单，并带来维度劫难（误差随着特色数量的减少而减少）。特征选择办法有哪些？有两种常见的办法能够解决特征选择： 1、前向特征选择。应用一个特色（或一小部分）拟合模型并一直增加特色，直到新加的模型对ML 模型指标没有影响。能够应用相干剖析等办法（例如，基于 Pearson 系数），或者您能够从单个特色或特色子集开始拟合模型。 2、向后特征选择。这是与1的相同办法。应用这种办法，能够从残缺的特色集开始，而后迭代地一一缩小性能，缩小特色的同时只有 ML 模型指标放弃不变即可。咱们能够将一些风行的办法总结成以下几种分类： Filtered-based基于过滤的办法：这种办法是最间接的，这种特色的抉择独立于任何机器学习算法。应用统计数据（例如 Pearson 相关系数、LDA 等），依据每个特色如何影响指标后果来抉择重要特色。这是计算密集度最低且速度最快的办法。Wrapper 基于包装器办法：这种办法依据 ML 训练指标后果抉择特色。每个子集在训练后失去一个分数，而后增加或删除特色，并在最终在达到所需的 ML 指标阈值时进行，这种办法能够是前向、后向或递归的。这是计算最密集的办法，因为须要训练许多 ML 模型，并且逐个进行判断抉择。Embedded 基于嵌入的办法：这种办法更加简单，它将下面两种办法组合在一起。这种办法最风行的例子是 LASSO 和树型算法。应用Python进行特征选择本文将应用一个金融科技数据集，该数据集蕴含过来贷款申请人的数据，如信用等级、申请人支出、DTI和其余特色。最初的指标是应用ML预测贷款申请人是否可能守约(无奈领取贷款)。这有助于企业做出决策，例如回绝贷款申请、缩小贷款金额或以更高的利率向危险较高的申请人放贷。我用来运行代码的环境是Kaggle。让咱们开始并加载数据集: %matplotlib inline from matplotlib import pyplot as plt pd.set_option('display.float_format', lambda x: '%.0f' % x) loan = pd.read_csv('../input/lending-club/accepted_2007_to_2018Q4.csv.gz', compression='gzip', low_memory=True) loan.info 数据集蕴含超过200万行(咱们称之为样本)和超过150个特色。这是相当大的数据量，这些数据通常蕴含了很多“噪声”它对咱们的ML工作没有任何的帮忙，因而咱们须要在ML训练产生之前验证数据的品质和适用性。第一步：取得业余的畛域常识对如此详尽的特色列表进行剖析可能须要大量的计算资源和工夫。所以咱们须要具体理解每个数据集的属性。征询并询问行业的专家哪些特色是必要的;例如，在金融科技数据集的例子中可能须要征询每天执行贷款评估的信贷员。信贷员将确切地晓得是什么驱动了他们的决策过程(咱们其实是心愿将这部分过程通过ML实现自动化)。假如咱们已失去了以下倡议(请参阅上面的代码片段)。尽管咱们应该对这些倡议放弃审慎，但它为咱们开始初步工作提供了一个很好的根底，咱们能够进一步改良。 loans = loan[['id', 'loan_amnt', 'term','int_rate', 'sub_grade', 'emp_length','grade', 'annual_inc', 'loan_status', 'dti', 'mths_since_recent_inq', 'revol_util', 'bc_open_to_buy', 'bc_util', 'num_op_rev_tl']] #remove missing values loans = loans.dropna() ...

关于机器学习:精准用户画像商城用户分群20⛵

客户分群（客户细分）对于绘制用户画像、构建个性化推广、产品和服务策略，都十分重要。本文解说此过程中，多种机器学习聚类算法的建模流程与评估模式。作者：韩信子@ShowMeAI 数据分析实战系列：https://www.showmeai.tech/tutorials/40 机器学习实战系列：https://www.showmeai.tech/tutorials/41 本文地址：https://www.showmeai.tech/article-detail/334 申明：版权所有，转载请分割平台与作者并注明出处珍藏ShowMeAI查看更多精彩内容很多公司的技术人员在做用户画像的工作，细分客户/客户分群是一个很有意义的工作，能够确保企业构建更个性化的消费者针对策略，同时优化产品和服务。在机器学习的角度看，客户分群通常会采纳无监督学习的算法实现。利用这些办法，咱们会先收集整理客户的根本信息，例如地区、性别、年龄、偏好等，再对其进行分群。在之前的文章基于机器学习的用户价值数据挖掘与客户分群中，ShowMeAI 曾经做了一些用户分群实操介绍，本篇内容中，ShowMeAI 将更深刻地介绍聚类分群的办法，应用更丰盛的建模形式，并分析模型评估的办法模式。数据加载 & 根本解决咱们先应用 pandas 加载 Mall_Customers数据，并做了一些最根本的数据荡涤，把字段名称更改为清晰可了解的字符串格局。实战数据集下载（百度网盘）：公众号『ShowMeAI钻研核心』回复『实战』，或者点击这里获取本文 [[27]基于多种聚类算法的商城用户分群！绘制精准用户画像](https://www.showmeai.tech/art...) 『Mall_Customers数据集』 ⭐ ShowMeAI官网GitHub：https://github.com/ShowMeAI-Hub df= pd.read csv( "Mall Customers.csv")df.rename (columns={"CustomerID": "id", "Age": "age", "Annual Income (k$)": "annual_income", "Spending Score (1-100)": "spending_score"}, inplace=True)df.drop(columns=["id"], inplace=True) 探索性数据分析本文数据操作解决与剖析波及的工具和技能，欢送大家查阅 ShowMeAI 对应的教程和工具速查表，快学快用。图解数据分析：从入门到精通系列教程数据迷信工具库速查表 | Pandas 速查表数据迷信工具库速查表 | Matplotlib 速查表数据迷信工具库速查表 | Seaborn 速查表上面咱们对数据做一些探索性数据分析，首先咱们的特色字段能够分为数值型和类别型两种类型。前面咱们独自对两类特色字段进行剖析。 numcol = ["age", "annual_income", "spending_score"]objcol = ['Gender'] 单变量剖析① 类别型特色咱们对性别（女性和男性）做计数统计和绘图，代码如下： ...

关于机器学习:工业场景全流程机器学习开发并部署服务到云端-⛵

本文以保险金额预估为例，解说机器学习从开发到云端服务部署的全流程：基于PyCaret开发机器学习全流程、基于Flask搭建繁难前端Web应用程序、在Heroku云上部署机器学习利用。作者：韩信子@ShowMeAI 机器学习实战系列：https://www.showmeai.tech/tutorials/41 本文地址：https://www.showmeai.tech/article-detail/333 申明：版权所有，转载请分割平台与作者并注明出处珍藏ShowMeAI查看更多精彩内容本篇内容 ShowMeAI 将带大家学习，从头开始构建机器学习管道，应用 Flask 框架构建 Web 应用程序，并部署到云服务器上的过程。具体包含：何为机器学习利用部署基于 PyCaret 开发机器学习全流程基于 Flask 搭建繁难前端 Web 应用程序在 Heroku 云上部署机器学习利用本示例中的利用为保险金额预估，部署好的云端服务页面如下图所示，能够点击这里体验。环境&工具 PyCaret PyCaret 是一个开源的低代码机器学习库，用于在生产中训练和部署机器学习管道/流水线和模型。咱们能够通过pip装置 PyCaret。 # 装置pycaretpip install pycaret Flask Flask 是一个用于在 Python 中构建 Web 应用程序的轻量化框架。咱们本次的利用须要部署成Web端可交互操作应用的状态，会用到这个工具库，咱们同样能够通过pip装置它。 # 装置flaskpip install flask Heroku Heroku 是一个平台即服务（PaaS），它反对基于托管容器零碎部署 Web 应用程序，具备集成的数据服务和弱小的生态系统。咱们将基于它将应用程序部署到云端，进而大家能够间接通过 URL 在浏览器端拜访利用。部署机器学习服务在企业的理论生产中，咱们常常会把机器学习模型构建成服务状态，这样合作的开发共事能够通过接口（API）来拜访模型服务，实现预估工作，这被称为部署机器学习利用过程。更全一点说，生产中应用机器学习管道有两种宽泛的形式：批量预测将模型或管道存储在磁盘中，定期运行脚本，加载模型和数据，生成预测并将输入写入磁盘。这种状况下，多个预测会并行。它对于时效性要求不高。在线预测须要实时预测，大家应用到的很多 app，其实都是输出信息，而后在单击提交按钮时，实时预估生成预测的。比方你在电商平台输出搜索词，点击查问，能够看到模型排序好的后果列表返回。本教程中，咱们解说的是『在线预测』这种模式。咱们将首先应用 PyCaret 在 Python 中构建机器学习管道，而后应用 Flask 构建 Web 应用程序，最初将所有这些部署在 Heroku 云上。 ...

关于机器学习:使用马尔可夫链构建文本生成器

本文中将介绍一个风行的机器学习我的项目——文本生成器，你将理解如何构建文本生成器，并理解如何实现马尔可夫链以实现更快的预测模型。文本生成器简介文本生成在各个行业都很受欢迎，特地是在挪动、利用和数据迷信畛域。甚至新闻界也应用文本生成来辅助写作过程。在日常生活中都会接触到一些文本生成技术，文本补全、搜寻倡议，Smart Compose，聊天机器人都是利用的例子，本文将应用马尔可夫链构建一个文本生成器。这将是一个基于字符的模型，它承受链的前一个字符并生成序列中的下一个字母。通过应用样例单词训练咱们的程序，文本生成器将学习常见的字符程序模式。而后，文本生成器将把这些模式利用到输出，即一个不残缺的单词，并输入实现该单词的概率最高的字符。文本生成是自然语言解决的一个分支，它依据之前察看到的语言模式预测并生成下一个字符。在没有机器学习之前，NLP是通过创立一个蕴含英语中所有单词的表，并将传递的字符串与现有的单词匹配来进行文字生成的。这种办法有两个问题。搜寻成千上万个单词会十分慢。生成器只能补全它以前见过的单词。机器学习和深度学习的呈现，使得NLP容许咱们大幅缩小运行时并减少通用性，因为生成器能够实现它以前从未遇到过的单词。如果须要NLP能够扩大到预测单词、短语或句子! 对于这个我的项目，咱们将专门应用马尔可夫链来实现。马尔可夫过程是许多波及书面语言和模仿简单散布样本的自然语言解决我的项目的根底。马尔可夫过程是十分弱小的，以至于它们只须要一个示例文档就能够用来生成外表上看起来实在的文本。什么是马尔可夫链?马尔可夫链是一种随机过程，它为一系列事件建模，其中每个事件的概率取决于前一个事件的状态。该模型有一组无限的状态，从一个状态挪动到另一个状态的条件概率是固定的。每次转移的概率只取决于模型的前一个状态，而不是事件的整个历史。例如，假如想要构建一个马尔可夫链模型来预测天气。在这个模型中咱们有两种状态，晴天或雨天。如果咱们明天始终处于晴朗的状态，今天就有更高的概率(70%)是晴天。雨也是如此;如果曾经下过雨，很可能还会持续下雨。然而天气会扭转状态是有可能的(30%)，所以咱们也将其蕴含在咱们的马尔可夫链模型中。马尔可夫链是咱们这个文本生成器的完满模型，因为咱们的模型将仅应用前一个字符预测下一个字符。应用马尔可夫链的长处是，它是精确的，内存少(只存储1个以前的状态)并且执行速度快。文本生成的实现这里将通过6个步骤实现文本生成器: 生成查找表:创立表来记录词频将频率转换为概率:将咱们的发现转换为可用的模式加载数据集:加载并利用一个训练集构建马尔可夫链:应用概率为每个单词和字符创立链对数据进行采样:创立一个函数对语料库的各个局部进行采样生成文本:测试咱们的模型 1、生成查找表首先，咱们将创立一个表，记录训练语料库中每个字符状态的呈现状况。从训练语料库中保留最初的' K '字符和' K+1 '字符，并将它们保留在一个查找表中。例如，设想咱们的训练语料库蕴含，“the man was, they, then, the, the”。那么单词的呈现次数为: “the” — 3“then” — 1“they” — 1“man” — 1上面是查找表中的后果: 在下面的例子中，咱们取K = 3，示意将一次思考3个字符，并将下一个字符(K+1)作为输入字符。在下面的查找表中将单词(X)作为字符，将输入字符(Y)作为单个空格(" ")，因为第一个the前面没有单词了。此外还计算了这个序列在数据集中呈现的次数，在本例中为3次。这样就生成了语料库中的每个单词的数据，也就是生成所有可能的X和Y对。上面是咱们如何在代码中生成查找表: def generateTable(data,k=4): T = {} for i in range(len(data)-k): X = data[i:i+k] Y = data[i+k] #print("X %s and Y %s "%(X,Y)) if T.get(X) is None: T[X] = {} T[X][Y] = 1 else: if T[X].get(Y) is None: T[X][Y] = 1 else: T[X][Y] += 1 return T T = generateTable("hello hello helli") print(T) #{'llo ': {'h': 2}, 'ello': {' ': 2}, 'o he': {'l': 2}, 'lo h': {'e': 2}, 'hell': {'i': 1, 'o': 2}, ' hel': {'l': 2}}代码的简略解释： ...

关于机器学习:HIFIVE-音加加多场景音乐版权解决方案让用音乐更便捷

HIFIVE 音加加，提供音乐内容、经营能力、音频技术以及音乐的多场景利用，旨在音乐能够做有限叠加。利用场景提供短视频、直播/语聊房、K 歌、在线工具、音频播放、公播等多场景一站式音乐版权解决方案。点击返回： HIFIVE音加加官网产品亮点• 流行歌曲 API 受权，产品灵便接入； • 业余音乐经营团队，打造行业曲库； • 按使用量计费，缩小启动老本； • AI 音乐能力凋谢，赋能产业降级；技术创新HIFIVE 音加加联合应用多种最新的技术计划，实现综合化、专业化的服务解决方案，在音乐行业具备多个创新性：（1）音乐商用受权从线下搬到线上，通过 SAAS 服务解决了歌曲同步上新、传统唱片公司音乐类型无限、定价艰难、交易会谈艰难等问题，可极大地节约交易成本；（2）利用区块链技术进行版权确权，解决音乐版权使用者放心的版权不清晰问题和音乐人放心的版权被窃问题，让上下游结算更透明化；（3）深度优化音乐指纹技术，在抗噪声、多段辨认等多个指标上都超过同行竞品；（4）深耕 AI 作词/作曲/演唱等技术，实现了音乐作品的商业收益；我的项目产品能更好的服务于寰球社交娱乐 APP、内容创作工具，围绕音视频内容产业倒退造成高水平、高质量的综合服务体系，更好的为音乐版权应用市场提供更专业化、更低成本、更便当的服务。我的项目成绩分享在技术创新的同时，HIFIVE 音加加深度开掘不同利用场景音乐解决方案，与泛娱乐行业短视频、直播、语聊房、K 歌，以及在线工具、智能终端、公播等服务场景深度交融，实现音视频连贯能力降级。牵手泛滥短视频客户共推行业音乐商用正版化HIFIVE 音加加与桥为人商城、晓秀、要得、潮区、唯吾优选、花易宝等泛滥短视频 APP 行业客户达成单干，为其提供一站式短视频音乐解决方案。（晓秀/多样化内容满足用户内容制作需要）通过接入 HIFIVE 音加加正版受权的丰盛版权音乐曲库，短视频平台可无效躲避音乐侵权危险，而且多样化的内容也可为其用户内容制作提供更多的配乐抉择，进一步优化产品服务。欠缺的音乐正版化治理，须要政府、行业、企业及消费者等多方独特合作，HIFIVE 音加加也将与各合作伙伴一起，继续为短视频 BGM 正版化助力。版权音乐助力泛娱乐社交有声降级随同着语音社交衰亡，各潮流玩法频出，HIFIVE 音加加直播/语聊房解决方案，可满足客户的泛娱乐场景配乐需要，调节直播间氛围，让获客转化更乏味；降级在线 K 歌体验，实现线上 K 歌连麦，立体声、混响、变声等性能打造多种音效；此外，HIFIVE 音加加还与平安、牢靠的寰球互联网通信云服务商融云单干，通过 IM+RTC+X 全通信能力与 HIFIVE 版权曲库联合，推出语音社交畛域残缺解决方案，以封装的 SDK 满足开发者疾速集成和上线业务的需要。内容详情：HIFIVE 音加加×融云此外，映宇宙、伊对、微光、Blued、翻咔等也都在应用 HIFIVE 音加加版权音乐服务。赋能各类在线工具场景，让设计更简略对于 PPT、动画、影集、H5 等内容制作，想要内容出彩，音乐是必不可少的元素之一。百度度咔剪辑、WPS X 稻壳儿、兔展、橙光、来画、Insta360 影石、秀展网等泛滥产品服务接入 HIFIVE 音加加版权曲库，平台背景音乐、风行人声、音效，丰盛在线编辑工具素材内容，为用户提供创作灵感，全面满足不同内容创作配乐需要。（图片起源：来画动画-工具） ...

关于机器学习:机器学习算法KNNK近邻算法

导读本文将介绍机器学习中的 K-最近邻算法，K-Nearest Neighbors 是一种机器学习技术和算法，可用于回归和分类工作。 1. 简介 k-最近邻算法，也称为 kNN 或 k-NN，是一种非参数、有监督的学习分类器，它应用邻近度对单个数据点的分组进行分类或预测。尽管它能够用于回归问题，但它通常用作分类算法，假如能够在彼此左近找到类似点。对于分类问题，依据比重调配类别标签，即应用在给定数据点四周最多示意的标签。尽管这在技术上被认为是plurality voting（少数表决），但majority vote一词在书面语中更罕用。这些术语之间的区别在于，majority voting在技术上须要超过 50% ，这次要实用于只有两个类别的状况。当您有多个类别时 - 例如四个类别，您不肯定须要 50% 能力对一个类别做出论断；您能够调配一个占比超过 25% 的类别标签。Wisconsin-Madison大学用了一个例子很好地总结了这一点。 kNN diagram" title="kNN diagram"> 回归问题应用与分类问题相似的概念，但在这种状况下，取 k 个最近邻的平均值来对分类进行预测。次要区别是分类用于离散值，而回归用于间断值。然而，在进行分类之前，必须定义间隔。欧几里得间隔是最罕用的，咱们将在上面深入研究。值得注意的是，kNN 算法也是lazy learning模型家族的一部分，这意味着所有计算都产生在进行分类或预测时。因为它重大依赖内存来存储其所有训练数据，因而也称为基于实例或基于内存的学习办法。 Evelyn Fix 和 Joseph Hodges 在 1951 年的这篇论文中提出了围绕 kNN 模型的最后想法，而 Thomas Cover 在他的钻研中扩大了他们的概念，“Nearest Neighbor Pattern Classification”。尽管它不像以前那么受欢迎，但因为其简略性和准确性，它依然是人们在数据迷信中学习的首批算法之一。然而，随着数据集的增长，kNN 变得越来越低效，影响了模型的整体性能。它通常用于简略的举荐零碎、模式识别、数据挖掘、金融市场预测、入侵检测等。 2. 间隔度量kNN间隔指标计算回顾一下，k-最近邻算法的指标是辨认给定查问点的最近邻，以便咱们能够为该点调配一个类标签。为了做到这一点，kNN 有几个要求：确定间隔度量为了确定哪些数据点最靠近给定查问点，须要计算查问点与其余数据点之间的间隔。这些间隔度量有助于造成决策边界，将查问点划分为不同的区域。您通常会看到应用 Voronoi 图可视化的决策边界。尽管您能够抉择多种间隔度量，但本文仅涵盖以下内容：欧几里得间隔（p=2）：这是最罕用的间隔度量，仅限于实值（ real-valued ）向量。应用上面的公式，它测量查问点和被测量的另一个点之间的直线。曼哈顿间隔（p=1）：这也是另一种风行的间隔度量，它测量两点之间的绝对值。它也被称为出租车（taxicab）间隔或城市街区（city block）间隔，因为它通常用网格可视化，阐明人们如何通过城市街道从一个地址导航到另一个地址。闵可夫斯基（Minkowski）间隔：该间隔度量是欧几里得和曼哈顿间隔度量的狭义模式。上面公式中的参数 p 容许创立其余间隔度量。当 p 等于 2 时，这个公式示意欧几里得间隔，p 等于 1 示意曼哈顿间隔。 ...

关于机器学习:297个机器学习彩图知识点3

导读本系列将继续更新20个机器学习的知识点。 1. 信息失落 2. 提前进行训练劣势 3. 提前进行训练 4. 热点对特色的影响 5. 特征向量 6. 弹性网络 7. 指数型线性单元 8. 编码有序类别特色 9. 集成学习办法 10. 迭代轮数 11. 谬误类型 12. 解释平方和 13. 梯度爆炸 14. 极值 15. F测验 16. F1值 17. 误报率 18. 特色重要度 19. 特征选择策略 20. 前馈神经网络本文由mdnice多平台公布

关于机器学习:2022年最重要的机器学习趋势Top5

机器学习畛域正在疾速的产生着变动，对机器学习和人工智能技术的需要也一劳永逸。作为ML工程师，咱们必须寻求更高效、更无效的办法来筹备数据和构建模型。无论你是机器学习畛域的专家还是老手，你都必须对这个畛域的最新倒退放弃凋谢的心态。上面是一些最新的机器学习技术。它们在很多场景中都有乏味的利用。 01 Automated Machine LearningAutomated Machine Learning(AutoML)是机器学习中的一个十分重要的问题。它的第一个钻研小组于2013 `年由弗莱堡大学的弗兰克·赫特传授成立。主动机器学习（AutoML）是将机器学习模型开发中波及的耗时且反复的工作自动化的过程。应用 AutoML，您能够设计无效且可继续的模型，帮忙提高效率和生产力。传统的机器学习包含几个工作，包含清理数据、抉择适合的特色、指定模型族、优化模型超参数、设计神经网络拓扑、解决模型和剖析后果。这些工作十分的耗时，须要大量的机器学习专业知识。然而，AutoML 引入了现成的机器学习办法来帮忙自动化整个过程。它在解决大量数据时特地有用。 Google AutoML 代码示例： from google.cloud import automl# TODO(developer): Uncomment and set the following variables# project_id = “YOUR_PROJECT_ID”# dataset_id = “YOUR_DATASET_ID”# display_name = “YOUR_MODEL_NAME”client = automl.AutoMlClient()# A resource that represents Google Cloud Platform location.project_location = f"projects/{project_id}/locations/us-central1"# Leave model unset to use the default base model provided by Googlemetadata = automl.TextClassificationModelMetadata()model = automl.Model( display_name=display_name, dataset_id=dataset_id, text_classification_model_metadata=metadata,)# Create a model with the model metadata in the region.response = client.create_model(parent=project_location, model=model)print(“Training operation name: {}”.format(response.operation.name))print(“Training started…”)自动化ML使机器学习更加的敌对，并使那些没有编程语言教训的人也可能实现ML的解决方案。它容许更快、更精确的输入、麻利的问题解决，并能做出最佳的实际成绩。 ...

关于机器学习:tSNE如何理解与高效使用

摘要只管t-SNE对于可视化高维数据十分有用，但有时其后果可能无奈解读或具备误导性。通过摸索它在简略状况下的体现，咱们能够学会更无效地应用它。摸索高维数据的一种风行办法是t-SNE，由 van der Maaten 和 Hinton 在 2008 年提出。该技术已在机器学习畛域失去广泛应用，因为它具备简直神奇的能力，能够从数百甚至数千维的数据中获取其二维的示意。只管后果令人印象粗浅，但这些后果很容易被误读。本文的目标就是指出一些常见的误会。咱们将通过一系列简略的示例来阐明 t-SNE 图能够显示和不能显示的内容。t-SNE 技术的确很有用——但前提是你晓得如何解释它。深入研究之前：如果您以前没有遇到过 t-SNE，那么您须要理解它背地的数学知识。其指标是在高维空间中获取一组点，并在低维空间（通常是 2D 立体）中找到这些点的示意。该算法是非线性的，并适应底层数据，对不同区域执行不同的转换。这些差别可能是造成凌乱的次要起源。 t-SNE 的第二个特色是可调整的参数，perplexity，它阐明了如何在数据的部分和全局之间均衡注意力。从某种意义上说，该参数是对每个点的近邻数量的猜想。perplexity值对生成的图片有简单的影响。原论文说，“SNE的性能对perplexity的变动相当持重，典型值在 5 到 50 之间。”充分利用 t-SNE 可能意味着须要剖析具备不同 perplexity的多个图。例如，t-SNE 算法并不总是在间断运行中产生相似的输入，并且还有与优化过程相干的超参数。 1. 超参数超参数的重要性让咱们从 t-SNE 的“hello world”开始：由两个相隔很远的 `clusters 组成的数据集。为了尽可能简略，咱们将思考二维立体中的cluster，如下左图所示。（为了比照，两个cluster采纳不同的色彩示意。）右下图显示了五种不同 perplexity 的 t-SNE` 图。 perplexity " title="perplexity "> van der Maaten 和 Hinton 倡议的 perplexity 在 (5 - 50) 范畴内，这些图的确显示了这些 `clusters，只管形态十分不同。在这个范畴之外的后果变得有点奇怪。对于 perplexity = 2，部分变动占主导地位。 perplexity=100 的图像表明：为了使算法失常运行，perplexity`应该小于点的数量。否则，可能会产生意想不到的后果。下面的每个图都是用 5,000 次迭计算作的，学习率（通常称为epsilon）为 10，并且在第 5,000 步时后果趋于稳定。 ...

关于机器学习:11个常见的分类特征的编码技术

机器学习算法只承受数值输出，所以如果咱们遇到分类特色的时候都会对分类特色进行编码，本文总结了常见的11个分类变量编码方法。 1、ONE HOT ENCODING最风行且罕用的编码方法是One Hot Enoding。一个具备n个观测值和d个不同值的繁多变量被转换成具备n个观测值的d个二元变量，每个二元变量应用一位（0，1）进行标识。例如：编码后最简略的实现是应用pandas的' get_dummies new_df=pd.get_dummies(columns=[‘Sex’], data=df)2、Label Encoding为分类数据变量调配一个惟一标识的整数。这种办法非常简单，但对于示意无序数据的分类变量是可能会产生问题。比方：具备高值的标签能够比具备低值的标签具备更高的优先级。例如下面的数据，咱们编码后失去了上面的后果： sklearn的LabelEncoder 能够间接进行转换： from sklearn.preprocessing import LabelEncoder le=LabelEncoder() df[‘Sex’]=le.fit_transform(df[‘Sex’])3、Label BinarizerLabelBinarizer 是一个用来从多类别列表创立标签矩阵的工具类，它将把一个列表转换成一个列数与输出汇合中惟一值的列数完全相同的矩阵。例如这个数据转化后后果为 from sklearn.preprocessing import LabelBinarizer lb = LabelBinarizer() new_df[‘Sex’]=lb.fit_transform(df[‘Sex’])4、Leave one out EncodingLeave One Out 编码时，指标分类特色变量对具备雷同值的所有记录会被均匀以确定指标变量的平均值。在训练数据集和测试数据集之间，编码算法略有不同。因为思考到分类的特色记录被排除在训练数据集外，因而被称为“Leave One Out”。对特定类别变量的特定值的编码如下。 ci = (j != i tj / (n — 1 + R)) x (1 + i) where ci = encoded value for ith record tj = target variable value for jth record n = number of records with the same categorical variable value R = regularization factor i = zero mean random variable with normal distribution N(0, s)例如上面的数据： ...

关于机器学习:高精地图养不起的-奢侈品

业内常说，高精地图和激光雷达是主动驾驶车辆的两根拐杖。依附激光雷达的感知力与高精地图的布局力，车企疾速搭建了高超前智能驾驶性能。以高精地图为例，有了 HAD Map 的主动驾驶，就像开启了「上帝视角」，提前获知准确的路况信息与行驶路线。但近期，这根拐杖行业遇到了瓶颈，正面临被弃用的危险，本文就来聊聊业界争执强烈的“重感知，轻地图”。新局势新赛道这一口号最早呈现于2018年，由车企——毫末智行首次提出。过后，这个声音看似很弱，汽车行业內大多无感，但仍把高精地图商们吓了一跳。于是，2019年4月11日，图商巨头高德承诺，“在提供局部收费数据的根底上，标准化高精地图每车年费价格将从千元降至百元。”随后，百度疾速跟进。但高价只换来了短暂的平静。2022年，以毫末、智行者为代表的车企和主动驾驶供应商们陆续表白了扔掉拐棍的欲望，甚至当初高精地图的拥护者华为、小鹏此刻也转舵，走漏了轻地图的用意。除了政策限度，高精地图本身的局限性也愈发显著，使得车企不得不从新思考主动驾驶的底层逻辑问题。养不起的奢侈品如果说，导航地图是给人看的，高精地图就是给“车”看的。高精地图所蕴含的信息丰盛，包含路线类型、曲率、车道线地位等路线信息，以及路边基础设施、障碍物、交通标志等环境对象信息，同时包含交通流量、红绿灯状态信息等实时动静信息。在业务方面，高精地图次要用于人机共驾、超视距感知、高精度定位、车道级门路布局等。然而，拐棍应用容易，用好却不易。现阶段高精地图必须克服两个问题：甲级测绘资质与地图鲜度。这也是压在重地图路线上的两座大山。前不久，自然资源部下发的增强监管高精地图布告，对甲级资质审批进行了收紧，高精地图测绘制作只能由具备导航电子地图制作甲级资质的单位进行。这一动作将许多图商拦在了门外，目前颁布的资质复审企业名单中，滴滴旗下的滴图科技、小鹏旗下的智途科技、上汽和东风投资的晶众信息科技、以及中海庭、易图通和立得空间等图商均暂未在列。另一方面，取得资质的支流图商也同样在为数据处理老本、保护、鲜度等问题发愁。依照车企的要求，高精地图至多要做到日更。有车企人士曾示意，城市场景的高精地图鲜度十分要害，他们心愿图商能达到日更的频率。但事实是，高精地图的大范畴遍及难以一日而蹴，因为老本无人可能累赘，也不会有人违心承当。此外，数据覆盖度也是车企诉求之一。中国作为寰球路况信息最简单的国家，全国的城市道路可不是一个小的工作量。高精地图对于图商来说，已算是“养不起”的奢侈品了。在鲜度、覆盖度、甚至资质都难达标的状况下，为了抢占“进城”风口期，“重感知，轻地图”路线被更多车企留神。被摈弃的“拐杖”最典型的就是毫末，其城市NOH零碎蕴含了2颗125线激光雷达，5颗毫米波雷达，12颗超声波雷达，4颗环视摄像头，4颗侧视摄像头，4颗800万像素感知摄像头，以此来解脱高精地图的限度。小鹏往年刚发行的G9车型标配XNGP智能辅助驾驶零碎主打重感知路线，且不依赖高精度地图，无论有图无图，都能够运行。只管大家都在媒体层面摈弃高精地图，但失去这根“拐杖”后，想要走好“重感知”路线并不轻松，硬件层面的缺失天然须要智能算法层面的补位才行。而现阶段，更多的车企难以短时间内晋升算法等级。于是，车企打的算盘便是，眼下用高德地图实现[过渡]，并一直优化算法与策略，逐渐升高地图的权重，最终实现断舍离。这里，谈到算法，就不得不提及另一个重要名词——数据。要实现“重感知”的主动驾驶路线，数据的积攒是最重要的一环。这是主动驾驶公认的底层逻辑。主动驾驶的感知、决策、执行都离不开数据的加持。企业或者会分享算法，但从不会分享数据。以特斯拉为例，特斯拉的“影子模式”存储了客户自有车辆所采集到的路线信息，后经数据处理模仿绘制属于本人的地图。写在最初就像有人说的，“高精地图对主动驾驶最大的意义，是革除行驶途中的迷雾，取得精准的定位和方向，但当初，高精地图还处在迷雾里期待曙光。” 车企同样在寻找曙光，但眼下，无论抉择哪种路线，主动驾驶都离不开高质量标注数据的堆砌，有数据能力走好主动驾驶这条路。至于，将来高精地图商们的终局，还须要工夫与市场来验证。

关于机器学习:297个机器学习彩图知识点2

导读本系列将继续更新297个机器学习的知识点，欢送关注。 1. 类别特色 2. 链式求导 3. 卡方利用 4. 卡方 5. 分类 6. 训练 7. 混同矩阵 8. CP 9. 累计散布函数 10. 维度之咒 11. 数据加强 12. 代表点聚类 13. 决策树回归 14. 决策树 15. 导数 16. 个性矩阵 17. 行列式 18. KNN 19. 点积 20. 降采样本文由mdnice多平台公布

关于机器学习:阿里云机器学习平台-PAI宣布集成国产深度学习框架-OneFlow

11月4日音讯，在云栖大会上，阿里云机器学习平台 PAI发表集成自研深度学习框架OneFlow，进一步晋升对国产算法框架的反对。阿里云机器学习平台PAI是一站式AI开发平台，提供了丰盛的机器学习组件和云原生开发工具，集成了国内支流的机器学习框架例如TensorFlow、PyTorch和Caffe等。同时，PAI具备开放性的技术架构，反对第三方社区框架集成到PAI平台，以社区镜像或自定义镜像的形式提供给开发者。将自研深度学习框架OneFlow集成到PAI上，也是对机器学习平台PAI开放性的验证，PAI能够在架构上实现包含对国内支流、国内自研在内的任何第三方深度学习框架的反对。 OneFlow 是一款易用、高效、高扩大，自主研发的深度学习框架。其算子和模块编程接口与 PyTorch 兼容性极高，基于 PyTorch 搭建的常见模型简直不必批改即可在 OneFlow 上运行，迁徙成本低。并且能够轻松切换动静模式，模型调试阶段享有和PyTorch 齐全一样的动态图编程体验；除此之外，OneFlow 计算性能卓越，在支流模型上最大有一个数量级的性能晋升，极致零碎级优化实现简直零运行期开销。目前，AI开发者曾经能够在PAI的云原生开发环境中应用OneFlow进行机器学习训练和离线推理。开发者在PAI的深度学习容器DLC中创立训练任务时，只须要在“社区镜像”列表里抉择OneFlow镜像，工作提交后PAI就能够应用OneFlow框架执行深度学习训练任务。开发者也能够在PAI的Data Science Workshop (DSW) 交互式开发工具中装置OneFlow软件并执行基于OneFlow框架的训练任务。除了通过单干集成的形式实现对第三方社区框架的反对，PAI平台还容许开发者应用自定义镜像来执行云原生训练任务。开发者能够在深度学习容器DLC中抉择本人当时保留好的镜像，或者指定自定义镜像地址，在提交训练任务时PAI就会应用该镜像执行相应的工作。PAI平台的开放性架构设计实现对任何第三方机器学习框架的反对，具备良好的可扩展性和丰富性，是基于云原生AI开发的弱小平台。

关于机器学习:预告｜AutoML-Meetup-V1-第四范式-百度-AWS-共探自动机器学习最佳实践

主动机器学习（AutoML）是将机器学习利用于事实问题的端到端流程自动化的过程。随着机器学习部署场景的增多和机器学习算法的提高，AutoML 的利用失去了进一步的倒退。作为升高AI科学家门槛，减速AI利用部署的利器，最近几年在工业界的倒退十分迅速，同时也呈现了许多商业产品和优良的开源我的项目包含AutoGluon，H2O，AutoX，AutoDL 等等。 2022年11月20日14:00，由星策社区主办的第一期 AutoML Meetup 将通过线上直播发展，流动特邀主动机器学习（AutoML）畛域的优良开源我的项目负责人、架构师独特探讨主动机器学习技术计划与最佳实际。流动议程星策社区发起人-谭中意，将分享“AutoML 以后现状”，并为本次流动收场Amazon Web Services 资深利用科学家-实施建，将分享“多模态主动机器学习 -- AutoGluon”，介绍理论生存中的多模态问题以及多模态主动机器学习技术第四范式高级科学家，Kaggle Grandmaster - 蔡恒兴，将分享“4paradigm AutoX 开源主动机器学习解决方案”，介绍表数据主动机器学习的背景及4paradigm AutoX 技术计划和核心技术演示等百度资深研发工程师-李兴修，将分享“百度主动深度学习技术AutoDL与利用”，介绍主动深度学习背景、百度AutoDL核心技术及百度AI平台EasyDL详情：线上直播｜星策社区 AutoML Meetup V1 预约报名-流动-流动行直播交换qun：https://sourl.cn/gx4Qmg

关于机器学习:如何通过机器学习赋能智能研发协作

无论是开发者还是研发团队都心愿取得高效的智能研发体验。作为一家以人工智能技术为外围的企业服务公司，LigaAI在西云数据经营的亚马逊云科技中国（宁夏）区域上构建了新一代智能研发合作平台SaaS服务。采纳Amazon SageMaker等多项亚马逊云科技服务，LigaAI以人工智能赋能工作场景，让开发者们得以把繁冗琐事交给机器去实现，晋升宽广研发团队的合作效率。一、业务需要与挑战在数字翻新时代，如何晋升研发效力并实现降本增效已成为开发团队所关注的外围问题。成立于2020年，LigaAI以人工智能技术为外围，致力于通过AI技术晋升宽广研发团队的合作效率。 “在研发合作平台畛域，曾经有一些高市占率的产品，但他们仍旧只是解决了将工作信息从「线下」搬到「线上」的问题，其中许多信息同步环节仍须要大量的人工操作，并没有产生实质的变动和效率晋升。”LigaAI联结创始人兼CTO张思说道。 “咱们的团队来自于出名互联网企业且有着深厚的AI商业化能力，理解开发者的痛点和需要，因而咱们正在打造一个能适应更宽泛合作、个性化、自动化、智能化的工作平台，让开发者们锦上添花。” 基于以上愿景，新一代智能研发合作平台LigaAI通过人工智能赋能工作场景，让开发者们得以把繁冗琐事交给机器实现，为本人留出更多工夫和精力去钻研技术、探寻灵感，发明更大的价值。定义产品状态时，乘着软件即服务（SaaS）的东风列车，LigaAI以SaaS模式为用户提供便捷体验，继续交付新性能。构建SaaS产品离不开成熟的工具与云平台，LigaAI也须要抉择一个可信赖的云服务提供商，以取得所需的根底资源与AI能力。二、为什么抉择亚马逊云科技（Amazon Web Services）在抉择云服务提供商的过程中，LigaAI从技术当先度、服务易用性与老本等多方面进行了综合评估，最终抉择了由西云数据经营的亚马逊云科技中国（宁夏）区域服务。 01 易用且具备老本效益的机器学习服务LigaAI通过Amazon SageMaker托管机器学习服务，取得了疾速利用AI的能力，胜利为开发者及研发团队提供由机器学习驱动的智能化体验。 “在评估中咱们发现，应用Amazon SageMaker能够用更低的老本开发模型、进行训练，与Amazon S3做集成实现模型的保留和生产公布。一切都在托管的基础设施上实现，咱们能够更加专一业务研发。”张思谈道。 02 丰盛的托管服务，简化SaaS产品的构建过程依靠于云上的托管服务，产品后期的技术门槛被大幅升高，而LigaAI也借助企业级的SLA加强本身产品的可靠性。在Amazon Elastic Kubernetes Service (Amazon EKS)的帮忙下，LigaAI能够在亚马逊云科技上应用Kubernetes轻松部署、治理和扩大容器化应用程序。在SaaS利用的数据管理场景中，Amazon Aurora的分布式、容错能力以及具备自我修复的存储系统也为LigaAI提供了超过 99.99％的可用性，以撑持一直增长的用户需要。 03 用户至上的理念，敌对的反对打算与服务作为技术型企业，LigaAI也心愿在构建SaaS服务的过程中取得更多反对，而西云数据用户至上的理念、业余的技术能力、以及针对初创企业的培植打算为咱们提供了所需的资源。 “面对咱们提出的许多产品和技术的征询，西云数据都能提供疾速响应；退出亚马逊云科技的SaaS Factory打算，咱们能间接与解决方案架构师和SaaS专家对接技术和业务内容、最佳实际。这很好地晋升了咱们的信念与技术能力，减速了SaaS解决方案的构建与交付过程。”张思如是评估道。三、取得的功效通过利用由西云数据经营的亚马逊云科技中国（宁夏）区域的服务，LigaAI在短时间实现了智能研发合作平台SaaS服务的构建并胜利将其推向市场，为企业本身以及开发者与研发团队用户带来了多方面的功效。 01 机器学习驱动的合作新体验通过引入Amazon SageMaker服务提供人工智能反对，LigaAI提供了更加灵便智能的需要排期与工作指派能力，让我的项目管理者或团队领导可能借助自动化的工作拆分与工作指派确保工作处于打算进度，打消延期危险。而人工智能的大规模利用也成为LigaAI的外围劣势。“市场中的同类产品在把开发流程从线下搬到线上时，须要开发者本人录入信息。其中包含很多干燥、机械、重复性的信息，不仅费时费力，还造成数据失真。而LigaAI则用由Amazon SageMaker所驱动的AI等自动化技术代替了 20~50% 的人工数据录入，并且还能提供智能剖析的能力，让用户从AI的利用中真正体验到效率的晋升。”张思谈道。 02 减速产品迭代翻新通过大规模利用Amazon EKS、Amazon SageMaker、Amazon Aurora、Amazon DynamoDB等托管服务，LigaAI可能在几天工夫内实现开发测试环境的搭建，并防止运维带来的额定工作量，全身心投入到新性能的研发工作中。张思提到：“机器学习的算法训练须要耗费大量的计算资源。咱们大量利用了竞价实例，仅AI训练一个场景咱们就实现了约 50~70% 的老本节约，云上老本的升高也意味着咱们可能用更少的老本来经营业务，在云上尝试与验证更多新的技术，并且为用户提供更具价格优势的服务。” 03 独特服务生态行业客户LigaAI也通过亚马逊云科技的生态体系与市场平台接触到更多的潜在用户，依靠平台提供的市场单干时机与资源，实现了业务的快速增长。 “许多翻新的开发团队都抉择了在亚马逊云科技上进行开发，这些开发者都能够通过LigaAI 智能研发合作平台来更好的管理工作流程、团队指标并实现便捷的合作。” 四、展望未来LigaAI将基于成功经验与西云数据发展更宽泛的单干，通过引入亚马逊云科技的数据湖与剖析技术，在人工智能、研发效力晋升与洞察畛域增强投入，帮忙更多开发者与研发团队更加专一于我的项目并开释出更多的创造力。理解更多麻利开发、项目管理、行业动态等音讯，关注咱们的sf账号-LigaAI~ 或者点击LigaAI-新一代智能研发合作平台，在线申请体验咱们的产品。

关于机器学习:预告｜AutoML-Meetup-V1-第四范式-百度-AWS-共探自动机器学习最佳实践

关于机器学习:云手机在黑产中的应用

虚拟化技术是当下黑灰产的热门技术。应用虚拟化环境，让黑灰产能够利用虚拟环境在利用运行环境的更底层这一劣势，对 App 进行神不知鬼不觉的批改，从而防止在剖析、破解 App 上的投入。较早之前以 VirtualApp 为代表的 Android 虚拟化多开工具点燃了新的应用领域，近几年基于 ARM 服务器的虚拟化的技术也开始成熟和流行起来。虚拟机与虚拟化的区别虚拟化技术被广泛应用于服务的容器化。虚拟机和虚拟化的架构图如下：传统虚拟机虚拟化容器虚拟机和虚拟化的比照简略来说，每个虚拟化容器相当于一个沙盒，容器与容器之间互不烦扰；虚拟化容器作为一个利用级别形象（过程级），而虚拟机是作为操作系统级别。出名的虚拟化利用是 Docker 等容器化技术，Docker 中应用了相似 LXC(Linux Container) 的技术来实现，而 LXC 这项技术也能够被利用于在 Linux 零碎上虚拟化 Android 利用的运行环境。什么是 LXC LXC 是 Linux 内核容器个性的用户态接口。通过弱小的 API 和简略的工具，它能够让 Linux 用户轻松创立和管理系统或应用程序容器。 LXC 对其过程有如下特点：内核空间Apparmor 和 SELinux 配置Seccomp 平安机制Chroots（应用 pivot_root）领有内核态相干能力CGroups（控制组）也就是说虚拟化环境能够在更底层的中央，对容器内利用的运行环境作出批改。通过 LXC 在 Linux 上运行安卓利用通过 LXC，咱们能以窗口的模式关上安卓 app，且多个虚构零碎能够共享一些底层资源，效率较高。然而基于 LXC 的虚拟环境在解决不同指令架构，会带来指令转译的性能耗费。也就说，基于 X86 的 Linux 零碎运行基于 ARM 的安卓 App，性能会有相应的折扣。那如果用基于 ARM 运行的 Linux 服务器呢？不就能够进一步节俭在转译环节的性能损耗。于是就有了这篇文章题目中的 —— 云手机，之前被广泛应用于 ARM 云模拟器。 ...

关于机器学习:297个机器学习彩图知识点1

导读本系列将以彩图模式继续更新297个机器学习知识点。 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 本文由mdnice多平台公布

关于机器学习:INFS7901数据库原则

INFS7901 Database PrinciplesProject GuidelinesProject DescriptionIn this project, each student is required to select an application that would benefit from a databaseand build a database application from start to finish. The web user interface is not mandatory forthis project, but can play an important role if you would like to obtain bonus points. The projectrequires two deliverables, where marking schemes are provided in both parts and bonus points areexplained in Part 2.PhilosophyBuilding a full database application from scratch allows you to control the process. Instead ofhaving the pieces decided for you, you must make your own decisions at the beginning and canexperience how they will affect the execution of your project. We will prepare practical sessionsfor the key skills needed, but this project will further facilitate more in-depth practices and takeyou on a tour of a database architect’s responsibilities when designing an application.Goals• Deciding on an application for which database systems would be required;• Modelling the domain of the application, and defining the application functionalities;• Designing and implementing the schema;• Populating the database;• Writing code needed to embed the database system in an application;• (Optional) Building a database application with Graphical User Interface (GUI).For time management, please note that populating the database is only for ensuring necessaryquery operations and is not the main focus of the project.ScheduleThere are two important deadlines that you must meet in order to ensure a successful project:• 13 April: Project proposal (40% of the project grade)• 18 May: Completed project (60% of the project grade)2Part 1: Project ProposalThe goal of the project is to allow you to have the freedom to design your own application. Withthe project proposal, we can give you feedback on the project and tell you if you are on the righttrack – and suggest improvements if not. As an overarching picture, we expect that each projectshould eventually have:• At least five entities, where at least one of them is a weak entity.• At least five relationships, where at least one of them is for generalization/specialization.• At least ten queries (including selection, aggregation, nested, division, deletion and updatequeries) that the database users will be able to operate with.Marking Scheme (In 100-point Scale)The goal of this milestone is for you to tell us exactly what to expect from your final application.Please submit one PDF file that includes the following information. ...

关于机器学习:个保法一周年每日互动个推谈谈隐私计算技术探索与实践

2022年11月1日，《个人信息保护法》（下文简称“个保法”）正式施行1周年。“个保法”施行以来，品牌营销行业产生了哪些变动？企业该如何在平安合规的前提下充沛开掘数据价值，驱动品牌高效、可持续增长？每日互动（个推）高级副总裁、品牌数字化营销专家刘宇从行业现状、解决方案、场景利用等角度动手，为品牌广告主、媒体投放平台以及相干从业者带来“个保法”下品牌发展数字化营销的新思路。点击观看专访视频>>https://www.getui.com/college... “个保法”的施行给品牌营销行业带来了哪些变动？家喻户晓，“个保法”是我国一部十分重要的法律法规，可能推动造成更标准的数据利用，引领整个社会进入更高级的数据文化状态，咱们都应该深刻地学习和钻研“个保法”的各项要求。就品牌营销行业来讲，作为数字化过程比拟当先的一个行业，品牌营销行业曾经从最早的AdTech（“广告技术”）倒退到MarTech（“营销技术”）再到当初的Intelligent Marketing（“智能营销”）时代，一步步实现从信息化到数字化再到智能化的迭代降级。在这一过程中，数据始终施展着重要作用，为营销链路上各个环节都带来了微小的效力晋升。 “个保法”等相干法律法规的施行，为品牌营销生态各方进一步挖掘和利用数据价值提供了欠缺的数据安全保障，正推动着行业朝着更加标准、衰弱的方向倒退。 “个保法”给数据行业设立了车道线、红绿灯，也给行业各方提出了更高的合规要求，一些具体的数据安全场景利用还须要咱们一直去摸索、实际。目前行业里不少品牌客户和企业曾经在隐衷计算、数据安全技术、合规体系建设等方面做了一些相应摸索和储备，但也有一部分客户，就如何在具体场景中落地“个保法”要求存在困惑，亟需可借鉴的方法论和可参考的实践经验。针对品牌营销畛域的这些变动，每日互动采取了哪些策略及应答措施？每日互动也踊跃同行业生态各方开展单干，独特摸索“个保法”下品牌营销的翻新计划，并把在摸索过程中所造成的方法论、实践经验、可借鉴的案例与大家做分享。比方，为了帮忙行业各方解决数据孤岛和数据合作难题，使数据价值从新连贯，咱们积极参与推动平安合规方面的基础设施建设。家喻户晓，发展数字化以及智能化营销所须要解决的数据体量十分大，对于数据处理的时效性要求特地高。同时，在数字化营销过程中参加合作的企业角色比拟多元，各方须要在各环节上都可能无缝对接。每日互动钻研和尝试了十分多的隐衷计算技术和办法，最终摸索出了一种叫作“大数据联结计算（中立国）”的模式，发现它不仅可能使得跨主题、跨场景的数据无效交融，使各数据方得以在一个中立、平安的环境中进行联结计算和建模，促成数据价值平安流转。同时，针对品牌营销行业对大规模多方数据进行高效协同计算、剖析的非凡场景需要，大数据联结计算模式也可能提供很好的撑持，为咱们屡次迭代模型、疾速进行数据分析优化迭代发明良好的根底条件。在大数据联结计算模式下，数据产品的供应方和需求方可能无效连贯和合作在一起，独特开掘数据价值。对数据产品的供应方来说，大数据联结计算模式对数据产品的应用场景进行了严格限度，能帮忙他们缩小数据凋谢和共享方面的很多顾虑。同时，大数据联结计算模式有助于造成数据计算和数据价值对接的网络效应，使得数据产品供应方的边际老本显著升高。对广告主等数据产品的需求方而言，大数据联结计算模式领有弱小的计算性能，能显著升高他们进行数据价值提取的老本，使品牌广告主可能在平安合规的前提下继续高效地发展数字化利用，赋能营销业务场景。另外，咱们发现要服务好一个行业，晋升整个行业在数据处理各环节上的效率，不仅须要品牌的一方数据，也须要媒体数据、广告监测数据、三方数据等都参加到协同计算的链路上来。因而，咱们在强化本身产品能力的平安合规性、推动平安合规基础设施建设的同时，还踊跃协同第三方监测平台、媒体及营销Serving企业等各方，合力推动建设一个更加残缺的、面向品牌营销行业的大数据联结计算生态。同时，针对方才提到的当下品牌营销行业在数据安全利用方面对实践经验、方法论体系等的迫切需要，每日互动在相干部门领导下，和行业搭档们一起探讨交换、凝聚共识，积淀造成了相应的标准和实际规范。由每日互动牵头的国家标准钻研我的项目《信息安全技术精准营销服务数据安全指南》已处于验收阶段，置信后续将给行业发展数据安全利用提供可借鉴的的落地思路和贵重教训。联合实例谈谈相干动作给客户带来的影响。目前，每日互动正携手美妆、日化、衰弱等行业的品牌客户基于大数据联结计算的翻新模式进行联结摸索和实际。通过重复验证，咱们和一些客户曾经在联结建模投放、联结画像统计等场景中获得肯定的功效。比方，咱们与寰球当先的日化品牌单干，基于大数据联结计算模式进行联结建模投放。通过三个多月的工夫，咱们帮忙该品牌客户将智能营销的残缺链路迁徙到了大数据联结计算平台上，并在繁多数据源建模、多方联结建模、根底特色交融、向量化特色交融等方面进行了充沛尝试，以及联合大体量数据对预测购买模型进行了屡次迭代。预测购买模型的作用是预测消费者的购买后劲，可能帮忙品牌将高价值的潜客筛选进去。咱们应用联结搭建、优化的预测购买模型，帮忙该日化品牌进行人群的优选，并在平安可控的环境下实现与广告投放平台的无缝、智能对接，帮忙客户晋升品牌营销的效率。值得一提的是，大数据联结计算平台的类“云原生”个性在这次单干中失去了充分体现。客户反馈，在大数据计算平台上进行屡次计算和模型迭代的过程还是十分高效的，相比传统的隐衷计算技术，他们在大数据计算平台上所破费的工夫和老本投入都缩小了许多。另外一个案例，是咱们和寰球当先的养分保健品牌的单干。与其余品牌客户不同，该养分保健品牌客户曾经在电商平台上搭建了隐衷计算框架。因而，咱们帮忙客户实现了已有隐衷计算基础设施和大数据联结计算平台之间的无缝对接，并与品牌在多方联结建模场景进行了摸索。对客户来讲，电商数据、私域数据、第三方数据、投放数据等可能被从新连贯在一起，从站内到站外，再从站外到站内的建模和投放对接流程失去了买通。综上，从每日互动本身的摸索过程以及服务客户的教训来看，“个保法”在给整个行业带来更高要求的同时，其实也驱动着各方踊跃翻新，摸索更加平安、高效的数据价值提炼形式。“个保法”重塑着品牌营销行业，同时也给其余相干行业带来了深刻影响，正率领咱们进入数据文化的新阶段。 10月28日，在“个保法”一周年行将到来之际，《浙江省推动产业数据价值化改革试点计划》正式印发，强调翻新数据安全保障技术、增强产业数据协同和价值出现，激励各类产业数据价值化场景利用翻新。后续，每日互动也将进一步学习贯彻“个保法”等相干法律法规的各项要求，在合规平安的前提下，和各个行业的搭档一起积极探索和实际，独特开掘更多数据安全利用场景，推动行业衰弱可继续倒退。对于每日互动：每日互动股份有限公司（个推）成立于2010年，是业余的数据智能服务商，致力于用数据让产业更智能。公司将深厚的数据能力与行业“Know-How”有机联合，为互联网经营、用户增长、品牌营销、金融风控等各行业客户以及政府部门，提供丰盛的数据智能产品、服务与解决方案。公司于2019年3月登陆创业板（股票代码：300766），成为国内率先在A股上市的“数据智能”企业。在品牌营销畛域，每日互动为品牌广告主提供消费者人群洞察、广告投放优化、营销归因剖析等全链路服务，用数据助力品牌晋升营销实效。

关于机器学习:一文浅析机器学习优化理论统计分析数据挖掘神经网络人工智能模式识别之间的关系

关系图这几个概念之间的关系能够简要用上图示意。咱们先来理分明机器学习、优化实践、统计分析、数据挖掘、神经网络、人工智能、模式识别每个概念的含意，在这个过程中交叉梳理它们之间的关系，会更加清晰明了。人工智能：人工智能是钻研、开发用于模仿、延长和扩大人的智能的实践、办法、技术及利用零碎的一门新的技术迷信。它由不同的畛域组成，如机器学习，计算机视觉等，钻研畛域包含机器人、语言辨认、图像识别、自然语言解决和专家系统等。总的来说，人工智能钻研的一个次要指标是使机器可能胜任一些通常须要人类智能能力实现的简单工作。机器学习（Machine Learning）：机器学习的外围是“应用算法解析数据，从中学习，而后对新数据做出决定或预测”。也就是说计算机利用以获取的数据得出某一模型，而后利用此模型进行预测的一种办法，这个过程跟人的学习过程有些相似，比方人获取肯定的教训，能够对新问题进行预测。机器学习的概念就是通过输出海量训练数据对模型进行训练，使模型把握数据所蕴含的潜在法则，进而对新输出的数据进行精确的分类或预测。 **机器学习是人工智能的一个分支，也是人工智能的一种实现办法。 **模式识别：模式识别是通过计算机用数学技术办法来钻研模式的主动解决和判读。信息处理过程的一个重要模式是生命体对环境及客体的辨认，咱们把环境与客体统称为“模式”。模式识别钻研如何使机器模仿人的感知性能，从环境感知数据中检测、辨认和了解指标、行为、事件等模式，是人工智能畛域的几个次要分支方向之一。**人工智能是模仿人的智能，那么模式识别就是模仿人的感知性能。 **神经网络：神经网络是一种在生物神经网络下建设的数据处理模型。与人类的神经系统相似，人工神经网络由大量的人工神经元相互连接进行计算，依据外界的信息来扭转本身的构造，次要通过调整神经元之间的权值来对输出的数据进行建模，在一直的更新，迭代与计算后，取得解决问题的能力。神经网络，是一种利用相似于大脑神经突触连接结构进行信息处理的数学模型，它是在人类对本身大脑组织联合和思维机制的意识了解根底之上模仿进去的，它是根植于神经科学、数学、思维科学、人工智能、统计学、物理学、计算机科学以及工程迷信的一门技术。神经网络是一种模型，而模型是实现机器学习的因素之一。数据挖掘：数据挖掘是指有组织有目的地收集数据、剖析数据，并从这些大量数据提取出须要的有用信息，从而寻找出数据中存在的法则、规定、常识以及模式、关联、变动、异样和有意义的构造。数据挖掘是一门涉及面很广的交叉学科，包含数理统计、人工智能、计算机等。波及机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相干技术。数据挖掘能够视为机器学习和数据库的穿插，它次要利用机器学习界提供的技术来剖析海量数据，利用数据库界提供的技术来治理海量数据。统计分析：统计分析是指使用统计办法及与剖析对象无关的常识，从定量与定性的联合上进行的钻研流动。统计分析的次要内容包含描述统计和推断统计。这二者的区别又是什么？描述统计是将钻研中所得的数据加以整顿、归类、简化或绘制成图表，以此形容和演绎数据的特色及变量之间的关系。而推断统计指用概率模式来决断数据之间是否存在某种关系及用样本统计值来揣测总体特色的一种重要的统计办法。以此能够看出前者更偏向于对已有的数据进行整顿，而后者则是在已有法则之下进行预测。人工智能（AI）实质上是数据驱动的，而统计学是一门从数据中发现法则的学科，对人工智能倒退起着至关重要的作用。能够简略地了解为，人工智能就是一个统计学上的利用，咱们当初的人工智能所做的决策都是通过大量数据分析所失去的“教训”而失去的。优化实践：最优化实践是对于零碎的最优设计、最优控制、最优治理问题的实践与办法。最优化，就是在肯定的约束条件下，使零碎具备所期待的最优性能的组织过程。是从泛滥可能的抉择中作出最优抉择，使零碎的指标函数在约束条件下达到最大或最小。机器学习、人工智能问题最初都会归结为一个优化问题的求解：在简单环境与多体交互中做出最优决策。

关于机器学习:IMTH203重点提示

Couse work I-MTH203 (S2, AY2021-22) Release Date: April 11 Submission: 5:00pm April 17 via LMONote: 1. You are allowed to use computer programming and/or Excel, but codes and/or Excel worksheets and/or snapshots of computations should be provided to gain higher marks. 2. We only accept submissions in the format of pdf, docx, xlsx (i.e.,Excel). Question 1. [40 marks] A time series dataset is provided in the Excel file “data.xlsx”which contains 156 data points. ...

关于机器学习:MIE263操作研究

University of TorontoDepartment of Mechanical and Industrial EngineeringMIE263: Operations Research II Stochastic OR(Winter 2022) Page 1 of 1Homework 6Due: Tuesday April 12, 2022 at 5pmPlease scan and submit to Quercus Dropbox Please post questions on Ed Discussion Problem 1:At Starbuck’s DriveThru with one cashier, customers arrive with an arrival rate of 10 per hourand the cashier serves customers at a service rate of 15 customers per hour, (a) What is the average number of customers in the system?(b) What is the average cycle time in the system?(c) What is the average queueing length?(d) What is the average waiting time? ...

关于机器学习:乾象投资基于JuiceFS-构建云上量化投研平台

背景乾象投资 Metabit Trading 成立于2018年，是一家以人工智能为外围的科技型量化投资公司。核心成员毕业于 Stanford、CMU、清北等高校。目前，治理规模已冲破 30 亿元人民币。 Metabit 非常重视根底平台的建设，有一支弱小的 Research Infrastructure 团队。团队试图突破在单机上进行研发的壁垒，利用云计算进行更高效、平安的工具链研发。 01 量化的钻研都在做什么作为一家成立工夫不久的量化投资机构，咱们在对根底存储平台进行选型时，会受到这样两方面的因素的影响：公司成立的工夫比拟短，没有太多技术上的历史累赘，在做技术抉择时，更偏差于应用更古代的技术栈；同时，量化投资中应用到的机器学习场景中的个性也会影响到技术的抉择。上图是咱们钻研场景中和机器学习关联最严密的策略钻研模式的简化示意图。首先，在模型训练之前须要对原始数据做特征提取。金融数据的信噪比特地低，如果间接应用原始的数据进行训练，失去的模型乐音会十分大。原始数据除了行情数据，即大家常常会看到的市场上的股价、交易量之类的数据，也包含一些非量价的数据，比方研报、财报、新闻、社交媒体等之类的非结构化数据，钻研人员会通过一系列的变换提取出特色，再进行 AI 模型训练。模型训练会产出模型以及信号，信号是对将来价格趋势的判断；信号的强度意味着策略导向性的强度。量化研究员会依据这些信息去优化投资组合，从而造成交易的实时仓位。这个过程中会思考横向维度（股票）的信息来进行危险管制，例如某一行业的股票不要适度持仓。当仓位策略造成之后，量化研究员会去模仿下单，而后失去实时仓位对应的盈亏信息，从而理解到这个策略的收益体现，以上就是一个量化钻研的残缺流程。量化钻研业务特点钻研需要产生大量突发工作：高弹性在策略钻研的过程中，量化研究员会产生策略想法，他们会通过试验去验证本人的想法。随同着钻研人员新想法的呈现，计算平台就会产生大量的突发工作，因而咱们对计算的弹性伸缩能力的要求很高。钻研工作多样化：灵活性从下面的例子能够看到，整个流程涵盖了十分多不同的计算工作，例如：特征提取，时序数据上的计算；模型训练，经典的机器学习的模型训练场景；投资组合优化，会波及到最优化问题的工作；策略回测，读入行情的数据，再对策略的体现去做模仿撮合，失去仓位对应的体现。整个过程工作的品种是十分多样化的，对计算的要求也很不一样。钻研内容须要爱护：模块化，隔离研究员的投研内容是公司的重要 IP（知识产权）。为了爱护这些知识产权，公司的钻研平台会将每个策略钻研环节形象成蕴含规范输入输出和评估形式的模块。例如对模型的钻研，输出规范的特征值，输入预测的信号和模型。通过对模块之间进行隔离，钻研平台能够无效爱护 IP 的安全性。在进行存储平台建设时，须要针对模块化这个需要做相应的设计。量化钻研数据特点大量工作的输出来自于雷同的数据，比方上文提到的回测，量化研究员须要对历史策略去做大量的回测，同样的仓位应用不同的参数去测试，察看它们体现；或者特征提取，常常有一些根底特色和新特色的组合，其中大量的数据是来自于雷同的数据源。以 A 股的股票为例：A 股市场十年的分钟 K 线历史行情，5000/2 股票 240 分钟 250 天 10 年 8 字节*20 列=240GB，整体 10 年的数据量大概是 240G。如果应用更细力度的数据，数据量就会更大，一般来说原始数据不会超过 100TB 的范畴。在大数据时代这算不上是特地大的数据量，然而当大量的计算工作去同时去拜访这些数据，这种场景就对数据存储的有一些要求。另外，量化投研过程中随同着大量的突发工作，钻研团队心愿能将这些工作的后果存储起来，因而会产生大量 archive 数据，但这些数据的拜访频率很低。量化钻研计算工作特点基于以上特点，如果以传统的机房形式，是很难去满足咱们的计算需要，因而把计算搬到云计算平台对咱们来讲是一个绝对适合的技术抉择。第一，突发工作多，弹性十分大。上图是咱们某个集群近期的运行实例数据。能够看到在多个时间段里，整个集群实例都是被打满的状态，然而同时整个计算集群的规模也会有 scale 到 0 的时候。量化机构的计算工作和研究员的研发的进度是有很大关联的，波峰波谷的差距会十分大，这也是离线钻研工作的特点。第二，“技术爆炸”，很难精确预估何时会产生算力需要。“技术爆炸”是科幻小说《三体》的概念，对应到咱们这就是咱们的钻研模式和算力的需要会产生飞跃式提高，咱们很难精确预估算力需要的变动。咱们在 2020 年年初的时候，钻研的理论用量和预估用量都十分小，然而当钻研团队提出的一些新的钻研办法思路之后，会在某个霎时忽然对算力产生十分大的需要。而容量布局是在建设传统机房的布局时候十分重要的一件事件。第三，古代 AI 生态，简直是搭载在云原生平台上的。咱们做了很多翻新的技术尝试，包含当初十分风行的 MLOps，将整套 pipeline 串联起来，再去做机器学习训练的流水线；当初很多的分布式的训练任务的反对，都是面向云原生去做了很多的开发工作，这也使得咱们把整个计算工作放到云上成为一个很天然的抉择。 ...

关于机器学习:七月在线机器学习集训Y15期2022最新天涯共此时

download：七月在线机器学习集训营15期2022最新天涯共此时深度学习指标检测R-CNN，快，快流程图R-CNN(具备CNN特色的区域)是深度学习畛域的经典框架之一。卷积神经网络(CNN)首次被引入指标检测畛域，并获得了优异的成果。为了实现这一指标，本文解决了两个次要问题:用深度网络定位指标，用大量标注数据集训练高容量模型。构造指标检测包含三个模块。生成独立的区域候选框。更大的卷积网络用于从每个区域提取固定长度的特征向量。用于分类的一些线性SVM(反对向量机) 最初其实还有一部分，用回归算法来细化候选区域。根本流程图如下: 确定候选区域文章的这一部分应用选择性搜寻，这是一种传统的指标检测算法。文章只是顺带一提，这里就不赘述了。算法的具体原理能够参考:理解选择性搜寻-Zhihu (zhihu.com)。这里应用它来生成两千个候选区域。特色抽出在该局部中，通过五个卷积层和两个全连贯层，将输出的227*227 RGB图像提取为4096维特征向量。卷积网络的构造如下: 对于任意面积大小的图像，这里最初的办法是间接拉伸，换算成227*227。然而在拉伸之前，面积框会被放大，这样拉伸进去的图片就有了原图的P像素上下文(这里p = 16)。在本文的反对资料中探讨了几种不同的warp办法。SVM+NMS对于每个类别，作者应用相应的训练SVM对提取的特征向量进行评分。当对所有候选区域进行评分时，对每个类别应用NMS(非最大克制)算法，并扔掉那些具备较高白条的区域。给定阈值的区域。这一部分的详细描述如下:借据顾名思义，交加超过并集计算两个矩形框的交加面积除以并集面积。该值的取值范畴为[0，1]，0示意齐全不相交，1示意完全相同。网络管理站(Network Management System)NMS用于删除反复的框，成果如下其算法原理并不简单，次要有以下几个步骤: 给定n个候选框，依照分数排序。遍历每个框，计算它与其余框的IoU，如果它大于某个阈值，则抛弃相应的框(因为这两个框很可能是同一个货色)反复上述步骤，直到所有盒子都被解决(保留或抛弃)。 Python代码如下:将numpy作为np导入 def nms(dets，thresh):" " ":dets给出的候选人框:阈值预约的退货箱""" 获取对于dets的各种信息x1 = dets[:，0]y1 = dets[:，1]x2 = dets[:，2]y2 = dets[:，3]分数=细节[:，4] 面积= (x2 - x1 + 1) * (y2 - y1 + 1)order = scores.argsort()[::-1] keep = []当order.size > 0时:i =程序[0]keep.append(i)xx1 = np.maximum(x1[i]，x1[order[1:]])yy1 = np.maximum(y1[i]，y1[order[1:]])xx2 = np.minimum(x2[i]，x2[order[1:]])yy2 = np.minimum(y2[i]，y2[order[1:]]) w = np.maximum(0.0，xx2 - xx1 + 1)h = np.maximum(0.0，yy2 - yy1 + 1)inter = w * h ...