论文 | 乐趣区

关于论文:OSL论文阅读-时变流场环境中机器人跟踪气味烟羽方法

论文题目：时变流场环境中机器人跟踪气息烟羽办法论文期刊：自动化学报论文年份：2009钻研背景机器人被动嗅觉的过程大抵能够分为烟羽发现、烟羽跟踪和气息源确认。其中，机器人对气息烟羽的牢靠跟踪是实现气息源定位的要害。而过后在烟羽跟踪方面，典型的化学趋向性和风向趋向性办法很难胜利实现在以湍流为主的不间断气息烟羽环境下的气息源搜寻。钻研内容对烟羽扩散门路的正确预计是实现机器人牢靠跟踪烟羽并尽快向气息源趋近的要害。本文通过逆向预计给出了气息包在被测得之前所通过的最大可能门路，联合气息分子随环境流体的被动输运个性，提出了基于气息包门路的烟羽跟踪算法。因为气息源地位未知，以及被测到的气息包从气息源开释的工夫也未知，因而，以气息包最大可能门路为中心线的气息包门路上的任意一点都可能是气息源所在。为了证实气息源的存在与否，并思考到气息包的静止是一种被动输运过程以及流向具备时变个性，机器人应沿着气息包最大可能门路在以后时刻流向上进行偏移后的门路向前搜查，以期能发现新气息包并进行新一轮的上述过程，从而使机器人在总体上向气息源趋近。气息源搜查总体流程：论文意义提出了一种时变流场环境下的气息烟羽跟踪办法。机器人可实时地预计气息包最大可能门路并计算搜查门路；机器人沿搜查门路可无效跟踪烟羽，趋近气息源，并可能克服气体传感器较大纯时延对气息源搜查的影响。

关于论文:带你读Paper丨分析ViT尚存问题和相对应的解决方案

摘要：针对ViT现状，剖析ViT尚存问题和绝对应的解决方案，和相干论文idea汇总。本文分享自华为云社区《【ViT】目前Vision Transformer遇到的问题和克服办法的相干论文汇总》，作者：苏道。首先来看ViT始祖级论文：An image is worth 16x16 words: Transformers for image recognition at scale 论文地址：https://arxiv.org/abs/2010.11929 他应用全Transformer构造，将图像区域划分为一个个小方块作为Patch作为输出。左图是ViT的总体架构，左边是Transformer Encoder中每个Block的形状。咱们能够看到，他根本就是原始Transformer的构造，除了他把norm放在后面，有文章表明norm放在后面更加容易训练一点。应用Transformer能够在每一层都失去图片的全局信息，然而他也不是美中不足的，他有以下的这些毛病： 1、数据需求量大： Self-Attention演绎偏置能力较CNN弱。演绎偏置怎么说呢，就是模型对没遇到的数据做的一些假如，CNN具备空间不变性的假如，所以他能够用一个权重去滑窗解决整个特色图，而RNN具备工夫不变性的假如。然而Self-Attetnion没有这些假如，所以他须要更多的数据去主动学习到这些假如，然而这样有一个益处就是可能学到的假设会更灵便一些。那针对这个问题，咱们能够应用一个CNN网络作为Teacher网络，增加蒸馏损失去帮忙他学习。 Patch Embedding实质是一个卷积核与滑动步长都为Patch size的大卷积和，想Vit为16的卷积核，那必定是不够稳固的，所以起初的一些研究会应用几个卷积与池化相结合或者罗唆前几个block是残差块的形式来代替。 2、计算量大：计算复杂度与token的平方相干，如果输出特色图为56*56的特色图，那么会波及3000+长宽的矩阵运算，计算量很大，同时在原始Transformer计算过程中token数以及hidden size放弃不变，所以起初的研究者采纳了几个办法是解决计算量大的问题。参考resnet构造应用金字塔的构造，越高层的token数量越少；应用部分窗口sa，别离思考特色图的一部分做sa，再想方法把这些部分信息进行交互；应用卷积来代替fc，以缩小参数；在生成Q，K，V过程中，对K，V的特色图或者是token做池化，缩小计算复杂度。 3、重叠层数数量受限：存在适度平滑问题，不同的Block之间的相似性随着模型的加深而减少；不同token之间的相似性随着随着模型的加深而减少。解决办法次要是增大hidden size，不过这个办法参数增加量也会很大；在注意力图softmex前后，在head维度进行线性变换以减少信息交互，减少注意力图的多样性；在深层dropout增大以减少特色的多样性；或者减少类似度惩办损失项。 4、模型自身无奈编码地位：那就须要各种各样的地位编码，以下列出了一些地位编码，有固定的与可学习的，有相对的和绝对的，还有利用卷积的个性应用卷积去作为地位编码的。具体可见下表上述改良点相干论文大家能够查下表：点击关注，第一工夫理解华为云陈腐技术~

关于论文:跟我读论文丨ACL2021-NER-模块化交互网络用于命名实体识别

摘要：本文是对ACL2021 NER 模块化交互网络用于命名实体辨认这一论文工作进行初步解读。本文分享自华为云社区《ACL2021 NER | 模块化交互网络用于命名实体辨认》，作者： JuTzungKuei 。论文： Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209. 链接：https://aclanthology.org/2021... 代码：无 ...

关于论文:跟我读论文丨ACL2021-NER-BERT化隐马尔可夫模型用于多源弱监督命名实体识别

摘要：本文是对ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体辨认这一论文工作进行初步解读。本文分享自华为云社区《ACL2021 NER | BERT化隐马尔可夫模型用于多源弱监督命名实体辨认》，作者： JuTzungKuei 。论文：Li Yinghao, Shetty Pranav, Liu Lucas, Zhang Chao, Song Le. BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition[A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 6178–6190. 链接：https://aclanthology.org/2021... 代码：https://github.com/Yinghao-Li... 0、摘要钻研内容：应用多个弱监督数据的乐音标签学习NER乐音数据：不全、不准、矛盾提出一个条件隐马尔可夫模型（CHMM：conditional hidden Markov model） ...

关于论文:ICDM论文探索跨会话信息感知的推荐模型

会话举荐（Session-based Recommendation）是举荐畛域的一个子分支, 美团平台增长技术部也在该畛域一直地进行摸索。不久前，该部门提出的跨会话信息感知的工夫卷积神经网络模型（CA-TCN）被国内会议ICDM NeuRec Workshop 2020接管。本文会对论文中的CA-TCN模型进行介绍，心愿能对从事相干工作的同学有所帮忙或者启发。 ICDM的全称International Conference on Data Mining，是由IEEE举办的世界顶级数据挖掘钻研会议，该会议涵盖了统计、机器学习、模式识别、数据库、数据仓库、数据可视化、基于常识的零碎和高性能计算等数据挖掘相干畛域。其中ICDM NeuRec Workshop旨在从利用和实践角度系统地探讨举荐零碎的浅层和深层神经算法的最新进展，该Workshop征集了无关开发和利用神经算法和实践以构建智能举荐零碎的最新且重要的奉献。背景在大数据时代，举荐零碎作为零碎中的基础架构，开始扮演着越来越重要的角色，举荐零碎能够为用户挑选出本人感兴趣的商品或者内容，从而来缩小因信息爆炸带来的一些影响。目前，业界提出的很多举荐模型获得了微小的胜利，然而大部分举荐办法经常是须要依据明确的用户画像信息进行举荐，然而在一些特定的畛域，用户画像的信息有可能无奈被利用。为了解决这个问题，会话举荐（Session-based Recommendation）工作被提了进去，会话举荐工作是依据用户在以后会话的行为序列去预测用户的下一个行为，而不须要依赖任何的用户画像信息[1]。目前，会话举荐工作已广泛应用于多个畛域，例如下一个网页举荐、下一个POI举荐、下一个商品举荐等等。为了笼罩多个畛域，所以“会话”的概念不仅限于交易，而是指一次或者肯定期间内的生产或者拜访的元素汇合。每一个会话（Session）都是一个item的转移序列，所以会话举荐工作能够很天然地被视为序列举荐工作，基于循环神经网络（RNN）的会话举荐模型[2]是利用的支流模型。然而基于RNN模型只对item之间的间断单向转移关系进行建模，而疏忽了会话中其余item之间的转移关系。随着图神经网络的热点暴发，基于图构造的会话举荐模型如SR-GNN[3]、GC-SAN[4]被提出来，心愿可能克服该点有余。基于图构造的会话举荐模型将会话的item转移序列构建成一个图构造，而后利用图神经网络模型来摸索多个item之间简单的转移关系。目前，基于图构造的会话举荐模型曾经成为了State-of-the-art的解决办法，但它们依然具备肯定的限度，察看如下：察看 1：简直所有现存的会话举荐办法都仅仅关注于会话的外部信息，而疏忽了跨会话的内部信息（跨会话的相互影响），跨会话信息往往蕴含着十分有价值的补充信息，有利于更精确地推断以后会话的用户偏好。如下图所示，以Session 3中的Item_3 Airpods为例，现存的办法仅仅关注以后会话Session3中的Item_9对Item_3的影响而疏忽了其余会话的影响。对于Session1而言, 用户可能具备买耳机的用意而进行同品类比拟，所以item_2和item_4会对item_3产生一个品类的影响；对于Session 2而言, 用户可能比拟喜爱Apple品牌，所以item_5和item_6会对item_3产生一个品牌的影响。依据下面的察看可知，在Item_Level档次的跨会话影响对于更好地推断item的全局示意至关重要。同时，不同的会话之间也可能具备类似的用户用意和行为模式，所以对于Session-Level的跨会话影响对于更精确地预测用户在以后会话中的下一个动作也起着十分重要的作用。察看 2：基于图构造的会话举荐办法在构建图的过程中，将呈现在不同工夫步的雷同item都视为一个雷同节点，这样会失落序列中的地位信息，以至于不同的序列会话构建出的Session图构造是完全相同的。例如两个不同的会话Session S1:v_i-->v_j-->v_i-->v_k-->v_j-->v_k 与Session S2: v_i-->v_j-->v_k-->v_j-->v_i-->v_k，在下图2中，它们对应的图构造是完全相同的，这不可避免地限度了模型取得精确会话示意的能力。此外，在会话图结构中，仅仅间接连贯的两个相邻item之间会建设边，意味着只有在以后item之前最初点击的item才是以后item的一阶街坊，如图2所示。但呈现在一个雷同会话中，即便没有被间断点击的item之间也具备肯定的分割，所以图构造对于保留序列的长期依赖性具备无限的能力。相同，对于时序卷积神经网络（TCN）[5]模型，Causal Convolution使以后item的承受域中的items都能够间接作为一阶街坊进行卷积，并且具备的Dilated Convolution使得较远的items也能够间接作为一阶街坊对其产生影响。相干工作介绍现有的会话举荐办法大抵能够分为两类，别离是基于协同过滤办法和基于深度学习办法：基于协同过滤办法：协同过滤办法是在举荐零碎中被宽泛应用的通用办法，协同过滤办法次要能够分为两大类：基于KNN查找办法和基于类似度建模办法。基于KNN查找办法是通过查找Top-K个相干的users或items来实现举荐，基于KNN查找办法能够通过查找与以后会话中最初一个item最类似的item来实现基于会话的举荐。最近，KNN-RNN[6]摸索将RNN模型与KNN模型相结合，通过RNN模型来提取会话序列信息，而后查找在与以后Session类似的Session中呈现的item来实现举荐。对于基于类似度建模的办法，CSRM[7]通过记忆网络将间隔以后会话工夫最近的m个会话中蕴含的相干信息进行建模，从而来取得更为精确的会话示意，以进步会话举荐的性能。基于深度学习办法：深度学习办法凭借其弱小的特色学习能力在多个畛域取得了令人满意的成绩，对于会话举荐工作而言，循环神经网络RNN是一个直观的抉择，能够利用其提取序列特色的劣势来捕捉会话内简单的依赖关系。GRU4Rec[2]利用门控循环单元（GRU）作为RNN的一种非凡模式来学习item之间的长期依赖性，以预测会话中的下一个动作。之后的一些工作，是通过在基于RNN模型的根底上减少注意力机制和记忆机制等对模型进行了改良和扩大，其中NARM[8]摸索了一种具备注意力机制的档次编码器，能够对以后会话中用户的序列行为和次要用意进行建模。最近，随着图神经网络模型的飞速发展，呈现了依赖图构造的会话举荐模型，SR-GNN首先提出将每个会话映射为一个图构造，并利用图神经网络模型GNN来建模item之间的简单转移关系。之后，GC-SAN通过退出Self-Attention机制进一步扩大了SR-GNN模型，从而成为了State-of-the-art的解决办法。CA-TCN模型与现有办法都存在着显著的差别。一方面，CA-TCN摸索Item-Level和Session-Level的跨会话影响，以进步举荐性能，与其余的协同过滤办法的区别有两个：1. CA-TCN同时思考了跨会话信息对item和Session不同档次的影响，而CSRM仅仅思考了Session档次。 2. CA-TCN构建了跨会话的全局Cross-Session item图和Session-Context图，通过GNN来摸索简单的跨会话影响。另一方面，与基于RNN和基于GNN的模型相比，CA-TCN模型克服了RNN模型无奈并行以及图构造缺失地位和长期依赖信息的有余。跨会话感知的工夫卷积神经网络模型（CA-TCN）1. 模型整体框架网络的整体框架如下图3所示。给定会话序列数据，首先，咱们结构一个Cross-Session Item-Graph来链接呈现在不同会话中且有关系的items，而后通过图神经网络输入蕴含全局信息的item向量。将失去的item向量输出到TCN模型中输入蕴含会话序列信息的item示意，依据Item-Level Attention机制来整合item的示意进而取得Session示意。尔后，依据Session示意之间的类似度构建Session-Context Graph图以对Session档次的跨会话关系进行建模。最初，依据Session的示意以及item的示意进行预测。 2. 跨会话Item图（Cross-Session Item-Graph）在第一阶段，咱们构建Cross-Session Item-Graph有向图G_ item，其中图中的每个节点代表一个item，（v_s_i, v_s_i+1）作为一条边，代表在会话s中用户在v_s_i之后点击了v_s_i+1。与现有办法相比，跨会话的G_item图可能在所有的会话中呈现的item之间建设链接，因而G_item不仅能够获取会话的外部信息，同时能够失去非以后会话的内部信息。G_item的图的外围在于将所有的item放在了一起通盘考虑，而后用各个会话中的点击行为给item之间建设链接，不同会话的点击信息汇总在一起使得item之间的关系连贯更加丰盛。 ...

关于论文:CIKM-2020-一文详解美团6篇精选论文

CIKM是信息检索、常识治理和数据库畛域中顶级的国内学术会议，自1992年以来，CIKM胜利汇聚上述三个畛域的一流钻研人员和开发人员，为交换无关信息与常识治理钻研、数据和知识库的最新倒退提供了一个国内论坛。大会的目标在于明确将来常识与信息系统倒退将面临的挑战和问题，并通过征集和评估应用性和理论性强的顶尖研究成果以确定将来的钻研方向。往年的CIKM大会原打算10月份在爱尔兰的Galway举办，因为疫情起因改为在线举办。美团AI平台/搜寻与NLP部/NLP核心/常识图谱组共有六篇论文（其中4篇长文，2篇短文）被国内会议CIKM 2020接管。这些论文是美团常识图谱组与西安交通大学、中国科学院大学、电子科技大学、中国人民大学、西安电子科技大学、南洋理工大学等高校院所的科研单干成绩，是在多模态常识图谱、MT-BERT、Graph Embedding和图谱可解释性等方向上的技术积淀和利用。心愿这些论文能帮忙到更多的同学学习成长。 01 《Query-aware Tip Generation for Vertical Search》| 本论文系美团常识图谱组与西安交通大学郝俊美同学、中国科学院大学李灿佳同学、西安电子科技大学汪自力同学的单干论文。论文下载可解释性理由（又称举荐理由）是在搜寻后果页和发现页（场景决策、必吃榜单等）展现给用户进行亮点举荐的一句自然语言文本，能够看作是实在用户评论的高度稀释，为用户解释召回后果，开掘商户特色，吸引用户点击，并对用户进行场景化疏导，辅助用户决策从而优化垂直搜寻场景中的用户体验。现有的文本生成工作大部分并未思考用户的用意信息，这限度了生成式举荐理由在场景化搜寻中的落地。本文提出一种Query感知的举荐理由生成框架，将用户Query信息别离嵌入到生成模型的编码和解码过程中，依据用户Query不同会主动生成适配不同场景的个性化举荐理由。本文别离对Transformer和递归神经网络（RNN）两种支流模型构造进行了革新。基于Transformer构造，本文通过改良Self-Attention机制来引入Query信息，包含在Encoder引入Query-aware Review Encoder使得在评论编码最后阶段就开始思考Query相干的信息，在Decoder端引入Query-aware Tip Decoder使得在评论编码最初阶段思考Query相干的信息。基于RNN构造，在Encoder端通过Selective Gate形式过滤掉Query无关信息，抉择原始评论中跟Query相干的信息进行编码，并在解码器端将Query示意向量退出Attention机制的Context向量计算，领导解码的过程，肯定水平上解决了生成办法解码不可控的问题，从而生成Query个性化的举荐理由。在公开数据集和美团业务数据集上别离进行试验，该论文提出的办法优于现有办法。该论文提出的算法已利用上线，目前在美团的搜寻、举荐、类目筛选和榜单等多场景落地。 02 《TABLE: A Task-Adaptive BERT-based ListwisE Ranking Model for Document Retrieval》| 本论文系美团常识图谱组与中国科学院软件研究所唐弘胤同学、金蓓弘老师的单干论文。论文下载近年来，为了进步模型的自然语言理解能力，越来越多的MRC和QA数据集开始涌现。然而，这些数据集或多或少存在一些缺点，比方数据量不够、依赖人工结构Query等。针对这些问题，微软提出了一个基于大规模实在场景数据的浏览了解数据集MS MARCO （Microsoft Machine Reading Comprehension）。该数据集基于Bing搜索引擎和Cortana智能助手中的实在搜寻查问产生，蕴含100万查问、800万文档和18万人工编辑的答案。基于MS MARCO数据集，微软提出了两种不同的工作：一种是给定问题，检索所有数据集中的文档并进行排序，属于文档检索和排序工作；另一种是依据问题和给定的相干文档生成答案，属于QA工作。在美团业务中，文档检索和排序算法在搜寻、广告、举荐等场景中都有着宽泛的利用。此外，间接在所有候选文档上进行QA工作的工夫耗费是无奈承受的，QA工作必须依附排序工作筛选出排名靠前的文档，而排序算法的性能间接影响到QA工作的体现。基于上述起因，咱们次要将精力放在基于MS MARCO的文档检索和排序工作上。自2018年10月MACRO文档排序工作公布后，迄今吸引了包含阿里巴巴达摩院、Facebook、微软、卡内基梅隆大学、清华等多家企业和高校的参加。在美团的预训练MT-BERT平台上，咱们提出了一种针对该文本检索工作的BERT算法计划，称之为TABLE。值得注意的是，该论文提出的TABLE模型在信息检索畛域的权威评测微软 MARCO排行榜上首个超过0.4%的模型。如上图所示，该论文提出了一种基于BERT的文档检索模型TABLE。在TABLE的预训练阶段，应用了一种畛域自适应策略。在微调阶段，该论文提出了两阶段的工作自适应训练过程，即查问类型自适应的Pointwise微调以及List微调。试验证实这种工作自适应过程使模型更具鲁棒性。这项工作能够摸索查问和文档之间更丰盛的匹配个性。因而，该论文显著晋升了BERT在文档检索工作中的成果。随后在TABLE的根底上咱们又提出了两个解决OOV（Out of Vocabulary）谬误匹配的办法：精准匹配办法和词还原机制，进一步晋升了模型的成果，咱们把这个改良后的模型称为DR-BERT。DR-BERT的细节详见咱们的技术博客：《MT-BERT在文本检索工作中的实际》。 03 《Multi-Modal Knowledge Graphs for Recommender Systems》| 本论文系美团常识图谱组与中国科学院软件研究所唐弘胤同学、金蓓红老师的单干论文。论文下载随着常识图谱技术倒退，其结构化数据被胜利的利用在了一系列上游利用当中。在举荐零碎方向中，结构化的图谱数据能够利用指标商品更加全面的辅助信息，通过图谱关联进行信息流传，从而无效地对指标商品进行表征建模，缓解举荐零碎中用户行为稠密及冷启动等问题。近年来，曾经有不少钻研工作利用图谱门路特色、基于图嵌入的表征学习等形式，胜利的将图谱数据和举荐零碎进行联合，使得举荐零碎准确率失去晋升。在已有的图谱和举荐零碎联合的工作当中，人们往往仅关注于图谱节点和节点关系，而没有利用多模态常识图谱中的各个模态的数据进行建模。多模态数据包含图像模态如电影的剧照，文本模态如商户的评论等。这些多模态数据同样能够通过常识图谱图关系进行流传和泛化，并为上游的举荐零碎带来高价值的信息。然而，因为多模态常识建模往往是不同模态的辅助信息关系，而非传统图谱中三元组所代表的语义关联关系，故传统的图谱建模形式并不能很好地对多模态常识图谱进行建模。因而，本文针对多模态常识图谱的特点提出了MKGAT模型，首次提出利用多模态常识图谱的结构化信息晋升上游举荐零碎的预测准确度。MKGAT的整体模型框架如下图所示： ...

关于论文:BPFA-beta结合伯努利的模型1

**Nonparametric Bayesian Dictionary Learning forAnalysis of Noisy and Incomplete Images论文浏览以及代码了解**代码基于灰度图和RGB图像，根本过程都是一样的。图像大小：256*256学习形式：在线学习和batch learning字典初始化形式：SVD和Rand；图像块大小：8*8图像块数目：249*249 如果学习形式是在线学习，则图像块不是全副作为数据应用，而是迭代减少。 for colj=1:PatchSize for rowi=1:PatchSize在这64次迭代中，第一次，应用了1024个块，接下来，有14次，每次是减少（961+31），有49次是减少了961个块，总数为249*249个块。块数的减少，代表训练样本的减少。每一次训练样本的减少，能够迭代屡次进行训练，学习DZS，依据吉布斯采样公式，对参数进行采样。因为块之间有重叠，所以须要对后果进行均匀，在函数DenoiseOutput_LowMemoryReq中，对每个像素的叠加应用次数进行统计，每个像素的叠加估计值除以相应的叠加次数就是该像素的平均值，作为最终后果输入。如果是batch learning，那么会把所有数据全副输出而后进行屡次迭代训练。另外，对于DZS的初始化，其中之一的办法是SVD，在温习一下奇怪值合成。 *代表转置M：mn，U：mm，∑：mn，V:nnSVD的一些利用：能够用最大的k个的奇怪值和对应的左右奇怪向量来近似形容矩阵，所以SVD能够用于PCA降维，来做数据压缩和去噪。左奇怪矩阵能够用于行数的压缩。右奇怪矩阵能够用于列数即特色维度的压缩，也就是咱们的PCA降维。奇怪值合成的低秩迫近（有时也被称为截断奇怪值合成）：给定一个很大的矩阵A，大小为m*n,咱们须要存储的元素数量是mn个，当矩阵的秩k远小于m和n，咱们只须要存储k(m+n+1)个元素就能失去原矩阵，即k个奇怪值、km个左奇怪向量的元素和kn个右奇怪向量的元素;把奇怪值依照从大到小排序，较靠近于0（比拟小的奇怪值能够认为权重越小）的奇怪值可疏忽，用前r个奇怪值，存储r(m+n+1)个元素就能近似失去原矩阵，这可用于图片等的重建。

关于论文:BPFA-beta结合伯努利的模型

关于论文:写作论文的Tips

极大提高效率：论文写作工具杂谈学术论文连接词改论文在给导师帮你改之前，本人先改三遍改论文肯定要用纸质版 - 第一遍：打印进去，去空阔的中央读一遍，出声那种，这会减慢你的速度，让你更加专一于论文，从而发现更多的语法错误；- 第二遍：重要的中央细读；- 第三遍：在屏幕上改变；写作程序Notation：变量等定义应该放在第一步，用列表的模式；Equation：手动推导；Algorithm：算法，伪代码；Experiments：其实在试验前就应该思考好，应该做哪些试验，用excel或者word表格打进去；Contribution是什么？以后的文章的奉献，对于将来倒退的影响；Conclusion：次要是总结本人的办法；Title: 尽可能简练的概括本人的工作，不超过两行；Related work: 最好的状况是，就是对相干工作的总结，然而你如果功利一点，有些不利于你钻研工作发表的工作（你死活调不出比他好的那种），你要么放一放，要么你拿出本人办法优于他们的点，凸出differenciation。就是要多思考下，不要让援用hurt本人的工作，该援用还是要援用的；Introduction：写出本人的motivation，contribution。在写contribution的时候，捕风捉影，不要把话题扯得太大，饼画的太大会招人烦。另外能够插入一些例子让motivation更加直观。Abstract: 将introduction缩短到四分之一页纸，外面不能有粗体，援用，能够有斜体。回头看，改：通读一遍，次要是逻辑有没有说不通的中央。Recomfirm各个环节卯榫得如何？而后再看表述是否正当，是否有语法错误，三遍改法。内容在写初稿的时候，不要思考页数限度，把你感觉重要的货色全都写进去，越分明越好，而后再思考缩减的事件。写货色的时候须要思考读者的承受能力和背景常识，能够找人帮忙，让其他同学看看评估。不晓得怎么用英语表述：用对话的模式，给他人讲懂，而后整顿成文字（用英文给他人讲吗？国内条件不太好啊）其余trick文件命名：尽量多保留不同的版本，用文件尾缀标识进去。给你的办法起一个容易记的名字。任何两个section或者subsection之间须要一些适度句子，不要硬适度。从句：不会写就不要写。。句子不要超过5行，难读。参考文献：个别用bib file，bibtex也可能出错，要在pdf上查看；另外要做格局的一致性查看，同样的会议简称须要是一样的；conference paper也要有page numberCitation：不同的会议可能有不一样的援用办法，有的是用作者Zhang et. al. proposed，有的是数字。能够用matbib这个包。两个作者之能够说X & Y, 三个作者能力用et al.留神缩写：c.f. refer to; e.g. for example; et al. 等人；i. e. that is。空格 ~/ref{blabla}, 保障空格。footnote: 注释中的上标最好放在句号前面，防止引起歧义。防止几个括号连在一块儿。标签名要谨慎，最好有本人固定的格局，要像写变量名一样有意义，看到名字你就晓得是那一片援用文献；数学公式以eq结尾，插图用fig结尾。断词，英文有断词规定，usepackage{babel}, american，主动给你断词（看不清，回去用的时候搜一下）。图表须要两头对齐，最好不要用begin{center}，会引入高低的空白，用centering即可。冠词的用法：定冠词，不定冠词，靠语感，很重要。写作语法查看小魏老师 SCI写作领导冠词[1~2]: 实词, 和名词一起应用, 如a / an / the 不定冠词: 个别用于某个本人提出的概念首次呈现, 如We propose a radiomics model定冠词: 曾经交代过的概念第二次呈现 The developed radiomics model; 举世无双的事物如太阳天空地球环境The environment; 专有名词 The logistic regression 工具包the pytorch零冠词: 对于抽象概念, 如Life is beautiful 节日人名等in the study / in the paper[3]: study是你的工作, paper是你的论文来展现你的工作 ...

关于论文:计算机系统研究基础如何做研究

本文是施传授著述计算机系统钻研根底的第二章的内容，我做了一个内容的精炼，心愿能对刚入读研究生的同学有所帮忙。当然，我非常举荐有工夫的同学本人读一下这本书，因为我的总结必定会夹杂一些本人的想法和观点。 Elements 顶级会议/期刊介绍举荐20个顶级会议，10个顶级期刊（激励依据本人的趣味，定制本人清单）期刊论文好于会议论文的两个起因两者的区别会议论文和期刊论文有什么区别：会议论文个别是针对某个学术会议上投稿论文参会，而期刊论文是作者将本人的论文成绩投到某期刊上进行论文发表，所以两者有本质的不同作者对应期刊论文的筹备工夫更加短缺很多人对应期刊论文的器重水平要大于会议论文20个顶级计算机系统畛域的会议 OSDI：USENIX Symposium on Operating Systems Design and ImplementationSOSP：The ACM Symposium on Operating Systems PrinciplesNSDI/USITS：Networked Systems Design and ImplementationUSENIX：Annual Technical ConferenceFAST：USENIX Conference on File and Storage TechnologiesEuroSys：The European Conference on Computer SystemsMobiSys： International Conference on Mobile Systems, Applications and ServicesSenSys：ACM Conference on Embedded Networked Sensor SystemsDSN： IEEE/IFIP International Conference on Dependable Systems and NetworksUSENIX Security SymposiumSIGMOD：ACM SIGMOD International conference on Dependable Systems and NetworksVLD：International Conference on Very Large Data BasesWWW：International World Wide Web ConferenceICS：ACM International Conference on SupercomputingACM/IEEE SupercomputingACM SIGMETRICSASPLOS：ACM International Conference on Architectural Support for Programming Languages and Operating SystemsISCA：ACM International Sysposium on Computer ArchitectureHPCA：International Sysposium on High-Performance Computer ArchitectureACM SIGCOMM10个顶级计算机系统畛域的期刊 ...

关于论文:The-Google-File-System个人翻译

该paper是2003年Google发表在SOSP（Symposium on Operating Systems Principles-计算机系统畛域的顶会）的论文《The Google File System》集体翻译。作为Hadoop时代的三架马车之一，对以后分布式系统诸多问题的解决方案具备很重要的意义。集体翻译不易，转载请备注！谷歌文件系统Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung （谷歌）~~~~ 摘要咱们曾经设计并实现了google文件系统，它是一个实用于有着大量数据的数据密集型利用的文件系统。它提供了在低成本硬件设施上的运行的容错性能，以及能够在大量客户端背后呈现出高的整体性能。只管它与之前的一些分布式文件系统有着许多独特指标，然而通过对咱们程序负载状况以及以后和将来的技术环境的考查，发现咱们想要的设计和一些晚期的文件系统所构想是不一样的，这让咱们不得从新扫视传统的设计抉择，并摸索出一些从根本上不同的设计观点。目前这个文件系统胜利的满足了咱们的存储需要，他曾经宽泛的被利用部署于咱们的一些存储平台（那些须要大数据集的钻研和开发）服务上用于数据的生产和解决。迄今为止咱们最大的集群曾经在超过一千台的机器及数千块硬盘上提供上百TB的数据存储服务，同时能够被数百个客户端并发去拜访。在本论文中，咱们将提供为了反对分布式应用程序的文件系统扩大接口设计，并对咱们设计的许多方面展开讨论，展现微基准（微基准是一个旨在掂量十分小以及特定代码性能的基准，基准测试是实现对一类测试对象的某项性能指标进行定量的和可比照的测试）和事实中应用的一些测量数据报告。 1.简介咱们曾经设计和实现了GFS（谷歌文件系统）去满足谷歌飞速增长的数据处理需要，GFS和之前的许多分布式系统有许多独特的指标，比方：性能，可扩大，可靠性，可用性。然而，驱动GFS的设计的还有对咱们程序的工作负载和技术环境的察看，所以说当初包含可预感的未来，GFS都和晚期分布式系统所设计的构想有显著的不同。咱们从新扫视了传统的一些设计抉择，并摸索了一些从根本上不同的设计点。第一，组件的生效应该是常态的而不是意外事件。文件系统是建设在由成千盈百的便宜机器形成的存储介质，并被成千盈百的机器拜访着。这些机器的组件无论数量还是品质都很难保障在任意工夫都能提供性能，以及一些组件能够主动从失败状态恢复过来。咱们曾经见过很多问题：比方程序的bug，人为的谬误以及磁盘的谬误，操作系统的bug，内存，连接器，网络，以及电力供应。因而，继续的监控，谬误检测，容错，以及主动复原这些个性必须集成在整个文件系统外面。第二，以传统的规范来看，咱们的文件非常的大，数GB的文件是粗茶淡饭。每个文件通常蕴含许多的程序对象如web文档，当咱们定期操作由数十亿数据对象快速增长形成的数TB的数据集时候，即便文件系统反对，操作数十亿的kb大小的文件也是很慢的很轻便的。所以，设计的假如条件和某些模块的参数，比方IO的操作，数据块大小这些设计元素都须要被重新考虑。第三，大部分文件变更都是通过追加文件内容而不是从新写入的。对一个文件随机写这种事件简直不会产生！一旦写入，这个文件就是只读的，并且通常是程序读（大量的数据其实都合乎这种个性）。这些数据文件可能是大量的数据分析和程序扫描的仓库组成，可能是运行中的应用程序一直产生的数据流，可能是一些打包归档的文件，也可能是一些由一个机器生成的后果（该后果须要立即实时或者稍有提早的被另一个机器解决）。如果针对这些大数据都具备这样的拜访模式（append模式），那么当对客户端申请的数据块缓存生效了，数据的append操作就是性能优化和操作原子性的要害。第四，应用程序和文件系统API的协同设计，进步了整个零碎的灵活性。比方咱们通宽松GFS的一致性模型从而极大的简化的文件系统并且没有给应用程序带来沉重的累赘。咱们也引进了一个原子性的append操作，这样多个客户端就能够并发的对文件append数据而不须要额定的同步。这些都会在论文的前面做具体的探讨。大量的GFS集群目前曾经部署并服务于不同的目标工作。其中最大的一个集群有超过1000个存储节点，超过300T的磁盘。并且被数百个客户端在不同的机器上大量的继续一直的拜访着。 2.设计概述2.1设计概述为了设计一个满足咱们需要的文件系统，咱们须要以后面提到的那些具备挑战和时机的假如为指南。下面咱们曾经提到了一些要害的关注点，当初咱们将更加具体的形容咱们的假如。首先，这个文件系统应该是建设在大量便宜的机器组件上的，当然这些组件也常常会失败。所以就必须不停的自我监控从而能在日常根本工作中能够疾速的对组件失败进行检测->容错->复原。该文件系统只存储适量的大文件，咱们心愿有数百万个文件，每个根本在100M或者更大点。对于上GB的文件也会是一个广泛的状况应该能够被高效的治理，小文件当然也必须反对，只不过咱们不须要去优化他们。文件系统的次要负载次要蕴含这两种读申请：大的程序流式读取和小的随机读取。在大的流式读取中，单个操作个别读取几百KB或者上M的数据。来自同一个客户端的间断申请通常是通过一直读取一个文件的邻近区域。而一个小的随机读取个别是读取某个任意偏移地位上几KB数据。一个具备性能意识的程序会将这些小的读取批化，并且从新编排这些读取操作使得读取能够高效稳固的程序穿过文件，而不是来回跳跃的读取。文件的零碎的负载还有一部分来自于很多大量的、程序的对文件进行追加写。通常这些写操作的数据量大小和读相似。一旦写入，文件就很少被批改。咱们须要反对随机写申请然而不须要保障其效率性能。零碎必须对多个客户端同时并发的追加同一个文件提供良好的实现。咱们的文件常常被用于如生产者-消费者队列或者做多路归并。数百个生产者，一人一个机器，将会并发的对一个文件进行追加。所以最小化的同步机制的原子性是很有必要的。文件应该稍后能够被读取，或者消费者同时的进行读取到文件。高长久的带宽比低提早更加重要，咱们大多数程序的目标是可能高速率的批量解决数据，很少对单个读写操作的响应工夫有严格的要求。2.2接口 GFS提供了给人很相熟一个的文件系统接口，只管他并没有实现一个像POSIX那样的统一标准的API 【Portable Operating System Interface of UNIX（可移植操作系统接口），POSIX规范定义了不同操作系统对应下层应用程序统一标准的接口】。GFS中文件是依照目录分层级组织的，并通过文件路径名来标识。咱们反对文件的罕用操作如：创立，删除，关上，敞开，读取，写入操作。此外，GFS有快照和操作记录追加机制。快照是一个以最低开销创立一个文件和目录树的拷贝。记录追加容许多个客户端同时向同一个文件并发的追加数据，并能保障每个客户端追加操作的原子性。对于实现一个多路合并后果及生产者消费者队列这很有用，客户端能够并发的增加数据而不须要做额定的加锁操作。咱们发现GFS所设计的这种文件类型，对于构建大型的分布式应用程序有无奈预计的价值。快照和记录追加将会在3.4和3.3节别离作具体探讨。 2.3架构一个GFS集群蕴含一个master，多个chunkservers服务，能够被多个客户端拜访。如图一所示：这下面每一个服务通常都运行在一个独自的Linux机器的用户级过程中。当然咱们也能够运行客户端和chunkserver在一个机器下面，只有机器的资源容许以及能够承受运行可能不稳固的利用程序代码所带来的低可靠性。（意思就是部署的程序可能可靠性差，把机子搞崩了就连带chunkserver也炸了）。文件被划分成固定大小的chunk。每个chunk是由master在该chunk被创立时调配的一个不可变的、全局惟一的64bit句柄（chunk handle）来标识。Chunkserver将chunk作为linux文件存储在本地，对于chunk数据的读写通过chunk handle和指定字节范畴来确定。为了可靠性，每个chunk将会被备份到多个chunkserver上，默认的咱们存储三个备份。当然用户也能够对文件不同的命名空间区域自定义不同的备份级别。 Master保护所有文件系统的元数据。包含：名字空间，访问控制信息，文件与chunks的映射信息，chunks的以后地位。它也控制系统范畴内的一些流动，比方chunk租赁治理，孤立无援用的chunk的垃圾回收，chunkserver间chunk的迁徙。Master与chunkserver通过周期性的心跳进行通信，从而发送指令和获取chunkserver的状态。实现了文件系统API的应用程序通过GFS客户端和GFS的master和chunkserver进行连贯进行通信进行数据读写操作。客户端如果须要操作元数据则须要与master通信，其余的所有的纯数据的通信间接与chunksever通信。咱们没有提供POSIX API，因而也就不须要与linux vnode layer关联【unix文件节点】。 ...

cause理论

IID（如使用基准数据集的图像识别），要么被人工处理为 IID，如为给定的应用问题精心收集合适的训练数据集，或者使用类似 DeepMind「经验回放」（experience replay）的方法，即强化学习智能体存储观测结果稍后再打乱以便后续训练。互信息：二者对我的影响是同等程度的例如使拥有笔记本电脑的顾客想要购买电脑包。推荐待购买物品构成了对系统的干预，超出了 IID 设置。我们不再处理观测数据分布，而是某些变量或机制已经发生改变了的分布。这就属于因果关系的范畴了。因为这类问题中存在因果结构暗含的非平凡条件独立性（nontrivial conditional independence）属性。这类属性可以通过因果图或结构因果模型来描述，它们集成了概率图模型和干预（intervention）概念，最好使用直接的函数式父子（parent-child）关系来描述，而不是使用条件句（conditional）。任何一本初级统计学课本都会提到，基于观测的统计模型无法可靠地识别介入主义（interventionism）因果观：所有的系统U,接入方式T，状态函数Y，y=Yt(u).要有一个不介入的接入方式c，很难找到不受干预的自然状态，因此需要一个默认的不介入方式c。当Yt(u)!=Yc(u)。问题就是t与c的区别是什么虚拟事实模型Rubin causal model(RCM). 果是E[g(u)]=E[Yt(u)]-E[Yc(u)] 需要几个假设：个体处理效应稳定等等缺点是一个改变一个变量，指数级。因果之间的黑箱贝叶斯网络。有了pa(x)增加了变量之间条件独立的先验信息，加快。注意这里是parameter learning 不是structure learning(chow-liu算法) 是否独立：d分割优点：即使有大量缺失，未知变量值，也能用边缘化操作，进行概率推断。但无法却别方向。 SEM：马尔可夫性质，当且仅当这个SCM不包含任何的有向环，且所有外生变量均相互独立介入后：当满足一些其他比如后门准入时，还可以进一步简化计算过程性因果:因果环路图CLD 以上来自：https://zhuanlan.zhihu.com/p/... 从simpson's paradox说起：一个治疗对男性统计负相关，对女性统计负相关，对整体人群正相关。即X,Y在边缘上正相关，在给定Z的每一个水平上都负相关。所以导致，在不能做随机试验的情况下，观察数据即使是正相关，也无法断言是否存在一些未观测的因素，影响二者使得机制没有A也会得到B，下一篇证明了RCM可以通过随机试验可以作为预测平均因果作用，虽然一个个体无法进行单独的两个试验，即个体的因果作用是不可识别的。假设只有在给定协变量X后，处理的分配机制才是完全随机化的，比如男女性别努力中必须要提前接受处理的比例不同。当满足可忽略性时，ACE是可识别的以上应用于simpson's paradox在给不给X这个性别时结果是不一样的。因果图：困难：很难得到DAG 工具变量线性模型估计因果作用，最小二乘解是矩估计条件是但很多时候第二个是不成立的，因此是完全的随机化试验，但是可以假设是鼓励性实验。Z->D 详细的计算过程：https://cosx.org/2013/08/caus... https://cosx.org/2013/09/caus...这里说了一个没有采用潜在分析（没有意识到对照组，没有对对照组做假设等导致的悖论）。预测同学在食堂进食是否会导致体重增加，记录初始体重和结果体重。第一个科学家起始上是假定不去食堂体重不变。第二个是假设的不去也一样会影响体重。 confield条件/不等式若存在HIDDEN common cause U.则

VividCortex2017

1.概述功能1.querys信息汇总(action,affected rows,avg.frequency,avg.latency,bytesin,bytesout,count,cputime,errors,failedrate)2.趋势环比3.faults requests continue to arrive but do not get serviced by the system(mysqld,disk) {why?so you can prevent it from escalating into an outage?are some of my database problems cause by small,hidden faults？}3.资源 2.how to architect and build highly observable systemsexternal quality of service and internal sufficieny of resources customers viewpoint(external,if these four no problem,no prolem for customers):concurrency(request in process,backlog),error rate,latency(wait+process,99 percentile better),throughput(complect request per second over a time interval) ...

DBSeer

功能：performance prediction, performance diagno- sis, bottleneck explanation, workload insight, optimal admission control, and what-if analysis指标：AggregatedOSstatisticsWorkloadstatisticsfromtheDBMS,includingthenumberof SELECT, UPDATE, DELETE and INSERT commands executed, number of flushed and dirty pages, and the total lock wait- time.Timestampedquerylogs,containingstart-time,duration,and the SQL statements executed by the system. 1.query分类：similar:eg,perform similar operations on each table or ex- hibit similar patterns of resource usage. table,lock mode,rows,time between statements. DBSCAN 2.资源预测：（ Barzan Mozafari）2.1 CPU, network, and log writesblack-box models（make minimal assumptions about the underlying system, and hence are not specific to a particular DBMS.）与load的线性模型 ...

explianitcisco2019sigmod

causation理论的一点应用。证明分值不是偶然发生的 RCA的工具一般可以query and classify anomalies，相关性分析（causal probabilistic gaphical models） spurious correlations。当dimensionality比data points数量多交互式查询，target metrics of interest(Y),正常和异常时间段，specificity metrics for control(可选Z)，search space of metrics(可选X)=》TOP 20 root-cause insearchspace：scores(Xi)<-assoc(Y,Xi|Z)原理causal bayesian network。嗯，可以用带条件的两个变量关系去构造复杂的关系。 - ExplainIt!– A Declarative Root-cause Analysis Engine for Time Series Data - Why? The above approach offers three main benefits. - First, the formalism is a non-parametric and declarative way of expressing dependencies between variables and defers any specific approach to the runtime system. - Second, the unified approach naturally lends itself to multivariate dependencies of more complex relationships beyond simple correlations between pairwise univariate metrics. - Third, the approach also gives us a way to reason about dependencies that might be easier to detect only when holding some variables con- stant; 1.feature family （可以按照host聚合，类似group by。比如某个feature family是75th延时，当前clusterjobs数量） ...

喜报！Nervos 研究员张韧论文被顶级安全会议 IEEE S&P 接收！

近日，Nervos & Cryptape 研究员张韧发表的《Lay Down the Common Metrics: Evaluating Proof-of-Work Consensus Protocols’ Security》被 IEEE S&P（Oakland）接收，这也是中国大陆的区块链团队第一次在区块链行业核心会议上发表相关论文。IEEE S&PIEEE S&P 全称 IEEE Symposium on Security and Privacy（IEEE 安全与隐私研讨会），是计算机安全领域的四大安全会议（CCS、S&P、USENIX、NDSS）之一，也被认为是计算机安全领域的最高级别会议。为了与一个叫做 IEEE Security & Privacy 的期刊做区分，也有人用 Oakland 代指该会议，因为该会议每年都在美国 Oakland 举行。该会议在 CCF 推荐列表中是 A 类会议。CCF（中国计算机学会）是计算机领域的全国性权威学术组织，其评定的计算机学会推荐国际刊物会议列表是国内最权威的计算机学术会议级别列表。该列表将计算机各领域方向划分成 10 个类别，每个类别选取高水平的会议和刊物并由专家组评定级别，分 A、B、C 三级，A 类会议级别最高，论文发表的难度和论文水平也相对最高。由于区块链与计算机安全以及密码学的天然联系，四大安全会议、三大密码学会议（CRYPTO、EUROCRYPT、ASIACRYPT）以及 FC 构成了行业中最重要的学术会议，区块链领域中最重要的论文都发表在这几大会议上，S&P 因此也是区块链行业的核心会议之一。关于论文张韧是鲁汶大学 COSIC 在读博士，前 Blockstream 研究员，长期专注于区块链共识协议、安全和隐私研究。在该论文中，张韧介绍了一种用于定量分析 PoW 协议的链质量和抗攻击性能的多指标评估框架，提出了 PoW 安全分析中的几个常见缺陷，并指出了更安全的 PoW 协议未来的发展方向。我们截取了《Lay Down the Common Metrics: Evaluating Proof-of-Work Consensus Protocols’ Security》论文的摘要。论文链接如下：https://www.esat.kuleuven.be/…论文摘要：数百种加密货币参照比特币的 Nakamoto Consensus 协议（NC，中本聪共识），采用工作证明（PoW）机制来维护其网络。然而，研究表明，NC 无法实现完美的链质量，它允许恶意矿工改变公共账本，以便发起多种攻击，即自私采矿，双花攻击和羽毛分叉。以以太坊，比特币 NG，DECOR +，Byzcoin 为代表的一些后期设计（还有一些做出来的，有一些销声匿迹的设计），旨在通过提高链的质量来解决问题；以 FruitChains，DECOR +、Subchains 为代表的其他协议声称，它们可以在链的质量并不完美的情况下抵御攻击，因此它们不需要提高链的质量。由于它们的自称未得到有效性证实，社区对是否存在安全的 PoW 协议存在分歧。为了解决这种分歧并且制定通用的标准，本篇论文介绍了一种用于定量分析 PoW 协议的链质量和抗攻击性能的多指标评估框架。随后，我们利用此框架，通过马尔可夫决策过程法，评估这些改进方案的安全性。我们得出的结论是，到目前为止，没有任何一种 PoW 协议能够实现理想的链质量或抵抗以上三种攻击。我们将现有 PoW 协议链质量的不完美归因于不切实际的安全假设，不完善的攻击抵抗能力则是由于「奖励作恶」和「惩罚好的」的两难困境。此外，我们的分析还列举了多种新的、针对特定协议的攻击策略。根据分析，我们提出了 PoW 安全分析中的几个常见缺陷，并指出了更安全的 PoW 协议未来的发展方向。如果您对本篇论文有任何的想法，欢迎和我们一起讨论。推荐阅读：张韧的共识安全性分析文章《制定通用的标准：评估 PoW 共识协议的安全性》张韧从带宽利用率角度分析共识协议文章《Nervos CKB 共识协议 NC-Max：突破 Nakamoto Consensus 吞吐量的极限》关于 NervosNervos Network 由 Nervos 基金会推动，通过分层架构为未来加密经济提供基础设施。其底层公有链 CKB （Common Knowledge Base）作为核心的信任基础设施，用于支撑二层扩展方案，保证了安全和去中心化。Nervos Network 通过分层设计，兼顾性能、安全以及去中心的特性，从而满足多样化的商业应用。活动预告4 月 20 日至 23 日，亚洲第一届 Rust 大会将在中国·北京正式开启。届时，Nervos 团队也会参加，欢迎扫码直达链接报名，我们期待和大家见面！这是一场属于社区的大会，请来和我们一起肆无忌惮地炫耀，Rust 社区贼棒！中外 Rust 爱好者、开源爱好者、社区技术贡献者齐相聚～ ...

区块链毕业设计必读论文[2019第1期]

区块链作为一种崭新的、颠覆性的技术，是国内外活跃的研究领域和毕业设计选题方向。本文列出最新的一组区块链方面的论文，希望可以对选择区块链毕业设计的同学们有所帮助，这是汇智网编辑整理的区块链毕业设计论文系列中的第一篇。如果还希望快速学习区块链应用开发，可以访问汇智网的【区块链开发教程】，课程涵盖以太坊、比特币、EOS、tendermint等多种区块链平台，同时有助教在线答疑。1. 基于区块链的数据库内部攻击检测数据库系统的数据一致性和安全性通常由访问控制策略和防火墙保证，但是内部攻击——由熟悉系统或具有管理权限的人发起—— 挑战了现有的安全手段。类似单增日志这样的手段已经被证明是不够的，因为具有管理权限的攻击者可以篡改日志和登陆记录来抹掉攻击痕迹，这使得内部攻击难以防范。本论文提出了Verity方案，可以使用任何区块链来保存来自任何SQL数据库的元组的定长元数据，而无须迁移数据库数据。Verity基于区块链对SQL查询和结果进行过滤并检查相应元组的一致性，从而实现对内部攻击的检测。论文作者已经基于Hyperledger Fabric、Composer REST API和SQLite数据库实现了这一系统。论文PDF：Verity: Blockchains to Detect Insider Attacks in DBMS 2. 去中心化数据集市Wibson的目标是一个基于区块链的去中心化数据集市，可以为个人提供安全并匿名销售信息的可信环境。借助于Wibson代币和基于区块链的智能合约，允许数据卖家和卖家可以直接交易，同时保持匿名。论文PDF：Wibson: A Decentralized Data Marketplace 3. 区块链技术调研及其在分布式协作机器人技术中的潜在应用作为一种颠覆性的技术，区块链尤其是作为一种数字现金的比特币，已经吸引了广泛的关注。创新的分布式决策和安全机制为其成功奠定了技术基础，也让我们开始考虑区块链技术在分布式控制和协作机器人技术中的应用，因为在这一场景中非常需要分布式安全机制，而且长久以来一直没有解决，也曾经有过分布式协作机器人网络失效以及入侵者攻击的报告。区块链技术为解决分布式协同机器人领域的这一问题提供了新的可能。本论文工作意在采用控制和机器人技术语言全景化阐述区块链的工作原理和核心要素，以便新手可以快速进入这一研究领域。论文PDF：A Survey on Blockchain Technology and Its Potential Applications in Distributed Control and Cooperative Robots 4. 基于区块链的人力资源管理技术[工业4.0]人力资源管理系统是希望成功实施工业4.0的组织必不可少的信息系统。但是这些系统需要确保无偏差、高效、透明和安全的运行环境。区块链作为一种基于分布式数字账本的技术，可以帮助这一规范的实现。论文的文献综述，详细介绍人力资源管理系统领域的现状，以及区块链如何帮助实现一个智能、有效、透明和安全的工厂管理系统，同时也提出了一个基于区块链的招聘管理系统以及一个基于区块链的人力资源管理系统算法。论文PDF：A Recruitment and Human Resource Management Technique Using Blockchain Technology for Industry 4.0 5. 区块链数据安全性研究：调查报告随着越来越多的区块链应用，区块链的安全性已经被学者担心并深入研究。但是，区块链数据的安全性直接影响各种区块链应用的安全。在本调查中，我们对区块链数据的安全性进行了系统地梳理。首先我们提出了区块链数据攻击的分类，然后我们展示区块链数据的攻击和防护，例如隐私、有效性、一致性和可控性。数据隐私攻击将泄漏用户数据，数据有效性攻击将使用户不能正常访问区块链数据，而数据一致性攻击则破坏区块链上的数据，数据可控性攻击使得智能合约可能意外操作区块链数据。最后，我们提出该领域的几个重要的研究方向。论文PDF：Research on the Security of Blockchain Data: A Survey 本文整理了最新的可用于区块链毕业设计的参考论文，如果需要访问区块链毕业设计必读论文系列的最新文章，可以持续关注我们的博客，或加入QQ群：532241998。汇智网原创，转载请标明出处。