关于数据库:白话大模型②-如何提升AI分析的准确性

5次阅读

共计 1318 个字符,预计需要花费 4 分钟才能阅读完成。

文言大模型系列共六篇文章,将通俗易懂的解读大模型相干的专业术语。本文为第二篇:如何晋升 AI 剖析的准确性?作者:星环科技 人工智能产品部面对 AI 剖析落地时的数量化、准确性、泛化性等问题,让咱们略微深刻理解下以后的做法。这里只做形式化的简要概述:1. 需要合成:将需要合成为若干个子问题,比方“人脸检索”能够合成为“人脸检测”和“人脸识别”两个子问题;2. 技术手段:手工提取费时费力精度低,那么:•建设映射关系:应用“数据驱动”的“深度学习”主动提取特色和建设人脸图像到人脸嵌入向量 的映射关系,再次揭示嵌入向量就是能形容人脸的一个多维度的向量;•建设人脸卡片目录:应用这个映射关系,将人脸图像转化为 ID- 人脸嵌入向量对;•建设高效的查询方法:应用同样的映射关系,解决待查的图像,而后应用人脸卡片目录中的人脸嵌入向量,找到最类似的 ID,而后再找到对应的人脸图像。由此,咱们构建进去了一个“人脸识别”的小工具的架子。然而问题在于:1. 怎么构建这样的映射关系?答:用“数据驱动”的“机器学习”办法。2. 怎么建设人脸卡片目录和构建查询方法?答:用各类“数据库”或者更狭义的“信息检索技术”。加上引号的词汇,都是“术语”,咱们不急于解释和类比,因为会产生更大的歧义。咱们看看理论生产中,是怎么做的。建设映射关系

• 数据采集:采集大量的含有清晰可见的人脸数据,依据要求和“泛化性”不同,除了正脸,咱们还须要侧脸、带口罩、大俯仰角、芜杂背景(比方人在花丛中)、多人脸(比方会议合影)等各种状况的数据;• 数据荡涤:将显著不合乎需要的数据剔除,比方:人脸不清晰、人脸不残缺、人脸不在核心、人脸不是正脸、人脸不是人脸(比方是猫脸)等,再比方算法上有问题的:反复的(间接反复、有些地位挪动 / 旋转的)、数据毒害的(成心数据投毒的、比方打印的人脸 / 面具而不是实在人脸的)等等,荡涤出“高质量”数据理论工作远比看上去的简单得多得多;• 数据标注:标注出 1. 人脸的地位(比方画一个框,将人头框入;但事实可能有更简单的状况:比方精确绘制出一个多边形而不仅仅是长方形了,或者图像是 3D 的)2. 其余信息(比方人的一些 ID/ 性别等属性)• 特征提取 + 建设模型:构建“人脸”(图像)到“人脸嵌入向量”(一串数字)的映射(构建办法咱们叫“算法”):• 这个映射是一个黑盒子,下面有很多旋钮,输出是“图像”,输入是“嵌入向量”;• 咱们只能调整旋钮来管制输入;• 咱们能够验证输入的后果是否合乎咱们的需要并作出:调整旋钮,考查咱们预测进去的“人脸框”和其“ID”和标注的是否一样,不一样则调整,直到合乎为止;• 调整的过程咱们叫“训练”,调整的办法咱们叫“最优化办法”,应用的人力和组织模式能够了解成“算力”。不论是否合乎普通人的认知:在应用了大量的数据后,咱们能够失去一个“人脸嵌入向量”的“映射关系”,也就是 {黑盒子自身 + 旋钮的扭转档位},这个组合可能将“人脸图像”转化为“人脸嵌入向量”,这个向量是一个多维度的数字,咱们能够认为这个数字是“人脸”的“特色”。• 模型晋升:来了新状况,准确度等不够(比方辨认不了带口罩的人脸),咱们能够持续采集数据,而后从新训练模型,失去新的“映射关系”,做到晋升。

正文完
 0