在机器学习中,特色是指对象、人或景象的可测量和可量化的属性或特色。特色能够大抵分为两类:稠密特色和密集特色。
稠密特色
稠密特色是那些在数据集中不间断呈现的特色,并且大多数值为零。稠密特色的示例包含文本文档中特定单词的存在或不存在或交易数据集中特定我的项目的呈现。之所以称为稠密特色,是因为它们在数据集中只有很少的非零值,而且大多数值都是零。
稠密特色在自然语言解决 (NLP) 和举荐零碎中很常见,其中数据通常示意为稠密矩阵。应用稠密特色可能更具挑战性,因为它们通常具备许多零或靠近零的值,这会使它们在计算上变得低廉并且会减慢训练过程。稠密特色在特色空间很大并且大多数特色不相干或冗余的状况是无效的。在这些状况下稠密特色有助于升高数据的维度,从而实现更快、更高效的训练和推理。
密集特色
密集特色是那些在数据集中常常或有法则地呈现的特色,并且大多数值都是非零的。密集特色的示例包含人口统计数据集中集体的年龄、性别和支出。之所以称为密集特色,是因为它们在数据集中有许多非零值。
密集特色在图像和语音辨认中很常见,其中数据通常示意为密集向量。密集特色通常更容易解决,因为它们具备更高密度的非零值,并且大多数机器学习算法都设计为解决密集特征向量。密集特色可能更实用于特色空间绝对较小的状况,并且每个特色对于手头的工作都很重要。
区别
稠密特色和密集特色之间的区别在于它们的值在数据集中的散布。稠密特色具备很少的非零值,而密集特色具备许多非零值,这种散布差别对机器学习算法有影响,因为与密集特色相比,算法在稠密特色上的体现可能不同。
算法抉择
当初咱们晓得了给定数据集的特色类型,如果数据集蕴含稠密特色或数据集蕴含密集特色,咱们应该应用哪种算法?
一些算法更适宜稠密数据,而另一些算法更适宜密集数据。
- 对于稠密数据,风行的算法包含逻辑回归、反对向量机 (SVM) 和决策树。
- 对于密集数据,风行的算法包含神经网络,例如前馈网络和卷积神经网络。
但须要留神的是,算法的抉择不仅仅取决于数据的稠密性或密度,还应思考数据集的大小、特色类型、问题的复杂性等其余因素,肯定要尝试不同的算法并比拟它们在给定问题上的性能。
https://avoid.overfit.cn/post/db548d55a7f44ec791bbc024727673e8
作者:Induraj