稠密向量与稀疏向量

2022-03-13 10:11:57 #笔记 #机器学习

机器学习中会经常用到向量，包括对特征的存储，优化的计算等等，都离不开向量。但是具体实现时，经常会采用两种方式存储向量，一种是使用数组的数据结构对向量建模，这种结构通常存储普通的向量，也称为稠密向量。一种是使用map的数据结构对向量建模，这种结构存储的向量大多数元素等于零，这种向量称为稀疏向量。

之所以使用两种不同的存储结构，是因为机器学习中的特征很多时候是高维空间中的元素，具有成千上万的分量，而这些分量是通过离散化得到的，所谓离散化，就是将原来取值为实数（比如某个特征为价格，取值为475.2）的特征，根据取值范围（例如范围在350~800之间）分为若干个区间（例如按照每间隔10为一个区间，即分成了350~360，360~370 ，790~800），原来的一维特征也相应离散为若干维。如果价格在470~480的区间中，则相应维度的特征取值为1，其他维度的特征取值为0。因此，如果使用稀疏向量存储，不仅节省空间，而且在后续的各种向量操作和优化的计算中会提高效率。

举例：向量(1.0,0.0,1.0,3.0)

密集格式：表示为[1.0,0.0,1.0,3.0]，

稀疏格式表示为(4,[0,2,3],[1.0,1.0,3.0])

第一个4表示向量的长度(元素个数)，[0,2,3]就是indices数组；[1.0,1.0,3.0]是values数组，表示向量0的位置的值是1.0，2的位置的值是1.0,而3的位置的值是3.0,其他的位置都是0，

稀疏向量在面对很多数据是零的情况下能节省很多的存储空间

参考资料：

稠密向量与稀疏向量 - 知乎 (zhihu.com)

密集向量与稀疏向量_duzm200542901104的专栏-CSDN博客

2026-03-10 17:00:23 #笔记 #机器学习