稀疏数据指的是数据集中大部分值为零或为空的数据集。当维度(例如,行和列)之间的关系不存在或被忽略时,就会发生这种情况。稀疏数据集在现代科学计算中无处不在,包括网络分析、信号处理、图像处理、机器学习等。存在许多稀疏数据格式,它们只存储非零值,从而节省内存,同时仍然允许高效的计算和操作。

最近,一个稀疏数组 API被添加到scipy.sparse中,作为移除稀疏矩阵 API 并最终移除np.matrix的第一步。这项工作与PyData 稀疏包正在进行的工作相辅相成,该包提供了支持 Numba 编译代码的数组语义的 n 维稀疏数据结构。

峰会将稀疏数组的开发者和用户聚集在一起,讨论当前实现的不足之处、各个科学界的需求,并制定共享路线图和愿景,以更好地支持稀疏数组。


会议 1
会议 2
峰会后续 6 月 17 日