随着接入ChatGPT的数据越来越多,相信单独存储数据的需求会出现爆发式增长。5月3日,传微软将推私有版ChatGPT服务数据单独存储价格是常规版十倍,相信后续也会充分发酵。
人工智能是数据的消耗大户,对存储有针对性的需求。当处理小型数据集和简单算法时,传统机器学习模型可以存储在独立机器或本地硬盘驱动器上。然而,随着深度学习的进步,团队在处理更大的数据集和更复杂的算法时越来越多地遇到存储瓶颈。
这凸显了分布式存储在人工智能(AI)领域的重要性。
人工智能团队经常遇到以下挑战:
一是大型数据集:随着数据和模型规模的增长,独立存储无法满足应用需求。在 AI 场景中,随着企业使用 GPU 越来越多,底层存储的 IO 已经跟不上计算能力。 企业希望存储系统能提供高吞吐的数据访问能力,充分发挥
GPU 的计算性能。举个例子,在智能制造生产线上通过高精度相机给物品拍照,用缺陷识别模型自动找出质量问题。这类模型的训练集只有 1~2 万张图片,但每张都是 GB 大小的高精度照片,总容量有 10TB 了。训练过程中,如果存储系统吞吐不足,会成为 GPU 训练的瓶颈。因此,分布式存储解决方案成为解决这些问题的当务之急。
二是历史数据全量归档:在某些场景下,每天都会产生大量新的数据集,需要作为历史数据归档。这在自动驾驶领域尤为重要,道路测试车辆收集的数据,如雷达和摄像头数据,对公司来说是非常宝贵的资产。AI 场景对于 10 亿以上文件规模的存储管理和高性能访问的需求越来越强。在自动驾驶领域,用于模型训练的是百 KB 的小图片,一个训练集由数千万张百 KB 图片组成,一张图片就是一个文件,总的训练数据多达几十亿、甚至一百亿文件。海量小文件管理一直是文件存储领域的难题。在这些情况下,独立存储被证明是不够的,因此分布式存储成为必要的考虑因素。
三是小文件和非结构化数据过多:传统的分布式文件系统难以管理大量小文件,导致元数据存储负担沉重。这对于视觉模型来说尤其成问题。为了解决这个问题,我们需要一个针对存储小文件进行优化的分布式存储系统。这样既保证了上层训练任务的高效,又保证了海量小文件的轻松管理。
四是训练框架的 POSIX 接口:在模型开发的初始阶段,算法科学家通常依赖本地资源进行研究和数据访问。然而,当扩展到分布式存储以满足更大的训练需求时,原始代码通常需要最少的修改。因此,分布式存储系统应该支持POSIX接口,最大限度地兼容本地环境开发的代码。
五是共享公共数据集和数据隔离:在计算机视觉等某些领域,需要在公司内的不同团队之间共享权威的公共数据集。为了促进团队之间的数据共享,这些数据集通常被集成并存储在共享存储解决方案中,以避免不必要的数据重复和冗余。
六是云端训练数据I/O效率低:云端模型训练往往使用对象存储作为存储计算分离架构的底层存储。然而,对象存储较差的读写性能会导致训练过程中出现严重的瓶颈。
相信随着人工智能的快速发展,布局分布式存储行业的企业业绩也会出现爆发式增长。
相关个股:
同有科技:根据企业2022年年报及2023年一季报披露。公司在2022年分布式存储领域业绩大幅增长,同比实现790%的增长。此外,2023年一季度实现280%的增长,相信随着人工智能的不断发展,企业将会充分受益。
深信服:企业从2013年开始布局此块业务,但此类业务增速未披露。