学习了下向量数据库的内容。我用通俗的话表达下,欢迎探讨。
互联网及各数据库有大量的数据,但如何把数据分类并变得有用,将各公司分成了不同的层次。业内把这个称为“Embedding (向量化)”,其实就是贴标签,比如淘宝对每个用户有大量的标签,这是用户数据的“向量化”,对平台销售的产品也会贴大量的标签“向量化”。淘宝千人千面其实就是基于两方数据的标签(向量化)进行匹配,提高购买率。
我们再看一个场景,公安部门有人脸比对系统。任何一个小民警拿一个PDA,对你拍个照,马上你的身份信息就出来了。这是人脸信息的向量化。
再比如未来可能出现的场景,我们人是可以根据一个熟悉的人背影、步态、甚至走路声响来判断这个人是我们的认识的那个人。而AI可以把步态和背影向量化,通过视频搜索背影和步态,找到相应的人。
向量数据库最核心的部分在于算法,就是怎么样清洗、整理数据,并输出相应的结果。
对应的上市公司,其对这块的描述为“大数据智能处理”。
云创数据:最正宗,2.43亿营收来自于这个。
星环科技:大数据基础软件开发商、围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件及服务。
欧比特:卫星星座及卫星大数据。
罗普特:计算机视觉,安防视频、安防教育
恒为科技:网络数据可视化,智能系统平台
开普云:为能源行业、政府和企业提供云内容管理。
东方国信:大数据采集设备、大数据处理专用设备、大数据存储及计算、大数据管控、大数据分析、私有云平台、大数据展现及移动应用等。
熙菱信息:视频图像大数据处理。
我认为恒为科技和东方国信可以重点关注。