本文只是从AI进展的角度聊一聊,皆为个人思考,并非什么专业建议。
核心结论就是一个类比:
-人类=人眼所见——大脑理解处理——给出反射执行
-多模态=AI看见(视频)——数据处理(理解视频里的数据)——执行反馈。
即核心就是理解AI看到的画面,重点是视频内的数据处理。
-多模态AI相比之前的chatgpt,是AI从认识文字到认识世界(通过视频)的一个进化过程;
-如果chagpt说是AI初中生,那未来成熟的多模态,就是AI的成年人形态;
GPT对应0-1,多模态对应1-10.
——————————————————————————
-如何更好的让AI理解看到的东西,决定了多模态的高度。(谷歌自己都说了,放出的视频里Gemini需要人为提示词来加强理解)
-而688039当虹科技的主营,正好是视觉多模态内容的处理分析:
2023年半年报:公司视觉多模态分析技术基于自主研发视觉多模态分析技术,对多媒体进行视频、语音、文本、图像等内容的多维分析,针对视频中出现的内容进行多模态融合的智能理解分析并进行结构化标签提取,包含视频中出现的人物、车、物体、地标建筑、文字等内容的识别。
-同时视频内容数据量大是一个特别,因此压缩处理也十分关键:
当虹科技:公司拥有自研的AIGC工具集,于今年上半年发布了以静态照片生成三维体积视频的方案,支持6DOF(六自由度)视角自由移动,并且通过点云模型转换及压缩算法实现高达800倍的视觉无损压缩
反正我觉得很硬~ 和当时海天瑞声的数据集用于训练逻辑类似:
视觉多模态数据分析处理是多模态的关键核心所在。