写在前头:
虽然短期A股对Ai的炒作已经比较热烈,一些股票也可能出现比较大的调整,但是AI科技革命已经兴起,发展浪潮不可逆转,不以人的意志为转移,所以抛开股票短期的走势,该做的研究和思考还是不能缺的,看清楚才能做到心中有底,更好把握AI行情。
周末人工智能领域有2则消息引人注意。
一是据知情人透露,微软公司威胁称,若搜索引擎竞争对手继续将微软的互联网搜索数据作为自家AI聊天产品的基础,微软将阻止这些公司获取相关数据。据悉,微软已告知至少两个客户,使用必应搜索索引数据库为其AI聊天工具提供信息的行为违反合同条款,微软可能会终止向这些企业提供访问数据库的许可证。
二是美国新闻集团拟起诉微软、谷歌、OpenAI,据华尔街日报报道,AI 技术的发展已经引发了新闻出版业的不满,他们认为自己的内容被大型科技公司用于训练 AI 模型而没有得到合理的补偿。拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等的美国新闻集团正准备向 OpenAI、微软和谷歌等公司提起诉讼,要求赔偿其内容在 ChatGPT、Bard 等 AI 工具中被用来使用的费用。
这两则消息说明了两个事实:数据要素是核心资产;数据的确权非常重要。
基于此,我重新研读了拓尔思在3月8日发布的《数据要素白皮书》。说实话,当时看到这长达86页的白皮书,头都大了,以为又是吹牛之类的理论八股,只是草草过了一遍。今天重新看了几遍,算得上认真研究了一下,才发现拓尔思早就把以上两个问题想清楚了,并做出了明确的发展规划。研究拓尔思的数据要素,把这份白皮书看懂就足够了。白皮书很书面化,我挑重点简单说一下自己的理解。
首先白皮书说我国数据要素市场发展很快,基础具备,相关法律法规不断完善,国家高度重视,可以说是非常有前途的大赛道。这从最近的国家数据局成立可以佐证。
然后要理解白皮书,必须先理解国家发改委《加快构建中国特色数据基础制度体系促进全体人民共享数字经济发展红利》的文章。这篇文章是纲领性的。文章提出要建立我国数据确权制度,必须先跳出所有权思维定式,推动数据产权结构性分置,聚焦数据在采集、收集、加工使用、交易、应用全过程中各参与方的权利,建立数据资源持有权、数据加工使用权、数据产品经营权“三权分置”。
这段话极其重要。什么意思呢?就是国家规定公共领域哪些数据可以共享和开发利用,企业和个人哪些数据可以合法合规授权开发使用,这些数据只有在被采集收集、清洗加工之后才能成为有效数据被交易和使用。那么在参与这些数据的采集、加工、交易、使用过程中的各方都应该享有权利,也就是应该享有收益。不能说这个数据是我的,所有收益该我一个人享用,而是你参与采集了这些数据,你清洗加工了这些数据,你促成了数据的交易......都应该享有各个环节的收益。
那么拓尔思在数据确权的发展目标是什么呢?他想做中国另类数据龙头。
什么是另类数据呢?就是从信息源头看,除去公司公告、传统交易所如上交所深交所等披露的信息之外,所能产生的所有信息,比如网站数据、社交媒体信息、新闻报道等。这些数据是庞杂无章的,是没有办法直接用的。
首先要做的事情是采集这些数据,然后利用自己的人工智能技术对这些数据进行据分类、抽取、标注、查重、质量校核等处理,形成高质量的数据要素。然后采用业务模型、算法将这些数据要素进行数据级、行业级、场景级、决策级等融合,形成高质量的数据资产。最后针对政府、 金融、媒体、专利、能源、企业等细分需求,生成针对性的数据产品,通过SAAS、MAAS等方式提供服务。
数据的收集加工处理采用的都是拓尔思利用人工智能技术、自主研发的大数据软件,如海蜘大数据采集平台、海聚数据融合平台、贝搜索数据库、天骄数据中台、智拓人工智能技术平台等,对互联网公开数据的 7*24 小时不间断采集,同时租用了阿里云及微软云的服务器实现境外数据采集,包括80 万+新闻网站、3000+资讯 APP、1200+国内报刊、20+三方平台、79 语种 50 万+境外站点,拥有了规模及质量均位列业界前茅的、公开的资源性数据资产。目前,拓尔思拥有来自全球、各行各业的互联网公开数据,总量超 1300 亿,拥有通用、行业/领域知识 库 30+大类,标签规则 30000+,形成了 350+深度学习算法模型的模型工厂,具备数千亿数据量的数据索引、标记、查询、挖掘分析能力,万亿级数据总量的秒级检索能力,日均亿级数据获取能力。