上下文缓存(Context Caching)是一种高效的数据管理技术,它允许系统预先存储那些可能会被频繁请求的大量数据或信息。这样,当您再次请求相同信息时,系统可以直接从缓存中快速提供,而无需重新计算或从原始数据源中检索,从而节省时间和资源。
上下文缓存(Context Caching)特别适合用于频繁请求,重复引用大量初始上下文的场景,可以显著降低长文本模型费用并提高效率!
场景举例:需要对固定文档大量提问的场景。某硬件产品说明书大概 9万字,换算 Tokens 长度大概 64K,该产品售前支持人员需要在 10 分钟内,密集对产品的功能/使用方式进行 40 次问答,每次的问题大概 100 个字,要求模型的输出需要基于产品说明书来回答,回答问题在 120 字以内。
以 128k 模型的一次 4w 字(30k tokens)的推理请求为例,通常向模型提问,平均要 30s 返回首 Token。接入 Context Caching 后,如下图,最快可 1s 内完成首 Token 返回。
经过大量测试,接入上下文缓存(Context Caching)功能,128K 的请求,首 Token 延迟平均可降至 5s 内,首 Token 延迟降低 83%左右!
以上应用效果,基于 1 token = 1~1.5个文字和字符,128k 模型进行测算。具体的效果根据您的业务情况/模型选择不同,会有略微的差别。