控制AI每次回复的正文长度
用于后台事件生成和实体检测,推荐使用Flash级别模型
默认使用本地模型(256 tokens),启用后使用API(8192 tokens)可提升长文本检索质量
💡 硅基流动(SiliconFlow)提供免费的bge-m3向量化API,注册即可使用