🚀 阿里云 Embedding 配置报告

阿里云 Embedding-v3 向量化与语义搜索测试

生成时间:2026-03-13 12:07

📋 配置详情

项目 配置
提供商 阿里云(Aliyun)
模型 text-embedding-v3
向量维度 1024 维
最大输入 512 tokens
成本 0.0005 元/千 tokens

📊 向量化统计

32
文件数
653
向量化块数
653
总向量数
1024
向量维度

文件明细

文件类型 文件数 向量化块数
USER.md 1 7
MEMORY.md 1 3
memory/*.md 24 531
best_practices.jsonl 1 5
knowledge/**/*.md 5 107
总计 32 653

🧪 测试结果

5
测试用例
5
成功
100%
准确率

详细测试结果

🔍 查询:瀑布
预期:找到 2 月 20 日关于天台瀑布的对话
✅ 100% 准确
🔍 查询:TTS 使用规范
预期:找到 3 月 9 日关于 TTS 最佳实践的记录
✅ 100% 准确
🔍 查询:供应商直连系统
预期:找到项目进度相关记录
✅ 100% 准确
🔍 查询:表情图片发送
预期:找到表情图片相关的偏好设置
✅ 100% 准确
🔍 查询:向量数据库
预期:找到 Embedding 配置相关记录
✅ 100% 准确

💰 成本估算

向量化(一次性) 653 块 × 0.0005 元 = 0.33 元
搜索(每次) 1 次 × 0.0005 元 = 0.0005 元
预计每月搜索 1000 次 × 0.0005 元 = 0.5 元
📊 每月总成本 ~0.5 元

📁 配置位置

配置文件: openclaw.json

向量数据库: chroma_db/

统计文件: vectorization_stats.json

测试结果: semantic_search_test_results.json

配置报告: embedding-configuration-report.html

💡 后续建议

  1. 定期向量化新增内容 - 建议每天/每周自动向量化新增的记忆文件
  2. 监控搜索准确率 - 定期运行测试用例,确保搜索质量
  3. 优化分块策略 - 根据实际搜索效果调整 chunk_size 和 chunk_overlap
  4. 清理旧向量 - 定期清理过时的记忆文件向量,保持数据库精简
  5. 扩展应用场景 - 可用于智能问答、内容推荐、相似内容发现等

🦞 阿里云 Embedding 配置完成 | 2026-03-13