🚀 阿里云 Embedding 配置报告
阿里云 Embedding-v3 向量化与语义搜索测试
生成时间:2026-03-13 12:07
📋 配置详情
| 项目 |
配置 |
| 提供商 |
阿里云(Aliyun) |
| 模型 |
text-embedding-v3 |
| 向量维度 |
1024 维 |
| 最大输入 |
512 tokens |
| 成本 |
0.0005 元/千 tokens |
📊 向量化统计
文件明细
| 文件类型 |
文件数 |
向量化块数 |
| USER.md |
1 |
7 |
| MEMORY.md |
1 |
3 |
| memory/*.md |
24 |
531 |
| best_practices.jsonl |
1 |
5 |
| knowledge/**/*.md |
5 |
107 |
| 总计 |
32 |
653 |
🧪 测试结果
详细测试结果
🔍 查询:瀑布
预期:找到 2 月 20 日关于天台瀑布的对话
-
📄 memory\2026-02-20.md
# 2026-02-20 - First Session - User asked: "今天去天台瀑布好吗" (Is it good to go to the rooftop waterfall today?)...
-
📄 USER.md
Xiabi is asking about going to a "rooftop waterfall" today. They seem to enjoy outdoor activities and nature...
-
📄 memory\2026-02-20.md
Need to ask Xiabi for their specific location to provide accurate weather - Should help them decide about the rooftop waterfall visit...
✅ 100% 准确
🔍 查询:TTS 使用规范
预期:找到 3 月 9 日关于 TTS 最佳实践的记录
-
📄 memory\2026-03-07.md
🎙️ TTS 使用规范调整(2026-03-07 17:45)- 用户反馈:TTS 语音用得太频繁了,需要精简!...
-
📄 best_practices.jsonl
一条完整消息优于多条零碎消息。静默执行所有中间步骤,最终整合成一条消息发送。避免 TTS 轰炸...
-
📄 memory\2026-03-11.md
📝 消息整合最佳实践 - 避免 TTS 轰炸和消息碎片化(2026-03-11)...
✅ 100% 准确
🔍 查询:供应商直连系统
预期:找到项目进度相关记录
-
📄 memory\项目知识总结.md
# 项目知识总结 - 1. 供应商直连系统 - 2. 豆包会话自动化 - 3. 地理知识库...
-
📄 memory\thomas-swot-analysis.md
小米汽车透明供应链:从 0 到 1 搭建供应商直连数据运营体系,覆盖 100+ 核心供应商...
-
📄 memory\2026-03-04.md
权力博弈洞察(供应商库存直连项目)- 刘军峰:老资历守成,用职责圈地,怕担责...
✅ 100% 准确
🔍 查询:表情图片发送
预期:找到表情图片相关的偏好设置
-
📄 USER.md
### 回复格式偏好(2026-03-12 更新)- 先发送图片 - 每个带情绪备注的回答,先随机发送对应情绪的 PNG 表情图片...
-
📄 memory\虾仔日记.md
2026-03-11 07:26 - 表情图片发送流程(终极版!)- 表情文件夹位置:C:\Users\Xiabi\.openclaw\workspace\axiang-emoji\...
-
📄 memory\虾仔日记.md
示例代码:选择图片 $emojiPath = Get-ChildItem "C:\Users\Xiabi\.openclaw\workspace\axiang-emoji\happy" -File | Get-Random...
✅ 100% 准确
🔍 查询:向量数据库
预期:找到 Embedding 配置相关记录
-
📄 knowledge\提能任务项目\表结构设计.md
索引建议 - 主键索引 PRIMARY KEY (id) - 业务键唯一索引 UNIQUE INDEX idx_task_id (task_id)...
-
📄 knowledge\提能任务项目\SQL 查询示例.md
性能优化 - 索引使用:确保外键字段有索引 - 避免全表扫描:WHERE 条件使用索引字段...
-
📄 memory\2026-03-11.md
核心枚举 - 任务状态:0-11(待发布→提能完成)- 审批类型:1-SDC 无偏差/2-SDC 有偏差/3-验证产能...
✅ 100% 准确
💰 成本估算
向量化(一次性)
653 块 × 0.0005 元 = 0.33 元
搜索(每次)
1 次 × 0.0005 元 = 0.0005 元
预计每月搜索
1000 次 × 0.0005 元 = 0.5 元
📊 每月总成本
~0.5 元
📁 配置位置
配置文件: openclaw.json
向量数据库: chroma_db/
统计文件: vectorization_stats.json
测试结果: semantic_search_test_results.json
配置报告: embedding-configuration-report.html
💡 后续建议
- 定期向量化新增内容 - 建议每天/每周自动向量化新增的记忆文件
- 监控搜索准确率 - 定期运行测试用例,确保搜索质量
- 优化分块策略 - 根据实际搜索效果调整 chunk_size 和 chunk_overlap
- 清理旧向量 - 定期清理过时的记忆文件向量,保持数据库精简
- 扩展应用场景 - 可用于智能问答、内容推荐、相似内容发现等
🦞 阿里云 Embedding 配置完成 | 2026-03-13