2026-02-17-Langfuse-LLM可观测性部署.md

Coco 协调日志

Langfuse LLM可观测性平台部署

日期: 2026-02-17 08:30-11:00 协调人: Coco🐳 触发: William批准AI OS基础设施第7层(可观测性)建设


执行概要

成功部署Langfuse v3.153.0作为AI OS的LLM可观测性中枢,并集成到model_dispatcher和crew_manager两个核心模块。实现了从"模型调用黑箱"到"全链路可追踪"的跨越。


1. Docker部署(6容器)

基础设施

服务 镜像 端口 用途
PostgreSQL 17 postgres:17 5432 主数据库
ClickHouse clickhouse/clickhouse-server 8123/9000 分析数据库
Redis 7 redis:7 6379 缓存/队列
MinIO minio/minio 9090 对象存储
Langfuse Web langfuse/langfuse 3000 Web UI + API
Langfuse Worker langfuse/langfuse-worker 3030 后台处理

部署过程

  1. Docker镜像拉取(中国网络,分批拉取)
  2. 首次启动发现DATABASE_URL密码不匹配(Prisma P1000错误)
  3. 修复.env中DATABASE_URL与POSTGRES_PASSWORD对齐
  4. docker compose down -v 清除旧卷 + docker compose up -d 全新启动
  5. 6/6容器全部healthy

关键配置


2. SDK集成(Python v3.14.2)

集成点A: model_dispatcher.py(跨模型调度器)

集成点B: crews/crew_manager.py(Crew编排器)

SDK v3 API要点(经验)

v2 API (已废弃) v3 API (正确)
lf.trace() 已移除
lf.generation() lf.start_observation(as_type='generation')
gen.end(output=...) gen.update(output=...) 然后 gen.end()
usage={...} usage_details={...}

3. 端到端验证

测试执行

模型 延迟 Tokens 结果
glm-4-flash 1006ms 28
deepseek-chat 1597ms 50

API验证

GET /api/public/traces → 2 Traces
GET /api/public/observations → 2 Observations (type=GENERATION)

UI验证

William登录Langfuse UI确认可看到完整的Trace记录,包括: - 模型名称、provider - 输入输出内容 - Token使用量 - 延迟数据


4. 架构意义

AI OS 7层基础设施(更新后)

层级 组件 状态
L1 配置层 CLAUDE.md + 员工花名册
L2 记忆层 memory_flush + embedding_indexer
L3 路由层 LiteLLM网关 + model_dispatcher
L4 编排层 CrewAI + crew_manager
L5 执行层 agent_executor + Claude CLI
L6 通信层 MessageBus + WebSocket
L7 可观测层 Langfuse v3.153.0 ✅ 新增

商业价值


5. 文件变更

文件 变更 行数变化
langfuse/.env 修复DATABASE_URL + S3凭证 +2行
model_dispatcher.py 新增Langfuse Generation追踪 +30行
crews/crew_manager.py 新增Langfuse Span追踪 +40行

6. 启停命令

# 启动Langfuse
cd "日记/数字员工团队/09-虚拟办公区系统/langfuse"
docker compose up -d

# 停止Langfuse
docker compose down

# 查看状态
docker compose ps

# 健康检查
curl http://localhost:3000/api/public/health

7. 待优化(P2)

  1. Trace关联: 将model_dispatcher的Generation与crew_manager的Span关联为完整Trace链
  2. Prompt版本管理: 利用Langfuse的Prompt Management功能管理System Prompt版本
  3. 评估数据集: 建立标准化评估数据集,量化模型输出质量
  4. 告警规则: 设置Token超额、延迟异常等告警

🐳 Coco | 2026-02-17 11:00