协调日志:造物日志自动化管道代码开发与多模型评测
日期:2026-02-17
协调人:Coco🐳
参与方:William(决策)、Claude(架构师)、Qwen 3.5/GLM-5/MiniMax/DeepSeek/Kimi(代码生成)
任务概述
将造物日志Skill体系设计(10个Skill)落地为可执行的Python自动化管道代码。采用"Claude做架构师 + 国产模型做代码开发"的分工模式,同时完成5个国产LLM的代码开发能力评测。
执行时线
14:00-16:30 Claude架构设计 + 项目基座搭建
- 创建
zaowu_pipeline/ 包骨架(6子包)
- 编写3个基座文件:config.py(129行)、models.py(192行)、codegen.py(103行)
- 编写
auto_codegen.py(787行) — Qwen 3.5永续代码生成引擎
- 配置Python虚拟环境
.venv/
- 安装9个依赖(click, feedparser, requests, pyyaml等)
16:30-17:10 Qwen 3.5永续引擎运行
- S1完成(260s):content_queue.py(303) + desensitizer.py(242) + monitor.py(207)
- S2完成(249s):md_to_wechat.py(246) + cover_gen.py(231)
- S3部分完成:quicknote.py(170)
- S3中断:overseas_insight.py 因Qwen API 3次超时(180s×3)失败
17:10-17:20 William决策:多模型测试
- William指示:尝试GLM-5、MiniMax-M2.5等模型,测试各家代码开发能力
- 编写
multi_model_codegen.py — 多模型对比引擎
- 5个模型API连通性测试全部通过
17:20-17:50 多模型代码生成
| 模块 |
分配模型 |
结果 |
| overseas_insight.py |
GLM-5 |
✅ 292行,106s |
| rss_fetcher.py |
MiniMax-M2.5 |
⚠️ 4410行含大量垃圾,清理后137行 |
| x_twitter.py |
DeepSeek-Chat |
❌ 3次超时失败 → GLM-5补生176行 |
| wechat_api.py |
Kimi K2.5 |
⚠️ 97行,import全错 → Claude重写138行 |
| cli.py |
Qwen 3.5 |
⚠️ 143行,引用不存在模块 → Claude重写255行 |
17:50-18:00 Claude修复验证
- 清理MiniMax垃圾输出、重写Kimi/Qwen生成的问题代码
- 13/13模块import验证通过
- CLI端到端测试通过(status + review --all)
关键决策
| 决策 |
谁做的 |
理由 |
| Claude做架构师,国产模型做代码工 |
William |
测试国产模型代码能力 |
| Qwen超时后切GLM-5 |
Coco |
Qwen 3次180s超时,需备选 |
| 尝试所有5个模型 |
William |
"今天尽量都试试各个模型的开发能力" |
| Qwen+GLM-5组合为最佳 |
评测结论 |
覆盖率100%,代码质量最高 |
交付物
| 交付物 |
数据 |
| Python代码总量 |
3,493行,14个文件 |
| CLI命令 |
7个(status/collect/produce/review/format/publish/daily) |
| 代码生成工具 |
auto_codegen.py + multi_model_codegen.py |
| 模型评测报告 |
5模型代码开发能力五维度排名 |
文档更新
| 文档 |
状态 |
| 进展日志 |
✅ 已更新(新增代码开发+多模型评测章节) |
| 文件索引 |
✅ 已更新(新增自动化管道代码目录) |
| 模型优选排序 |
✅ 已创建 08-经验库/模型优选排序-代码开发场景.md |
| 协调日志 |
✅ 本文件 |
后续建议
- Phase 2启动:部署X/Twitter RSS采集(需Nitter实例或替代方案)
- Phase 3启动:WeChatMediaPlatformAutomation安装测试(Puppeteer自动发布)
- 首批内容生产:用
python -m zaowu_pipeline.cli produce quicknote "主题" 生成测试文章
- 模型策略固化:后续代码开发统一采用 Qwen 3.5 + GLM-5 组合
Coco🐳 | 2026-02-17