17 KiB
PPTkeyibagong
说实话,昨天深夜在算这几个月AI Coding开销的时候,我手稍微抖了一下。
20,000 美金。
这不是公司的融资款,也不是大厂报销的额度。这是过去4个月,我作为一个全栈开发者,为了打磨一款从底层架构到前端像素都“对味儿”的产品,自掏腰包交的“学费”。
(近两个月某88code渠道的claudecode+codex消耗截图,共10628.55刀,还有两个备用渠道)
为什么要发这个图?
不是为了凡尔赛——毕竟换算下来这是一辆B级车了,看着是真肉疼。发出来只想证明一件事:
下面我说的每一个字,都是用真金白银和无数个熬夜修Bug的夜晚砸出来的血泪教训。
4个月,完全0->1,571次commits。
今天,我的“孩子”—— studio.atomstorm.ai (Beta) 终于要把丑媳妇见公婆了。
这可能是我知道的,全球第一款基于最新Anthropic Skills技术和Multi-Agents架构的生产级 Vibe Agent 产品。
做这款产品,我经历了从兴奋到绝望,从砍掉Alpha版本重练到涅槃重生的全过程。今天不讲那些虚头巴脑的“赋能”和“生态”,只想和大家聊聊,一个真正的超级个体,如何在AI的浪潮里,既看清远方的高山,又倒出鞋里的沙子。
01
对不起,我要给 "Vibe Coding" 泼盆冷水
最近 Andrej Karpathy 大神把“Vibe Coding”带火了。网上一堆人嗨了,觉得只要会打字、会写Prompt,就能做软件了。
我得诚实地说:某种程度上,这是骗人的。
至少在今天,Vibe Coding ≠ AI Coding。
Vibe Coding 能让你用一下午搓出一个无限白板画布,或者一个看起来很炫酷但只有一层皮的Mac操作系统。这叫MVP(最小可行性产品),甚至叫“一次性玩具”。
但如果你想做一个可维护、可扩展、能承载千万级用户、对标融资公司的复杂商业产品,光靠“Vibe(感觉)”是死路一条。
我亲手砍掉过一个版本。
早在去年7月,我就做出了这款产品的Alpha版,对标市面几家头部Agent产品的效果很能打。当时只要发出来,绝对能蹭上一波AI生成PPT的热度。
但我把它砍了。代码全部推倒,从头再来。
为什么?
第一,产品太糙。基本处于原型阶段,发出来是对用户的不尊重。
第二,架构腐蚀。那是一个纯Next.js的“屎山”,所有的逻辑都堆在一起。一旦我想加个新功能,AI就开始胡言乱语,改了一个Bug冒出三个新Bug。这就好比用积木搭摩天大楼,地基都没打好,风一吹就倒。
第三,甚至是背离了初心。Build in Public营销是流行打法,但我不擅长当网红。我想,那就先解决问题。
这时候我才深刻理解《黑神话:悟空》制作人冯骥的那句话:
“最让你难受的不是远方的高山,而是你鞋里的沙子。”
AI Coding带来的架构腐蚀、认知负担、依赖冲突,就是那一粒粒沙子。
这4个月,我有50%的时间不是在写代码,而是在当裁判——评审AI的逻辑,指正它的错误,规划它的路径。
所以,你问我AI Coding行不行?
行,太行了。这个商业项目100%的代码都是AI写的。
但人还重要吗?
比以前更重要。因为你的决策力、审美和系统架构能力,才是AI时代最值钱的硬通货。AI是极其强大的手脚,但你必须是那个清醒的大脑。
02
AtomStorm 到底是个啥?
铺垫了这么多,如果你还没关掉文章,说明你是真爱。
' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
简单说,AtomStorm (studio.atomstorm.ai) 是一个让你不需要任何专业提示词,跟着“直觉”就能做出设计大师级结果的智能体。
它能做什么?
' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
PPT、架构图、海报、简历、落地页……统统拿下。
既然市面上生成PPT的工具多了去了,为啥还要造这个轮子?
因为我受够了那些“伪智能体”。
要么是简单套壳的ChatGPT。
要么死贵(生成个一个PPT要20块钱?抢钱呢?)。
要么就是让你填一堆表格,生出来的东西像上世纪90年代的遗物。
AtomStorm 有两个核心模式,我觉得特别有意思,也是我最想给你们看的:
🍌 Banana Mode(香蕉模式):傻瓜式快乐
不需要你会写Prompt。
输入个链接,或者传个文档,Vibe一下就行。
比NotebookLM、Manus强的是,我们是每一页一生成就可以实时预览。你不需要干等半小时,第一页Slide生成出来的时候,你就可以开始看、编辑、停止。这种爽感没法形容。
👨💻 Code Mode(极客模式):真正的上帝视角
' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
这是我最自豪的功能,也是区分我们和“玩具”的分水岭。
生成的每一页Slide,不仅仅是图片,而是可编辑的代码。我们采用了Coding领域的网页编辑技术,你可以像改代码一样改设计,但操作像PPT一样简单。
' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
- • 改文字?点一下。
- • 换布局?拖一下。
- • 插入视频/图片?直接扔进去。
- • 保存直接为新版本
所见即所得,像素级可控。
' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
03
为什么要死磕 Skills 和 Multi-Agent?
这一段可能有点硬核(Boring),但却是这款产品值钱的底层逻辑。
如果你是技术控,或者被Agent坑过,一定要看。
现在的Agent市场,90%都是在大模型外面套个壳。但 AtomStorm 率先用了 Anthropic最新的Claude Skills技术 和 Multi-Agents 技术。
1. 无限上下文的“技能包” (Infinity Context Skills)
' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
传统的AI聊多了就忘事,或者变笨。
但基于Steps的渐进式披露设计,我们可以让Agent加载几乎无限的技能。每一个技能都配置了专属的MCP工具。
如“ppt_creation_code”、“ppt_creation_banana”,配置了convert_to_makrdown、search、artifact_writer工具来完成任务。
' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
(直接Slide展示原理)
这意味着我们给AI装上了“USB接口”——即插即用。
我敢断言,这绝对是2026年Agent开发最大的技术趋势,谁先用谁赢。
我们架构支持skill扩展,为未来支持各种形式的Agent内容生成提供了广阔想象空间。
2. 多智能体协作 (Multi-Agents + Plan-Execute)
很多AI生成的PPT为什么前后逻辑混乱?因为它是一个“全才”在干活,脑子不够用。
演示案例是根据上传的pdf论文写PPT。 主智能体编排:内容整理->大纲生成->PPT制作三个智能体,其中大纲截断支持HITL(Human in the loop),编辑大纲后,需要你手动确认才开始制作PPT。' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
AtomStorm 采用的是优化版的Plan-Execute框架。
- • 主智能体(大脑): 负责编排多个子智能体,协调工作。
- • 子智能体(手脚): 上下文隔离,不仅各司其职,还能并行执行工具调用。
这带来的效果是惊人的:
以前生成15页PPT,可能要一杯咖啡的时间(25分钟)。
' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
现在?5分钟搞定。
因为我们支持多路并行。当你在看第1页的时候,第2、3、4、5页正在后台同时生成。这才是真正的生产力。
网络不好?
断网刷新?
临时关电脑开会?
无需担心,支持多智能体支持自主恢复执行,保存历史执行状态,而不仅仅是存储状态。
背后的支撑是多智能体的上下文传递、暂停恢复状态管理,中间还涉及websoket通信。
多智能体,耗费了至少1个月的调试和问题修正。
如非必要,不建议一上来就构建多智能体,坑太多。
3. Skill扩展场景实测:一张架构图救了我的命
图都在脑子里,但画出来太费劲。
以前做技术汇报,ProcessOn/Excalidraw 拖拉拽半小时,画得还歪歪扭扭。
现在,如果你有文字草稿,直接扔给AtomStorm。
Boom!
一张专业级的架构图直接生成。你只需要微调一下颜色,导出。30分钟的工作被压缩到了3分钟。
' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
04
最后的碎碎念:设计是隐形的
做这个产品时,我一直在反复琢磨一句话:
"Good design is invisible." (好的设计是隐形的)
最好的AI,不应该让你觉得你在和一个机器人费劲地对话。它应该像从水管里流出来的水一样自然。用户不应该感受到“我在编写Prompt”,而应该感受到“我想到了,它就出现了”。
' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
所以,我们在Prompt里写下了这样一段“设计灵魂”:
"克制是最高级的表达,少即是多。细节是魔鬼,也是天使。打破规则之前,必须精通规则。"
这就是我们的 Vibe Design。
当然,我得泼盆冷水(再次):它现在还不完美。
现在的联网深度搜索还不如Perplexity,支付功能在这个月底才上线,文档多模态解析也还需要优化成本。
但相比于那些融资千万却还在画饼的团队,我选择了把产品先端上来。因为我相信:"Done is better than perfect."
Sam Altman 说,2026年会出现单人创造10亿美金公司的神话。
我不指望成为那个神话,但我希望能成为那个最早把最先进的铲子递给你们的人。
如果你厌倦了千篇一律的AI工具,如果你也想体验一下Agent Native的交互,欢迎来试用,来吐槽。
🌈 如何上车?
AtomStorm Beta 正在进行限量内测,地址studio.atomstorm.ai。
计划月底海外上线,国内内测阶段可访问。
为了保证服务器不被挤爆,目前采用邀请制。
长按下方二维码进群,我们聊聊真的技术,不扯淡。如果你是技术大牛或者设计师,更是欢迎。
(vibe一张海报,插入二维码截个图)
【AtomStorm 产品体验群】 | 【AI Coding 硬核交流群】 | 【AI Agent 技术前沿群】
' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
One More Thing:
如果你对技术感兴趣,后续我也计划把项目的HTML Slide生成部分开源,AI Coding的脚手架也在规划中。毕竟,我们是AntV和Diagram等开源项目的受益者,也该回馈社区。
我是栗子KK。山远路险,鞋里有沙,但我们路上见。
PS:有认识Google Cloud的朋友吗?求捞一下,这Token烧得我肉疼,想看看有没有Credits或者商务合作的机会(备注来意)。