Sometimes you gotta run before you can walk.
“有时候,你得在学会走之前先跑起来”。

如果让我用一句话,来总结豆包手机这几天的体验,
我想到的,就是上面钢铁侠1电影中这句台词。

很荣幸有机会作为知乎「答主评审团」中的豆包 AI 手机测评参与者。
这台豆包 AI 手机由官方出资,不涉及商业利益,无营销黑话。今天由我这位略懂一点数码的博主,分享这几天最真实的测评体验与感想。
1 初体验:从陌生到冬天的第一杯咖啡
当时钢铁侠第一台原型机造出来之后,智能助手 Jarvis 告知还需要做很多运算,全部准备好之后才能开始实际飞行,Tony Stark 则是直接打断了它,说出了这句充满冒险精神的话。
Sometimes you gotta run before you can walk.
豆包 AI 手机没有等到通用型泛用人工智能完全准备好,也没有等到手机终端系统对于 AI 智能化操控的接入完全准备好,AI 还没有学会走,但是豆包AI手机已经先跑起来了。
最开始,我拿到手机开机激活之后,马上就给豆包打开操作手机相关权限,开启深度思考,然后准备实验一下它的 AI 操控手机的能力。

当时我有点小激动,直接只给了一句话,帮我点一杯咖啡。
但是,手里的这台豆包 AI 手机,它并不认识我。
所以上来就失败了,于是我赶紧喊,豆包豆包,帮我安装微信,京东,美团,淘宝闪购。

我打算接下来几天,直接把豆包 AI 手机当做日常用机,所以相册啊,微信聊天记录啊,都给迁移了过去,并且把原来的手机,扔进了抽屉里。
一切就绪,登录好微信,让手机可以有微信支付的能力。
再登录好各个APP的账号,待会再来,豆包启动!

作为足够聪明的智能体,我发现豆包它是有记忆功能的。
你可以告诉它很多关于你自己的喜好让它记住,这样它操控手机的时候就可以更贴心地按照你的偏好来执行指令。

1 分 42 秒。
第一次成功让豆包帮我点咖啡,它用了 1 分 42 秒。尽管前面折腾了好几回,好在最后,点到了一杯我喜欢喝的瑞幸生椰拿铁,放在购物车里,等我点击确认支付。
它大概用了 9 秒就理解完了自然语言的指令,然后开始开启一个后台的线程去操作APP,它需要动态地根据打开 APP 之后识别到的内容,再决定下一步做什么。
对,你没看错,它是在后台隐藏着去操控APP的。
豆包 AI 手机的 AI 操控手机的行为,是在后台另一个线程去做的,也就是说它不会影响你当前手机的操作,甚至你带个蓝牙耳机,都不需要亮起手机去看它,除非有需要人工接管的操作。

当需要额外确认的时候,会弹出对话框要求人工点选按钮/补充信息/人工接管操作。刚开始我还在担心,会不会和我以前某次着急的时候一样,不小心点到自提去了,结果发现完全是多虑了。
明显感觉到,这个必须要人类点按滑动屏幕,才能操控的手机系统,束手束脚,完全限制了它的发挥。
豆包可以自己来回切换比价,能自动关闭广告弹窗和更新提示,能自己根据理解去搜索框里输入信息,还能添加购物车检查起送运费。

不过,有可能遇到一些情况的时候,中途它会停顿,询问要求追加信息,或者是请求人工接管。但认真想想,一些场景也确实要接管,比如说你都没有配送地址,它要添加地址,那必须要人工确认拿GPS权限和具体配送联系方式。
不会就要讲,不懂就要问,不要硬编硬装懂,我是真心建议把这条规则写死加入未来 AI 机器人法则里。
点完咖啡,当然要尝试一下点外卖了。
于是我跟豆包讲我想吃面条,给了一个稍微模糊且复杂的指令。
“豆包豆包,我现在想吃面条,帮我在外卖软件上面找一下,有什么推荐的,给我做两个不同的方案。”

我睁着眼盯着它开始深度思考,理解指令开始拆解任务,后台尝试开始打开美团,12秒之后弹出一个对话框,告诉我美团不能用,问我切换到京东行不行。
嗐,看来豆包被一些 APP 禁用,这日子过得不容易,同意切到京东之后,一如既往确认一下地址,然后就继续忙活了。

总共用了 2 分 03 秒,它去查完外卖软件之后,告诉了我附近两家能吃面条的外卖的方案。
当然,现阶段看起来,应该就只是根据搜索结果,直接取了排在最上面的店铺和菜品。
如果你提出更多要求,比如说,我不吃牛肉的,它就会帮你自动跳过牛肉面。

2 惊叹:手机的 "真·智能" 助手时代来了吗
它去操控手机的交互,看起来,似乎有一点点慢,像极了一个刚入职的助理,一边操作一边学习公司的系统。
但是我看着它点来点去,反而有种诡异的信任感。
因为它真的在尝试用“深度思考”的模式,去理解当下手机界面发生的事情,而不是定制逻辑执行脚本,不是作弊,不是预制,是新鲜现做现操作,随时要点掉各种APP广告的。
这意味着,它是通用泛用型智能助手。
某次 APP 更新换了全新 UI 布局?没关系,还是能操作。
不同的 APP 点咖啡步骤和菜单都不一样?没关系,还是能操作。
AI 的 UI Agent 其实去年就已经有了,2024年某手机发布会相关演示,就有用某系统的 AI 助手,检查手机有哪些会员在默认自动续费,也现场展示了一句话点 2000 杯瑞幸咖啡。

其他厂商估计这会已经在尝试更深入到系统级的 AI 研发了,好的交互模式,模仿起来那都是心有灵犀的。
字节也没有藏着掖着,UI-TARS 模型的开源版本 2025 年早就已经放出来了,豆包 AI 手机的能力表现,估计和字节对这个模型的研发技术有密切的关系。

它的操作并不算快,但你隐约会知道,这东西以后应该会越变越好,越来越强,直到某个时刻重新改变这个世界。
当我双手用电脑写这段稿子的时候,想起下个月可能要去北京,于是喊豆包帮我选一下衣服,我就继续打字去了,过了一段时间之后,三件羽绒服已经被添加到京东购物车了。

一边写稿子,一边喊豆包去我微博看看今天发生什么事,它刷了5分钟之后自己退回来,给我念了一份文字版的总结。

现在 LLM 大模型的技术发展,让 AI 真是步入平常百姓家。
这个豆包 AI 的背后是大模型,那么自然也可以通过提示词魔法来做一些更强更猛的事情。
我成功让豆包 AI 学了一些 DNF 手游的基本操作,摆脱了横屏不能用 AI 的限制,以及游戏不能用 AI 的约束,让它能自动在城镇走路过剧情,以及在房间里进行战斗。

当然,这个战斗水平很一般,AI 有时候也会误判认为任务结束了中途退出。想要变优秀还得继续加提示词魔法,这里就不再继续展开了。
在实际的使用中,打开摄像头还可以给豆包接入“眼睛”,显然豆包的多模态能力也不错,很多生活中的东西它都可以识别到,并且有自然语言进行交互对话,非常很看好未来 AI 技术对于视障碍人士的帮助。
给 AI 大模型装上眼睛就是不一样啊 - 维生素P的视频 - 知乎
https://www.zhihu.com/zvideo/1988667432714401502

在豆包AI的设置中,除了 “深度思考” 的开关之外,也可以设置选择本地模型或者是云端模型,介意数据联网的话,就可以选择运行参数更小一些的本地模型。
豆包操作手机也有两个不同的模式。
标准模式主打速度快,只使用个人偏好和信息。
仍在测试版的 Pro 模式这主打能力强,会使用全部本地数据,并且会深度推理,多轮搜索,以及直接调用工具。

实测下来,Pro 模式的操作能力会好很多,它的深度推理会模拟一个思考过程,而且能够直接跳 APP,应该是集成了系统级的 API 或者事件,UI 识别猜测应该是基于渲染层做的,即使是没有文字的按钮,也能比较准确的读出操作含义。
当然,这个过程会出现等待页面加载,回退步骤,多轮对比,思考,再继续执行的诸多步骤,整个过程会慢一些,前面提到的所有 AI 操作都是 Pro 模式下的表现。
标准模式就是快,但是手机操作行为表现很一般,猜测应该是基于当前界面截图的图形识别来做的。

这也暴露出了一个现实:数据和权限,对于 AI 智能体的表现至关重要。
3 挑战:商业八角笼的数据、权限、信任与生态
只有足够的数据喂进去,它才能在模糊的自然语言中添加足够的上下文背景和隐藏的预设条件,它才能知道你想要什么,才能更“聪明”地执行你的命令。
只有足够的操作权限,才能让这整个过程变得丝滑流畅,而不是总是陷入需要中断,然后唤起人类来人工接管操作。如果一个流程需要频繁的人工介入,那还要这个 AI 来帮什么忙呢?有这功夫自己手动就搞完了。

想要完全保护隐私安全使用本地模型和本地运行的话,现有技术又还没有完全成熟,智能体对算力和模型能力的要求并不低,这对于手机硬件的 SoC 要求,能效控制,操作系统调度都是挑战。
让系统级的 AI 现在跟人一样操作 APP 和网页是超级低效的,这就好比造了一个人形机器人然后塞进燃油车平台,用这个机器人去操控双手和双脚,和人一样用方向盘,油门,刹车来实现所谓的自动驾驶。

AI 智能体的软硬件基座和基础建设还没完全准备好,但是未来会出现重新定义的设备和和终端,一如当年乔布斯的那场发布会:
- 一个触摸控制的宽屏 iPod
- 一个革命性的移动电话
- 一个前沿先锋的互联网通讯工具

乔布斯不断重复这三个说明,最后告诉大家,这不是三个独立的设备,而是同一个设备。
全场沸腾,鸡皮疙瘩。
它是带有多点触控技术,用手指点击屏幕淘汰掉键盘,带有互联网通讯,全新桌面设计,全新 APP 生态,一台划时代重新定义 Phone 的产品 —— iPhone 。
AI Agent 的未来,正在等待 AI 通用型智能的发展,等待载体产品的横空出世,等待一个令人鸡皮疙瘩的时刻。
豆包用 AI 做自动化操控,以前是出现在测试平台,或者是一些不正经工作室的产业。豆包也不是第一个搞手机 AI 的,VIVO X100 系列就展现出了蓝心大模型的强劲实力,但豆包 AI 手机,它是搞得最大胆的,也是直接动了很多人的蛋糕。

手机厂商们都清楚 OS Agent 会有未来,但没人敢交出全系统权限让 AI 去操作手机的激进答卷,而豆包这个 "手机外行",和中兴一起用一台豆包 AI 手机的工程预览版告诉所有人:传统手机再不留神,有可能就要落入新时代的 AI 手机斩杀线了。
华为有小艺,小米有超级小爱,荣耀有 YOYO,VIVO 有蓝心小V,OPPO 有小布,Apple 有还在和各个不同供应商正在调试正在烙煎的 Apple Intelligence 大饼。微信有自己的生态圈,有公众号有小程序,阿里有围绕支付宝和淘宝的生态圈,豆包 AI 助手在这春秋五霸的时代,注定意味着商业和市场的竞争厮杀。

(Gif 图片转载自:https://36kr.com/p/3576900266261385)
一方面是隐私与安全,另一方面更重要的是豆包 AI 代替了互联网用户的注意力和选择入口。原来我们想吃外卖,必须点外卖软件,搜索,下单。这里要看广告,要留存个人信息,还有商家推流和检索排名竞价,点每日签到领任务刷 APP 日活数据等等等等。
但豆包说:我直接帮你比价、下单,路径我来定,入口我来选,那平台作为中介商的商业模式和利益。怕是守不住的。
流量入口,是互联网时代赚钱的命门。
AI 手机的发展并不会停止,一如当年微信做通信工具的发展,逐步改变了人们用运营商的移动通讯的习惯,现在人们打电话发短信发彩信的频次,已经降得非常低了。从前车马慢,数分钟删删改改,才能和女朋友填满来回70个汉字的短信,现在一个视频电话就能看见开心的笑脸。
时代的发展,就是命门更迭的历史车轮,滚滚向前,谁也没法阻挡。
这个豆包 AI 手机的表现对我来说并不算惊艳,有些开箱博主可能对于智能体接触比较少,会对这个聪明程度有很高的评价。但我每年花几百美元在各类 AI 产品上,好吃的点心吃多了,也就不那么惊喜了。如果你把 DeepMind SIMA 2,Gemini 3.0 Agent, Claude Opus 4.5 Agents,JARVIS-VLA 这些大模型的 Demo 看完一遍,你会发现现在的智能体,能做的事情真的挺多的,只是在成本,平台,安全,权限方面还有比较多的阻滞。

4 他人视角:惊叹叔叔与冷静女孩
这几天我也把豆包 AI 手机,拿给家里的中年长辈以及27岁的对象都玩了一下。
长辈倒是觉得很惊讶,感叹现在 AI 技术这么先进了,觉得非常强大非常厉害非常好用,特别是只需要动嘴讲话,甚至讲得很模糊,它都能了解到想要做什么操作。长辈本身对手机繁杂和多级菜单的操作就比较不喜欢,这下能动口不动手,深得人心。
不过他对于 AI 问了些赚钱和权限隐私的问题。在他看来,免费用 APP 就是因为用户要看广告,APP 要拿用户数据赚钱,那搞这个 AI 是要收费还是免费?是一次性买断?这个豆包 AI 把我整个手机,所有隐私信息数据都用来做 AI 操作了,那万一有黑客黑进豆包,会不会就把千千万万用豆包 AI 手机的人数据都偷走了?
当然,我也详细介绍了豆包 AI 手机对于关键执行的人工接管要求,也介绍了数据加密的一些基本防护技术策略,但千言万语不敌两个字:信任。

这也是为什么很多人在等待苹果的 Apple intelligent,因为很多人对于一些操作系统和一些 AI 平台不信任,而 Apple 苹果的重要核心卖点价值观就是隐私,多数人更愿意抱有这样的一种信任期望,苹果会保护他们的隐私和安全。
我对象倒是和我一样,第一反应想到了钢铁侠的 Jarvis,但是她觉得这个手机的操作反应比较慢,还有就是可能很少总是有对着手机讲话的场景。
虽然这个界面也可以打字,但是打字也挺麻烦的,用语音去操作的手机的场景其实也不是特别多,一般来说也就是自己在家可能会用语音,还有就是路上可能拿着东西,两个手空不出来,然后就用蓝牙耳机操控,一般是在自己房间,或者是在户外运动,或者家里。
豆包 AI 手机,落点是 AI,落点也是手机。

坐地铁出行路上,一眼看去几乎所有人都在低头用着自己的手机。那大家买手机,是为了什么?有些人是为了拍照,有些人是为了个性,有些人是为了性能,有些人是为了隐私,有些人是为了多设备交互的生态。
但是会有些人为了 AI,决定买某台手机吗?
AI 会成为一个手机的绝对卖点吗?
它是锦上添花,还是中流砥柱,还是雪中送炭?
5 先行者的意义
说实话,现阶段的大模型 AI 并不像移动互联网技术和生态那样成熟,能力存在边界,操控能力有限,依旧没有完全克服LLM大语言模型AI幻觉,提示词魔法依旧有法力。
生不逢时,就像是在诺基亚的年代构想出了电视内容可以放进手机里看,手机的内容可以投屏到电视上的多屏互联功能。
就像在用电话线拨号上网的时代,构想出多人实时编辑的飞书文档,这些功能听起来都可以实现,但是当时的技术,并没有达到能有很好体验的程度。

当代 APP 软件的底座是足够高速的互联网和操作系统,AI 时代,全新的智能体终端,新的交互场景,新的生产力模式,又会需要什么样的基石呢?
所以说,豆包 AI 手机,真的是一个很有魄力的大胆冒险产品。
当年诺基亚和黑莓,其实并不是没有看到互联网智能手机的雏形,只是大船难调头,同时也难以舍弃现有的利益和已有的优势。
现在的字节跳动公司,从软件 APP 发家,搭上移动互联网的东风,用算法和 AI 的硬实力,和中兴努比亚做出豆包 AI 手机的预览版工程样机,正是从 GUI 图形交互页面,转向 LUI 自然语言交互的一个转向点。

当年乔布斯用 iPhone 重新定义移动互联网终端,腾讯的 QICQ 重新定义实时通讯软件,彼时彼刻,恰如此时此刻,灯火阑珊,手机厂商蓦然回首,而豆包,却隐藏在灯影里。
豆包被一些软件封杀,许多人替豆包鸣不平,而感慨前路不明,来者不善,而其实,豆包 AI,才是来者。

如果豆包成功进一步引领了 AI 时代的手机,三年后五年后,我们用手机的方式还会和今天一样吗?
新能源汽车做智能辅助驾驶的平台,那和燃油车人工驾驶操控的平台是截然不同的,真正 AI 原生操控的手机,又应该长什么样?如果不需要手指头点按,还会需要 APP 图标和触摸屏吗?
我不知道,我也没有答案,因为这个时代的手机,其实还并没有准备好。
等到什么都准备好,万事俱备,固然是一种稳妥,但很多时候不可能等到准备好才开始行动。
先跑起来,当别人还在准备到一半的时候,或许跑起来的人已经不断失败摔了三四次之后,找到某种能跑的姿势了。
手机的发展,AI 的发展,AI 终端智能体的发展,亦如是也。

“有时候,你得在学会走之前先跑起来”
Sometimes you gotta run before you can walk.
