这两天爆火的 flipbook 是啥玩意?

An infinite visual browser generated entirely on demand in real time. —— flipbook.page

你打开 flipbook.page,地址栏里输一句”巴黎旅游攻略”。

如果是 Google,你拿到十个蓝色链接,每个点进去都是”xxx十大必去”,”xx攻略 2026 更新版”,排版拥挤、广告满天飞,没有一个是为你画的。

Flipbook 给你的是上面这张图:埃菲尔铁塔、卢浮宫、塞纳河、凯旋门,在一帧画面里画好。整张图是模型当场画出来的整页可视化信息图。

image-20260428062426464
而且还是中文友好的。

这里的每一个元素,它都能给你绘制出来不一样的东西,比如我想看一下卢浮宫。

image-20260428062620670
这看起来就极其和谐,应该参观哪些会告诉你,而且每个不同名像的位置也会告诉你,如果你想看哪个位置,你直接点击就行了,flipbook 会给你直接生成一个新的场景。

比如我想看一下断臂的维纳斯。

image-20260428063034704
我上传了一张美国往事中的截图,看看它能分析出来啥。

image-20260427192102273
我点击了一下后面桥的背景信息,然后它竟然能识别出来 曼哈顿大桥的基础信息。

image-20260427194306548
然后我再点了一下屏幕中间,它竟然能放大并且分析出来电缆信息。。。。。。

image-20260427194609777
回到上传的首页,这次我点击了点击了一下左侧的设施。

image-20260427194930501
它帮我分析出来了,这是 20 实际 20 年代的工业仓库,位于 DUMBO 。。。。。。

image-20260427195333695
再看看左侧仓库中的构造。

然后惊奇的发现,这竟然是盖尔公司的革新纸箱。

image-20260427202045627
image-20260427202951544
这让我有个神奇的想法。

我用 GPT-image-2 生成一张图,让后上传让 flipbook 进行分析。

说干就干。

我让 GPT-image-2 生成了一张青岛街景的海景图。

image-20260427204111465
等等,我没有和他说这是 qingdao ,它自己就能识别出来这是青岛???而且还画出来了青岛的街景图。

image-20260427205213836
然后我只是点击了左侧一个很小的建筑,它竟然能识别出来而且还给我来了个全景。。。。。。

image-20260427205515718
不行我有点不信邪,这次我来个国漫之光 — 《凡人修仙传》里面的图,看看它能识别出来啥样。

image-20260427210236484
image-20260427214741488
这个它给我识别出来的是一个炼金术士的亭子。

image-20260428063425998
我又选择了一下上面矗立云端的阁楼。

image-20260427215108467
它给我识别出来的是玉峰宗:内殿,真是有模有样的。

image-20260427215202179
甚至它觉得生成的效果不好,给你重新生成了一个更高质量的效果。

image-20260427220346269
体验过了之后,发现这玩意就相当于是把图像中的像素看作是点位,每个像素都是一个会画画的 AI 一样。

整张图没有 HTML,没有 div 树,没有任何前端代码。屏幕上每一个像素都是 AI 在那一秒钟现场吐出来的。

它为什么 4 天涨 5.5M 浏览
2026 年 4 月 22 日,Zain Shah(前 OpenAI、YC、Opendoor,现在 South Park Commons)和合作者 Eddie Jiao、Drew O’Carr 发了 14.4 秒的 demo 视频。配文一句话:

Imagine every pixel on your screen, streamed live directly from a model. No HTML, no layout engine, no code.

四天 5.5M 浏览、2.5 万赞。

火得有点过分。但理由其实只有一个——它把过去一年所有”AI 生成 UI”的产品方向全掀了。

v0、bolt、Lovable、Cursor inline preview、Claude artifacts,都在卷一件事:让模型写出更好的 HTML/JSX。卷 Tailwind 用得好不好,卷组件分得对不对,卷生成的代码能不能直接 build。

Flipbook 跳出来直接说:HTML 这一层根本不需要。

这种立场在 AI 行业很少见。多数产品都在沿着既有路径往前推,少数产品愿意把整条路径换掉。

Flipbook 属于第二种,所以哪怕只是个 demo,也值得 5.5M 次驻足。

在上面亲身体验过后,我发现有三层痛点:

第一层是用户的痛点:搜索引擎给你的永远是别人为”假想读者”写的页面。你查”印象派的崛起”,拿到的是维基百科长文、知乎答主排比段、SEO 内容农场。没有一篇是为你这个具体的人在这个具体时间点画的视觉化版本。Flipbook 解决的就是这个——按需为你画一页。

第二层是产品自己的痛点:模型每画一帧都在烧 GPU。1080p 一帧大约 180 万像素,每点一次”expand”都要重画一整张。开放第一天用户排队 2 小时,得靠 Modal 出来赞助 GPU 才撑下去。可访问性是另一道墙——屏幕阅读器读不了像素,盲人用户被挡在门外;Google 索引不到,SEO 这条路堵死;Ctrl+F 搜不到文字,按钮没法 inspect,模型偶尔把日期画错只能重生成一帧赌它这次对。

第三层是赛道的痛点:AI 生成 UI 这条路,总成本没人算清楚。比传统前端贵 N 倍,能换来 N 倍的用户价值吗?今天没人有答案。Flipbook 选择把赌注押到极端——既然要做就做最远的那一种,证不证得出来由市场说。

三层痛点叠在一起,决定了真正要回答的问题是它在哪类场景能跑通——能不能成功反倒是次要的。

Modal 的支持
Flipbook 没发技术博客,但 4 月 24 日 Zain 自己的扩容公告里信息量很大:

thank you all for bearing with us as we scale Flipbook! I know some of you had to wait literally 2 hours to get in yesterday 😭 huge huge thanks to @modal for stepping up to sponsor us 🙌

能从这段话里读出三件事。

模型推理压力极大,第一天就把队列堆到 2 小时;算力托管在 Modal,那是专门做 GPU serverless 的平台,按推理时长计费,适合弹性扩缩,也说明团队规模还小,没自建集群的条件;视频源分辨率 1716×1080,每帧像素量大约 180 万——这就是为什么会排队。

YouTube Shorts 里 Flipbook 自己把这件事说得最直接:

The AI doesn’t generate code. The AI IS the render。

模型不是生成代码的工具。模型本身就是渲染器。

我的判断
Flipbook 走的是 WebGL 当年走过的那条路。被骂”性能黑洞””可访问性灾难”,今天 Flipbook 收到的批评几乎是同一份模板。

WebGL 2011 年发布时被骂”性能黑洞””可访问性灾难”,今天 Flipbook 收到的批评几乎是同一份模板。

十五年过去,WebGL 没干掉 DOM。Figma、Google Maps、所有需要 3D 或高密度自定义视觉的产品都在用它,它成了前端的特化分支。

Flipbook 的位置应该差不多。视觉密度高、结构无法预设、人工排版不划算的场景——信息长图、个性化教育内容、品牌视觉营销、实时数据可视化——会逐步迁移到模型直渲。剩下的电商列表、表单、信息门户,HTML 仍然便宜得多,没必要换。

现在能做的事很简单——去 flipbook.page 排队进去玩一次,输入一个你真的想看的主题。比看任何二手测评都直观。

想象一下,如果这个网站内置在 AI 眼镜中,然后配上语音检索,实时通过语音检索现实世界的影像,那可就太酷了。

声明:来自cxuanAI,仅代表创作者观点。链接:https://eyangzhen.com/7823.html

cxuanAI的头像cxuanAI

相关推荐

添加微信
添加微信
Ai学习群
返回顶部