- 海口钢绞线_天津瑞通预应力钢绞线 > 产品中心 >
宜春预应力钢绞线价格 港科大广州、快手可灵发布立体视频转换单步理新方案
2025-12-26 19:01:31 167

常熟融媒体中心记者韦博:“这里是古里镇坞坵村。在这里,我们能看到风吹麦浪,也能闻到阵阵麦香。随着收割机在田间轰鸣作业,一幅金灿灿的夏收画卷正在徐徐展开。”
周末传来很多消息,都是坏消息,立方数科因为连续三年虚增收入过六亿元被强制退市,公司被罚款三千万元,但三万散户的投资都打了水漂,这公司原来叫太空板业,上市十多年如今市值只剩二十来亿,罚金连损失的一小部分都算不上,让人无奈的是处罚虽然有了,却没人提起赔偿的事,散户终只能自己承担亏损。
近年来,随着 VR 头戴设备、智能眼镜、3D 影院的发展,人们对于 3D 立体视频内容的需求不断增加。3D 电影带来的沉浸式体验着实令人着迷,但因其制作过程需要业的相机设备、复杂耗时的后处理,3D 内容的制作让普通玩望而却步:
2010 年,卡梅隆演为了实现经典著作《泰坦尼克号》的 3D 版本重制,制作团队投入了达 1800 万美元,动用了 300 名业工程师,耗时整整 60 周才完成 [1]。
如此昂的成本和复杂的人力投入,一直是 3D 内容生产的大阻碍。尽管近年来自动化的 “单目转双目”(Monocular-to-Stereo)技术有所发展,但果往往不尽如人意,转换的结果往往要么产生错误的视差,要么无法处理复杂的镜面场景,且速度慢:现有的研究工作转换一段 5 秒的视频,耗时 15 分钟到 70 分钟不等。
针对这一难题,快手可灵团队与香港科技大学(广州)陈颖聪教授团队(共同一作博士生沈贵宝、红鸟硕士生杜壹华、博士生葛汶杭)联合提出了一种全新的解决方案 ——StereoPilot。这是一种基于生成式先验的统一立体视频转换模型,能够在短的时间内(11 秒),将一段 5 秒的普通 2D 视频转换为质量的 3D 立体视频,在所有定量指标上均越了当前 SOTA 方法。
当解锁了 3D 视频的制作部分,接下来,你只需要购买一大约价格 10 元人民币的红蓝眼镜,即可跟随 StereoPliot 一起,开启沉浸式视觉体验:
论文的作者,对单目转双目视频,从以往的研究方法到数据格式,由表及里地进行了入分析:
传统困境:为何 "Depth-Warp-Inpaint" 走不通?
在 StereoPilot 之前的研究工作中,学术界和工业界主流的 2D 转 3D 方案通常采用 “度估计 - 重投影 - 补全”(Depth-Warp-Inpaint, DWI)的多阶段流水线 :先估计输入视角(如 left-view)每个像素的度,再依据度和视差(disparity)的反比关系计算出视差进而重投影到目标视角(right-view),后再对遮挡位置进行补全。虽然这种方法符合直觉,但在实际应用中却存在三大致命缺陷:
1. 误差累积(Error Propagation)
DWI 流程是串行的:先估计度图,再根据度图将像素 “重投影”(Warp)到另一只眼睛的视角,后修补空洞。这致了一个严重的问题:一步错,步步错。如果初始的度估计不准确,后续的重投影步骤会直接放大这种错误,致终生成的画面出现严重的几何畸变和伪影 。
2. 度歧义(Depth Ambiguity)宜春预应力钢绞线价格
搞不定的 “镜中花” 这是 DWI 方法面临的棘手的物理难题。在现实世界中,镜子或玻璃等反光表面存在一种特殊的现象:镜子表面的物理度与镜子里反射物体的成像度是不同的。 然而,传统的度估计算法在同一个像素点上只能预测一个度值。这致 DWI 方法无法正确处理反射场景 —— 它们往往会将物体反射的光学成像如同纹理一样错误地 “贴” 在镜子表面,致 3D 观感度违和。
基于以上的现象观察和论述,我们可以得到:在镜面反射、透明等一个位置具备多个光学度的场景下,单目度估计算法预测得出的单一度值,将无法通过简单的反比几何关系出视差从而进行正确的重投影(warp)操作,而作者提出的 StereoPilot 则很好处理了 “镜中花” 的场景,如下图所示:
3. 格式不一致(Format Inconsistency)与几何假设失
目前的 DWI 方法通常假设:度(Depth)与视差(Disparity)之间存在简单的反比关系。这种假设仅对平行摄像机(Parallel)配置有。然而,钢绞线 3D 电影影视工业中,为了获得更好的观影体验,通常使用的是汇聚摄像机(Converged/Toe-in)。 在汇聚模式下,上述简单的几何假设不再成立,强行使用 DWI 方法会致视差计算错误,和需要的 3D 训练数据无法达成一致。
拨开迷雾:Converged(汇聚式) vs. Parallel(平行式)
为了解决格式问题,我们须先理清 3D 视频数据的两种主要格式,StereoPlilot 的作者用下面的图例形象地展示了两种数据格式的区别:
平行格式(Parallel): 左右两个相机的光轴是完全平行的。这种格式常见于计算机视觉数据集,其视差与度成简单的反比关系 ,常常被用于计算精度的度值。
汇聚格式(Converged): 左右相机的光轴向内旋转,汇聚于一点(汇聚点)。这会产生一个 “零视差平面”—— 在这个平面之前的物体会有出屏果(正视差),而在其之后的物体则 “陷” 屏幕中(负视差),而处于零视差面的主体则没有视差,观众的眼睛提供了休息区。这是 3D 电影工业的标准格式。度与视差之间不再存在简单的反比关系。
下面两个例子形象展示了了两种 3D 数据格式的区别:
平行格式(Parallel)vs 汇聚格式(Converged)宜春预应力钢绞线价格
由于先前的研究工作往往从未对这两种格式进行区分,或者只在单一格式上进行训练,不可避免的带来了一些不合理的对比,如将汇聚式 3D 电影数据集上训练的模型在平行光轴的数据集上进行测试对比。
StereoPilot:统一、的端到端解决方案
为了攻克上述难题,快手可灵联合港科大(广州)团队提出了 StereoPilot。
UniStereo:个大规模统一 3D 立体视频数据集
团队构建了 UniStereo 数据集,数据处理打标流程如下图所示,这是业界个同时包含 Parallel 和 Converged 两种格式的大规模 3D 立体视频数据集。UniStereo 数据集包含了两个部分:
Stereo4D (Parallel): 包含了 Stereo4D 的数据中 58,000 个 5 秒的源自真实世界的平行视角视频片段 。
3DMovie (Converged): 从 142 部质量 3D 电影中精选并处理了 48,000 个 5 秒的汇聚视角视频片段。
作者将会公开 Parallel 格式的所有数据和 Converged 格式数据的处理流程。
统一的模型结构
StereoPilot 的模型结构如上图所示,主要包含下面三个核心部分:
手机号码:15222026333Diffusion as Feed-Forward 11 秒速转换:不同于传统的迭代式扩散模型(需要几十步采样,速度慢),StereoPilot 次在该任务中采用了的 "Diffusion as Feed-Forward" 架构。作者将时间步 固定为一个小值,利用预训练视频扩散模型(Video Diffusion Transformer)强大的生成先验,直接在单次前向传播中预测目标视图。 这使得 StereoPilot 处理一个 5 秒(81 帧)的视频仅需 11 秒,而同类方法(如 Mono2Stereo, SVG)往往需要十几分钟甚至一小时。
Domain Switcher 全能格式切换:为了让一个模型同时搞定两种 3D 格式并提模型的泛化能力,StereoPilot 引入了一个可学习的 Domain Switcher。这就好比给模型装了一个 “开关”,用户可以根据需要,自由控制生成 Parallel 还是 Converged 格式的 3D 视频,实现了真正的统一。
Cycle Consistency 保证几何一致:为了确保生成的左眼和右眼视频在几何上更好的对齐,团队还设计了循环一致损失(Cycle Consistency Loss),强制模型在从左图生成右图、再从右图左图的过程中保持信息不丢失,提升了目标视角与源视角的几何一致。
实验对比展示
定量指标对比
作者在 UniStereo 基准测试集中对近期的 SOTA 方法进行了的对比,如表格所示,StereoPilot 在 PSNR、SSIM、LPIPS 等所有核心指标上均显著优于 StereoDiffusion, StereoCrafter, SVG, Mono2Stereo 等现有 SOTA 方法,在理能上,对比其他方法动辄十几分钟到一个多小时的理时间,StereoPilot 的 11 秒的理速度实现了压倒的优势。
可视化对比
根据作者展示的可视化对比结果,相比其他的 SOTA 方法,StereoPilot 预测的结果具有更加准确的视差和更的视觉质量。此外,如前文中分析,StereoPilot 可以处理复杂的镜面场景(如下图中的后一列的样本),这是其他方法从原理上无法做到的事情。
消融分析
为了验证 StereoPilot 方法中的模块的有,作者提供了 Domain Switcher 和 Cycle Consistency 的消融分析实验。
先,如下展示的动态果所示,StereoPilot 可以在 Domain Switcher 的加持下,实现 parallel 和 converged 的两种 3D 格式的灵活转换。
除了实现灵活统一的 3D 视频转换外,作者进一步地进行定量和定实验,验证统一地训练方式对模型泛化能的影响,如下图表所示:
从图表展示的结果可以看出 Domain Switcher 和 Cycle Consistency 为模型在测试集上提供了更好的泛化能与一致。
结语
快手可灵团队和港科大广州联合提出的 StereoPilot,实现了快速质量的端到端 2D 视频转 3D 视频,打破了 2D 转 3D 依赖昂贵人工或低度重投影的桎梏,为 VR/AR 内容创作、老电影修复以及沉浸式视频体验提供了新的可能。此外,团队次阐明 parallel 和 converged 两种 3D 立体视频数据的格式,并次构建了大规模统一 3D 立体视频数据集,澄清了该领域的训练、测评标准。
[1] https://zh.wikipedia.org/wiki/% E6% B3% B0% E5
产品中心
热点资讯
-
1.宜春预应力钢绞线价格 美元避险失宠!美国经济数据与财报亮眼
- 1

- 宜春预应力钢绞线价格 美元避险失宠!美国经济数据与财报亮眼
- 2025-12-30
- 1
-
2.宜春预应力钢绞线价格 电脑出现runtime error错误
- 2

- 宜春预应力钢绞线价格 电脑出现runtime error错误
- 2026-01-12
- 2
-
3.沧预应力钢绞线厂 市政府强军扩武, 引发日本社会各界警惕与反
- 3

- 沧预应力钢绞线厂 市政府强军扩武, 引发日本社会各界警惕与反
- 2025-12-26
- 3
-
4.北京预应力钢绞线规格及参数 恒指期货夜盘收跌1.17
- 4

- 北京预应力钢绞线规格及参数 恒指期货夜盘收跌1.17
- 2026-02-12
- 4
-
5.宜春预应力钢绞线价格 自然地理
- 5

- 宜春预应力钢绞线价格 自然地理
- 2026-01-12
- 5
-
6.连云港预应力钢绞线价格 以忱被开除党籍!曾任国安部部长;毫政
- 6

- 连云港预应力钢绞线价格 以忱被开除党籍!曾任国安部部长;毫政
- 2026-01-20
- 6
-
7.嘉兴钢绞线规格 microsoft账户如何注册
- 7

- 嘉兴钢绞线规格 microsoft账户如何注册
- 2026-02-25
- 7
-
8.宜春预应力钢绞线价格 “浪琴香港国际赛事2025”举行,1.
- 8

- 宜春预应力钢绞线价格 “浪琴香港国际赛事2025”举行,1.
- 2025-12-31
- 8
-
9.宜春预应力钢绞线价格 配冰箱和阶智驾,秦L EV售价11.9
- 9

- 宜春预应力钢绞线价格 配冰箱和阶智驾,秦L EV售价11.9
- 2025-12-30
- 9
-
10.宜春预应力钢绞线价格 侯志伟加盟费多少?
- 10

- 宜春预应力钢绞线价格 侯志伟加盟费多少?
- 2026-01-13
- 10
推荐资讯
-
来宾预应力钢绞线厂 你有一笔“退款”今天截止确认!
2026-01-04
-
宜春预应力钢绞线价格 345期安仔快乐8预测奖号:周四奖号统
2025-12-29
-
宜春预应力钢绞线价格 2024中国汽车场地越野锦标赛总决赛将
2025-12-26
-
海口钢绞线_天津瑞通预应力钢绞线 塔图姆能否在本赛季复出?马
2025-12-31
-
宜春预应力钢绞线价格 侠记:浓眉团队积寻求提前续约承诺 行侠
2026-01-09