每周科技雷达 · 2025-12-W3
本周聚焦 GPT-5.2 评价分化、ChatGPT 应用目录上线、Zara AI 模特争议,并汇总苹果 SHARP、Meta SAM Audio 等快讯。
- OpenAI发布GPT-5.2:用户评价“没有灵魂的科学家”
- ChatGPT 上线应用目录:聊天直接“使用第三方应用”
- Zara引发时尚界热议:AI模特图是效率工具还是就业威胁?
- 苹果开源SHARP模型,一秒内AI让照片变3D
- Meta发布SAM Audio,多模态音频分离新突破
- AI 批改作业机进校园:作业“当日判当日讲”
- 迪士尼官宣 10 亿美元投资 OpenAI,允许 Sora 生成米老鼠等角色视频
焦点一 • OpenAI发布GPT-5.2:用户评价“没有灵魂的科学家"
GPT-5.2 的核心变化:
- 增强推理能力:为处理多步骤任务而设计,拥有更稳定的长上下文理解。在处理金融服务或生命科学领域的高难度问题时,它甚至可以进行长达一小时的“思考”
- 更低幻觉率:与 GPT-5.1 相比,其事实错误减少了 20-40%,平均幻觉率降至约 0.8%
- 多模态理解升级:能解析复杂的可视化数据,如技术图表、UI 截图和医学影像,其错误率仅为前代模型的一半左右
- 长文本窗口:支持高达 40.5万个token 的上下文(约30万字),在处理巨型文档和长期工作流时能够保持连贯性
但网上对GPT-5.2的评价呈现出两极分化的态势,其被描述为了“聪明但无趣”的机器
- “没有灵魂的科学家”:在专业领域展现出惊人的智能化程度,能够解决复杂的理论和开放性问题,但许多人也抱怨其失去了前代模型的“趣味性”和个性,变得相当死板和枯燥。
- 高度审查:在多项社区基准测试中被评为”审查最严格“的旗舰模型,即使在学术或虚构语境下,该模型也频繁拒绝讨论“敏感”的历史或文化话题。
- 编程之战:与其他主流模型对比,GPT-5.2通常被人味在暴力破解问题和逻辑推理方面更胜一筹,但是许多开发者仍然更倾向于使用Claude进行实际软件工作,声称它比GPT-5.2更能理解架构背景和“人性化”的代码风格。
焦点二 • ChatGPT 上线应用目录:聊天直接“使用第三方应用”
OpenAI 宣布正式向第三方开发者开放 ChatGPT 应用目录(App Directory)。开发者可以提交自己的应用程序,让用户直接在 ChatGPT 聊天过程中直接完成第三方应用内的操作。例如,用户可以让 ChatGPT 直接订购杂货、创建演示文稿、搜索房源,或与第三方服务进行更复杂的交互。
这一应用生态的推出,标志着 ChatGPT 正在向“AI平台”演进。即便使用不同的手机、电脑硬件,只要能够使用 ChatGPT 便能直接使用已支持的第三方应用,其服务整合、分发模式以及商业机会,或将成为 AI 行业竞争的新焦点。
在首批合作伙伴中,OpenAI 已引入包括 Spotify, Expedia, Zillow FI Canva 在内的多家知名公司。用户可以通过自然语言与这些服务交互,例如查找音乐、规划行程、浏览房源或制作设计内容,整个过程都在 ChatGPT 内完成。
对开发者而言,这意味着一个全新的应用分发渠道。通过 ChatGPT 的对话界面,第三方应用能够直接触达庞大的用户群,无需依赖传统的应用商店或独立网站。这或许会改变用户发现和使用数字服务的方式——从“下载App”转向“直接在与AI的对话中使用应用”。
焦点三 • Zara引发时尚界热议:Al模特图是效率工具还是就业威胁?
本周 Zara 正式宣布在其电商平台已大规模应用生成式人工智能(AI)来制作产品宣传照,并强调这是对创意流程的补充而非替代真人模特;这一做法在业界引发关于创意、就业与真实宣传的广泛讨论。
- 数字化“试衣”:Zara 利用 AI 技术将新设计的服装数字化地“穿”在真人模特已有的照片上。这意味着模特无需为了每一件新单品都反复回到摄影棚拍摄。
- 付费与授权机制:与一些引发争议的品牌不同,Zara 在使用模特肖像进行 AI合成前会征得模特同意。据报道,模特即使没有实地参与拍摄,仍能获得与传统拍摄相当的报酬。
- 提升效率与响应速度:这种方式极大缩短了从设计到上架的周期,使品牌能更快地展示新品,适应瞬息万变的市场趋势。
- 行业争议:尽管提高了效率,但伦敦摄影师协会 (Association of Photographers)等组织对此表示担忧,认为这会显著减少摄影师、造型师和制作团队的工作机会。
- 行业趋势:Zara 并非个例,H&M和 Zalando 等品牌此前也推行过类似的“AI 模特”和数字化图像生成计划。
这一举措标志着2025年时尚产业在“追求极致效率”与“维护行业生态”之间的深度博弈。
Zara 试图通过支付同等报酬来平衡技术与人的关系,但这并未平息外界对其潜在负面影响的担忧。
争论的焦点在于,这种算法主导的模式虽然能让品牌在极速更迭的竞争中占据先机,却也让摄影师、造型师等幕后群体面临生存空间被挤压。
同时,公众对“AI图像是否等同于真实商品”的质疑,反映出社会在拥抱数字化便利时,对时尚本真性流失的普遍焦虑。这不仅是摄影方式的转变,更是对未来时尚产业链价值分配的一次根本性挑战。
快讯一 • 苹果开源SHARP模型,一秒内Al让照片变3D
苹果推出了名为 SHARP的开源 AI 模型。该模型采用3D高斯泼溅技术,将单张 2D 照片在不到一秒内转化为可交互的3D场景。
- 极速生成:仅需一张普通照片,即可在标准GPU 上一秒内生成3D模型。相比Diffusion模型生成速度快了三个数量级(约1000倍)
- 画质突破:相比此前业内最强模型,其感知图像相似度指标大幅提升,这意味着细节更加清晰且结构更接近真实世界。
- 高精度现实尺寸:生成的3D 模型具有绝对尺度(Metric Scale),支持模拟真实的相机移动。此外,该模型表现出极强的泛化能力,能处理从未在训练集中出现过的新场景。
该模型现已在 GitHub 和 Hugging Face 开源。
快讯二 • Meta发布SAMAudio,多模态音频分离新突破
Meta 本周正式发布SAM Audio,支持从复杂环境音中精准提取特定声音(如人声、乐器、动物叫声等)。
- 多模态交互:SAM Audio 支持三种直观的交互方式
- 文本提示:输入“吉他声”或“狗叫声”即可自动提取或过滤目标声音。
- 视觉引导:在视频中点击某个物体(如吉他手),模型即可通过视觉定位分离出对应的音频。
- 时间选择:在时间轴上直接勾选某段干扰音进行精准移除。
除了赋能视频编辑、播客制作和电影工业外,Meta 还与助听器制造商 Starkey 合作,探索其在无障碍技术中的潜力,例如为听障人士实时分离并增强背景中的特定人声。
该模型现已在 GitHub 和 Hugging Face 开源。
快讯三 • AI批改作业机进校园:作业“当日判当讲”
多地中小学启动“AI批改作业机”试点,旨在通过技术手段实现作业“当日判、当日讲”
- 减负提效:系统可在几分钟内完成全班作业扫描与批改,自动汇总高频错题并生成学情分析报告,大幅缩短反馈周期,并利用AI为每位学生定制“数字化错题本”。
- 准确性与公平性:尽管OCR文字识别技术成熟,但在处理复杂手写体和主观论述题时仍存误差,引发对其评分公正性的讨论。
- 教育依赖性:专家担忧过度依赖AI会削弱师生间的情感互动,并可能导致学生学习过程趋向机械化。
目前,教育部门强调AI应作为“教学助教”而非替代者,必须坚持“人工审核”以确保教育的温度与客观性。
快讯四 • 迪士尼官宣10亿美元投资 OpenAl,允许Sora 生成米老鼠等角色视频
迪士尼(Disney)正式宣布向 OpenAI 投资10亿美元,并达成了一项为期三年的授权协议,允许Sora 视频生成工具的用户使用200多个迪士尼、漫威(Marvel、皮克斯(Pixar)和星球大战(Star Wars)的角色创作视频。
生成的视频通常为短格式社交视频,预计于 2026年初正式向 Sora 和 ChatGPT 用户开放。
迪士尼首席执行官罗伯特•艾格(Bob Iger)表示,此次合作旨在将“标志性的故事和角色”与最先进的 AI技术结合,让粉丝能以从未有过的方式参与创作。此次协议也标志着好莱坞内容巨头在经历 AI 版权争议后,开始转向与 AI 头部公司进行合规化的商业合作。
在宣布与 OpenAI 合作的同时,迪士尼还向谷歌(Google)发出了停止侵权函,指责其在未经许可的情况下使用迪士尼内容训练AI模型