3. 此次产品线调整旨在解决当前多模型并存导致的用户体验混乱问题。
二、 腾讯元宝接入DeepSeek-R1满血版,联网调用微信生态内容
1. 腾讯元宝接入DeepSeek-R1满血版(R1-671B),首次引入第三方大模型,支持联网搜索功能;
2. 元宝可访问微信公众号等腾讯生态内容及互联网权威信源,提升答案准确性;
3. 这是继腾讯云、ima后再次引入DeepSeek能力,展现出对优质第三方模型的开放态度。
三、 Karpathy新实验火了!「隐形字符」让一表情占53个token
1. Karpathy发现一个笑脸表情可占用53个token,背后涉及Unicode变体选择符能隐藏任意数据;
2. 利用变体选择符可实现信息隐藏和提示注入,DeepSeek-R1花费10分钟尝试解谜但失败;
3. 这种技术可用于数字水印,但也存在被滥用于绕过内容审核等风险。
四、 谷歌全网扒1000亿图像文本对,数据规模Scaling潜力依旧
1. 谷歌发布WebLI-100B数据集,包含1000亿图像文本对,规模较此前纪录扩大10倍;
2. 研究证明千亿级数据能提升模型在多语言和多元文化维度的表现,但CLIP等过滤会影响多元性;
3. ViT核心作者翟晓华参与研究,已于2024年12月宣布加入OpenAI苏黎世实验室。
五、 斯坦福等多机构联手发布,开源推理新秀OpenThinker-32B
1. UC伯克利等机构开源OpenThinker-32B模型,仅用OpenThoughts-114k数据集训练就达到DeepSeek-R1-32B水平;
2. 研究采用DeepSeek-R1验证标注的数据集进行训练,并开源了完整的模型权重和代码;
3. 在数学、代码和科学等多个基准测试中,性能超越李飞飞团队s1模型系列。
六、 快手新作 CineMaste,3D版ControlNet实现可控视频生成
1. 快手联合大连理工等机构发布CineMaster,实现3D感知与精准可控的文本到视频生成;
2. 采用两阶段工作流程,用户可在3D空间调整边界框和摄像机位置,再基于条件信号生成视频;
3. 系统通过语义布局控制网络和摄像机适配器,准确区分并控制物体运动与摄像机运动。
七、 维基百科版「抖音」?想法很好,产品略草,搭配 AI 潜力无穷
1. 开发者用AI在1.5小时内制作WikiTok应用,让用户能以刷抖音方式浏览维基百科词条;
2. 目前WikiTok完全随机推送、无算法推荐,用户需频繁下滑才能找到感兴趣内容;
3. 如引入AI翻译、视频生成等功能,结合算法推荐,或可让知识传播更吸引人。
前沿科技
八、 Meta洽谈收购AI芯片创企FuriosaAI,AI芯片密集巨震
1. Meta计划收购韩国FuriosaAI,而恩智浦将以3.07亿美元收购Kinara,AI芯片并购活跃;
2. Groq获沙特承诺15亿美元投资,Positron获2350万美元融资,均强调美国本土供应链;
3. 此前报告OpenAI计划今年完成首款AI训练芯片设计,将采用台积电3nm工艺,目标2026年量产。
报告观点
九、 Transformer作者:本想去谷歌捞一笔,却改变了 AI历史
1. 推理算力仍有巨大发展空间,与AI对话比读书便宜100倍,Gemini已实现跨数据中心异步训练;
2. 未来模型架构将更有机灵活,允许不同团队独立开发不同模块,以提升专业领域性能;
3. Transformer作者Shazeer透露本想去谷歌赚钱就跑,却意外参与改变了AI发展历史。
十、 英伟达:R1不编程就能生成GPU内核,比熟练工程师好
1. 英伟达发现DeepSeek-R1可自动生成GPU注意力内核,无需编程且效果超过熟练工程师;
2. 工作流程结合R1模型和验证器,通过15分钟闭环迭代可生成优化内核,实现高正确率;
3. 测试显示该方法在KernelBench Level-1中100%正确,Level-2达96%正确率。