腾讯研究院AI速递 20250214_科技动态

创始人

2025-02-14 10:41:48

0次

3. 此次产品线调整旨在解决当前多模型并存导致的用户体验混乱问题。

二、腾讯元宝接入DeepSeek-R1满血版，联网调用微信生态内容

1. 腾讯元宝接入DeepSeek-R1满血版(R1-671B)，首次引入第三方大模型，支持联网搜索功能；

2. 元宝可访问微信公众号等腾讯生态内容及互联网权威信源，提升答案准确性；

3. 这是继腾讯云、ima后再次引入DeepSeek能力，展现出对优质第三方模型的开放态度。

三、 Karpathy新实验火了！「隐形字符」让一表情占53个token

1. Karpathy发现一个笑脸表情可占用53个token，背后涉及Unicode变体选择符能隐藏任意数据；

2. 利用变体选择符可实现信息隐藏和提示注入，DeepSeek-R1花费10分钟尝试解谜但失败；

3. 这种技术可用于数字水印，但也存在被滥用于绕过内容审核等风险。

四、谷歌全网扒1000亿图像文本对，数据规模Scaling潜力依旧

1. 谷歌发布WebLI-100B数据集，包含1000亿图像文本对，规模较此前纪录扩大10倍；

2. 研究证明千亿级数据能提升模型在多语言和多元文化维度的表现，但CLIP等过滤会影响多元性；

3. ViT核心作者翟晓华参与研究，已于2024年12月宣布加入OpenAI苏黎世实验室。

五、斯坦福等多机构联手发布，开源推理新秀OpenThinker-32B

1. UC伯克利等机构开源OpenThinker-32B模型，仅用OpenThoughts-114k数据集训练就达到DeepSeek-R1-32B水平；

2. 研究采用DeepSeek-R1验证标注的数据集进行训练，并开源了完整的模型权重和代码；

3. 在数学、代码和科学等多个基准测试中，性能超越李飞飞团队s1模型系列。

六、快手新作 CineMaste，3D版ControlNet实现可控视频生成

1. 快手联合大连理工等机构发布CineMaster，实现3D感知与精准可控的文本到视频生成；

2. 采用两阶段工作流程，用户可在3D空间调整边界框和摄像机位置，再基于条件信号生成视频；

3. 系统通过语义布局控制网络和摄像机适配器，准确区分并控制物体运动与摄像机运动。

七、维基百科版「抖音」？想法很好，产品略草，搭配 AI 潜力无穷

1. 开发者用AI在1.5小时内制作WikiTok应用，让用户能以刷抖音方式浏览维基百科词条；

2. 目前WikiTok完全随机推送、无算法推荐，用户需频繁下滑才能找到感兴趣内容；

3. 如引入AI翻译、视频生成等功能，结合算法推荐，或可让知识传播更吸引人。

前沿科技

八、 Meta洽谈收购AI芯片创企FuriosaAI，AI芯片密集巨震

1. Meta计划收购韩国FuriosaAI，而恩智浦将以3.07亿美元收购Kinara，AI芯片并购活跃；

2. Groq获沙特承诺15亿美元投资，Positron获2350万美元融资，均强调美国本土供应链；

3. 此前报告OpenAI计划今年完成首款AI训练芯片设计，将采用台积电3nm工艺，目标2026年量产。

报告观点

九、 Transformer作者：本想去谷歌捞一笔，却改变了 AI历史

1. 推理算力仍有巨大发展空间，与AI对话比读书便宜100倍，Gemini已实现跨数据中心异步训练；

2. 未来模型架构将更有机灵活，允许不同团队独立开发不同模块，以提升专业领域性能；

3. Transformer作者Shazeer透露本想去谷歌赚钱就跑，却意外参与改变了AI发展历史。

十、英伟达：R1不编程就能生成GPU内核，比熟练工程师好

1. 英伟达发现DeepSeek-R1可自动生成GPU注意力内核，无需编程且效果超过熟练工程师；

2. 工作流程结合R1模型和验证器，通过15分钟闭环迭代可生成优化内核，实现高正确率；

3. 测试显示该方法在KernelBench Level-1中100%正确，Level-2达96%正确率。