雅虎日本母公司将164个OpenStack集群整合为一个_科技动态

雅虎日本母公司将164个OpenStack集群整合为一个

创始人

2026-04-09 00:41:55

0次

LY Corporation是一家日本互联网巨头，旗下业务涵盖即时通讯、电子商务和支付等领域，在亚洲多个国家占据重要地位。该公司近日披露，正计划将高度定制化的OpenStack云平台替换为更标准化的开源云架构，并在此过程中推进大规模的资源整合。

LY Corporation于2023年由雅虎日本与韩国即时通讯巨头LINE合并成立，目前正致力于将双方的基础设施整合至一个名为"Flava"的全新统一云平台，以支撑旗下各项服务的稳定运行。由于LINE即时通讯应用和雅虎门户网站的月活用户总量约达3亿，该云平台需具备相当规模的承载能力。

上周末，该公司透露：LINE的内部云平台"Verda"由运行在11,000台主机上、分布于4个OpenStack集群的130,000台虚拟机组成；雅虎日本的"YNW"云平台则运行于27,000台服务器之上，超过160,000台虚拟机分散在160多个OpenStack集群中。

根据新"Flava"云平台的建设规划，目标是实现500台以上主机、9,000余台虚拟机，并统一整合至单一OpenStack集群。此外，公司还采用了开源的Envoy代理、Linux操作系统、扩展型伯克利包过滤器（eBPF）、快速数据通道（XDP）、FRRouting（FRR）以及Ceph存储系统。

LY云基础设施部门负责人Ryuutarou Inoue表示："旧有云平台对OpenStack进行了过多自定义修改，导致升级工作举步维艰。Flava采用的架构紧跟OpenStack上游版本，将定制补丁控制在最低限度，若确实需要功能性变更，我们会主动向上游社区贡献，争取将其合并至主项目。"

他补充道："通过消除升级障碍，我们实现了常态化的更新节奏，使安全防护和最新特性始终保持在线。"

Inoue还表示，LY力求"避免将可用性保障的过度投入集中在基础设施层"，转而以"故障随时可能发生"为前提进行设计。他介绍，Flava的设计理念围绕以下三大"支柱"展开：

在可观测性方面，LY同样高度重视。Inoue表示，其团队借助Prometheus、Grafana及内部仪表盘"持续监控云平台整体健康状况与趋势，以便及早发现异常迹象"。一旦上述工具发出预警，"我们会深入分析内核级追踪记录和数据包捕获等底层信号，精准定位根本原因"。

Inoue坦言，LY"每天都会在某处发生硬件故障"，全靠人工处理根本无法实现。他写道："目前，我们已将大部分流程自动化，从故障检测、发起现场数据中心操作请求，到将替换后的硬件重新接入集群，均已实现自动化处理。不过，仍有部分任务和非常规故障模式需要工程师亲自介入。未来，我们计划将大语言模型引入这些需要大量人工决策的工作流程，进一步提升自动化水平。"

值得关注的背景是，LY此前曾出现严重的信息安全事故，导致用户数据泄露，日本政府已就此要求该公司对技术架构进行整改，以提升安全性与隐私保护水平。

Q&A

Q1：LY Corporation的Flava云平台和原有云平台相比有哪些主要变化？

A：Flava相比原有的Verda和YNW云平台有大幅简化。原有体系共涉及超过160个OpenStack集群、约27万台虚拟机和数万台服务器；而Flava的目标是整合为单一OpenStack集群，搭载500台以上主机和9,000余台虚拟机。此外，Flava减少了对OpenStack的自定义修改，采用更贴近上游版本的标准化架构，以降低升级难度，保持安全更新的持续供给。

Q2：LY Corporation为什么要推进云平台整合？

A：主要有两方面原因。一是原有云平台对OpenStack进行了大量自定义修改，导致版本升级极为困难，安全和功能更新无法及时跟进。二是LY此前发生过严重的信息安全事故，用户数据遭到泄露，日本政府因此要求该公司对技术架构进行整改，提升安全与隐私保护能力，这也加速了Flava整合项目的推进。

Q3：LY Corporation如何处理每天发生的硬件故障？

A：LY Corporation已将硬件故障处理流程高度自动化，覆盖从故障检测、发起现场数据中心操作请求，到将替换硬件重新接入集群的全流程。同时，团队使用Prometheus、Grafana及内部仪表盘持续监控云平台健康状态，发现异常时会深入分析内核级追踪和数据包捕获信息。对于仍需人工介入的复杂故障，公司未来计划引入大语言模型辅助决策，进一步推进自动化。

上一篇：智算中心能源基础设施电源系统保护问答第一期

下一篇：十年同行，智胜未来——百胜软件成为阿里云“10年恒星伙伴”

雅虎日本母公司将164个OpenStack集群整合为一个

相关内容

热门资讯