LY Corporation是一家日本互联网巨头,旗下业务涵盖即时通讯、电子商务和支付等领域,在亚洲多个国家占据重要地位。该公司近日披露,正计划将高度定制化的OpenStack云平台替换为更标准化的开源云架构,并在此过程中推进大规模的资源整合。
LY Corporation于2023年由雅虎日本与韩国即时通讯巨头LINE合并成立,目前正致力于将双方的基础设施整合至一个名为"Flava"的全新统一云平台,以支撑旗下各项服务的稳定运行。由于LINE即时通讯应用和雅虎门户网站的月活用户总量约达3亿,该云平台需具备相当规模的承载能力。
上周末,该公司透露:LINE的内部云平台"Verda"由运行在11,000台主机上、分布于4个OpenStack集群的130,000台虚拟机组成;雅虎日本的"YNW"云平台则运行于27,000台服务器之上,超过160,000台虚拟机分散在160多个OpenStack集群中。
根据新"Flava"云平台的建设规划,目标是实现500台以上主机、9,000余台虚拟机,并统一整合至单一OpenStack集群。此外,公司还采用了开源的Envoy代理、Linux操作系统、扩展型伯克利包过滤器(eBPF)、快速数据通道(XDP)、FRRouting(FRR)以及Ceph存储系统。
LY云基础设施部门负责人Ryuutarou Inoue表示:"旧有云平台对OpenStack进行了过多自定义修改,导致升级工作举步维艰。Flava采用的架构紧跟OpenStack上游版本,将定制补丁控制在最低限度,若确实需要功能性变更,我们会主动向上游社区贡献,争取将其合并至主项目。"
他补充道:"通过消除升级障碍,我们实现了常态化的更新节奏,使安全防护和最新特性始终保持在线。"
Inoue还表示,LY力求"避免将可用性保障的过度投入集中在基础设施层",转而以"故障随时可能发生"为前提进行设计。他介绍,Flava的设计理念围绕以下三大"支柱"展开:
在可观测性方面,LY同样高度重视。Inoue表示,其团队借助Prometheus、Grafana及内部仪表盘"持续监控云平台整体健康状况与趋势,以便及早发现异常迹象"。一旦上述工具发出预警,"我们会深入分析内核级追踪记录和数据包捕获等底层信号,精准定位根本原因"。
Inoue坦言,LY"每天都会在某处发生硬件故障",全靠人工处理根本无法实现。他写道:"目前,我们已将大部分流程自动化,从故障检测、发起现场数据中心操作请求,到将替换后的硬件重新接入集群,均已实现自动化处理。不过,仍有部分任务和非常规故障模式需要工程师亲自介入。未来,我们计划将大语言模型引入这些需要大量人工决策的工作流程,进一步提升自动化水平。"
值得关注的背景是,LY此前曾出现严重的信息安全事故,导致用户数据泄露,日本政府已就此要求该公司对技术架构进行整改,以提升安全性与隐私保护水平。
Q&A
Q1:LY Corporation的Flava云平台和原有云平台相比有哪些主要变化?
A:Flava相比原有的Verda和YNW云平台有大幅简化。原有体系共涉及超过160个OpenStack集群、约27万台虚拟机和数万台服务器;而Flava的目标是整合为单一OpenStack集群,搭载500台以上主机和9,000余台虚拟机。此外,Flava减少了对OpenStack的自定义修改,采用更贴近上游版本的标准化架构,以降低升级难度,保持安全更新的持续供给。
Q2:LY Corporation为什么要推进云平台整合?
A:主要有两方面原因。一是原有云平台对OpenStack进行了大量自定义修改,导致版本升级极为困难,安全和功能更新无法及时跟进。二是LY此前发生过严重的信息安全事故,用户数据遭到泄露,日本政府因此要求该公司对技术架构进行整改,提升安全与隐私保护能力,这也加速了Flava整合项目的推进。
Q3:LY Corporation如何处理每天发生的硬件故障?
A:LY Corporation已将硬件故障处理流程高度自动化,覆盖从故障检测、发起现场数据中心操作请求,到将替换硬件重新接入集群的全流程。同时,团队使用Prometheus、Grafana及内部仪表盘持续监控云平台健康状态,发现异常时会深入分析内核级追踪和数据包捕获信息。对于仍需人工介入的复杂故障,公司未来计划引入大语言模型辅助决策,进一步推进自动化。