
随着AI在应用端的快速落地★ღ✿ღ,AI Agent的角色也越来越多样化★ღ✿ღ,除了客服★ღ✿ღ、营销★ღ✿ღ、内容创作等根据技能划分的基础工作角色外★ღ✿ღ,更加垂直★ღ✿ღ、专业度更高★ღ✿ღ、甚至更需要经验的应用场景也在出现吃饭时还在她身体里★ღ✿ღ,合合信息推出的Chaterm就瞄向了运维专家方向★ღ✿ღ。
作为一个运维人员★ღ✿ღ,如果遇到一个连自己都描述不清楚的服务器问题★ღ✿ღ,只说“服务器好像卡了”★ღ✿ღ,Chaterm能帮助找到问题吗?答案是“可以”★ღ✿ღ, Chaterm产品负责人Water表示★ღ✿ღ,Chaterm被定位为具有“20年经验的运维专家”★ღ✿ღ,这正是Chaterm最擅长的★ღ✿ღ。在实际工作中★ღ✿ღ,不少用户仅仅是描述一下大致的问题现象★ღ✿ღ,Chaterm就能够以用户意料不到的方式解决一些疑难的集群问题★ღ✿ღ。
AI的普及正在创造出传统运维工具无法管理的复杂性★ღ✿ღ,而这些问题的解决也要依靠新一代AI的力量★ღ✿ღ,近日★ღ✿ღ,Chaterm产品负责人Water向《巴伦中文网》分享了目前运维工作的新痛点以及Chaterm带来的解决方案和实践反馈★ღ✿ღ。
AI发展带来的基础设施规模持续增长★ღ✿ღ,LLM的训练和推理都带来了对海量GPU集群★ღ✿ღ、高性能网络和存储的爆发式需求★ღ✿ღ。这不仅是服务器数量的增长★ღ✿ღ,更是基础设施异构性复杂度的成倍增加★ღ✿ღ。对于运维工程师来说★ღ✿ღ,现在不仅要管CPU优发国际随优而动一触即发★ღ✿ღ,更要管GPU★ღ✿ღ、NPU★ღ✿ღ,以及CUDA和各种训练推理平台★ღ✿ღ,RMDA网络更是将监控和排障的粒度降低到了毫秒级★ღ✿ღ,这些“新物种”的监控★ღ✿ღ、调度和故障定位★ღ✿ღ,其难度和传统在线服务不可同日而语★ღ✿ღ。
实际运维工作中★ღ✿ღ,在微服务和K8s体系下★ღ✿ღ,一个请求可能横跨几十个服务★ღ✿ღ。故障不再是一个点★ღ✿ღ,而是一个面甚至一个体★ღ✿ღ。运维人员在排查故障时★ღ✿ღ,必须在网络★ღ✿ღ、存储★ღ✿ღ、应用★ღ✿ღ、权限★ღ✿ღ、中间件等多个领域之间反复跳跃★ღ✿ღ,这使得根因分析和故障定位的难度也越来越高★ღ✿ღ。Water表示★ღ✿ღ,由于人类的排查思路是线性的★ღ✿ღ,而AI Agent则可以多维度并行分析★ღ✿ღ,在数秒内即完成人类运维人员需要数小时才能实现的关联分析★ღ✿ღ,这对于缩短MTTR(平均故障解决时间)是革命性的★ღ✿ღ。
对于B端客户来说★ღ✿ღ,Chaterm则在成本优化方面具有明显的价值★ღ✿ღ,即降本★ღ✿ღ。Water举例称★ღ✿ღ,狭义的Agent想要解决根因定位的问题★ღ✿ღ,首先面临的挑战就是如何落地★ღ✿ღ,现代企业的数字化水平往往已经比较高★ღ✿ღ,而Agent想要能工作★ღ✿ღ,首先要解决的就是如何跟现有的系统进行对接和落地★ღ✿ღ,toB端的交付成本甚至会远远超出Agent开发的成本★ღ✿ღ,所以目前这个阶段★ღ✿ღ,能够为用户提供一个开箱即用★ღ✿ღ,马上就能产生效果的产品就显得尤为重要★ღ✿ღ。
Chaterm的目标就是成为管理这些复杂AI基础设施的智能层★ღ✿ღ,作为Chaterm开发方★ღ✿ღ,合合信息本身就具备丰富的toB业务积累★ღ✿ღ,这些对于业务实践的理解让Chaterm在开发时能够抛开“锤子和钉子”的工具化思维吃饭时还在她身体里★ღ✿ღ,而是直接面向客户的具体问题★ღ✿ღ,去解决如何利用现有工具解决“画框上墙”的真实需求★ღ✿ღ。Water表示★ღ✿ღ,客户反馈显示★ღ✿ღ,Chaterm无论是在降低故障的MTTR★ღ✿ღ,还是优化效率降低成本★ღ✿ღ,以及提升业务安全性上都有一些比较好的落地案例★ღ✿ღ,其中有一些案例完全是用户自己的创新性用法★ღ✿ღ,解决了一些疑难问题★ღ✿ღ。
Chaterm已经开源★ღ✿ღ,来进一步提升覆盖问题的丰富度和技术更新的敏感度★ღ✿ღ,目前★ღ✿ღ,Github star数量已经超过1.8K★ღ✿ღ,Fork达到160+★ღ✿ღ,代码提交次数达超2700次★ღ✿ღ。
Chaterm能够准确定位用户痛点★ღ✿ღ、并且高效匹配和迭代功能★ღ✿ღ,除了合合信息本身对运维市场的深度积累之外★ღ✿ღ,也同亚马逊云科技在资源和技术上的赋能密不可分★ღ✿ღ,某种程度上Chaterm是在亚马逊云科技的生态上成长起来的应用优发国际随优而动一触即发★ღ✿ღ,亚马逊云科技上的大量企业也成为了Chaterm在发展过程中重要的客户群体★ღ✿ღ,尤其是Chaterm瞄准的云原生领域★ღ✿ღ,大量的K8S★ღ✿ღ、微服务和复杂应用都构建在亚马逊云科技之上★ღ✿ღ。
Water表示★ღ✿ღ,在产品开发过程中★ღ✿ღ,合合信息和亚马逊云科技在分工上天然具有默契的互补性★ღ✿ღ,合合信息主要负责产品设计和代码开发相关的工作★ღ✿ღ,亚马逊云科技则通过Bedrock★ღ✿ღ,提供稳定的AI Model底座★ღ✿ღ,同时亚马逊云科技也会负责大量比如LLM judge and evaluation★ღ✿ღ,Prompt Routing and Prompt caching guidence 等相关的工作优发国际随优而动一触即发★ღ✿ღ。
合合信息还是Amazon Advanced级合作伙伴吃饭时还在她身体里★ღ✿ღ,亚马逊云科技提供了许多支持来加速产品研发和迭代★ღ✿ღ,这些支持主要包括★ღ✿ღ:
(1)优先技术接入★ღ✿ღ,当亚马逊云科技推出一项新的服务时★ღ✿ღ,合合信息有机会在它正式General Availability之前就进入Private Beta或Preview阶段★ღ✿ღ,这意味着Chaterm可以“抢先一步”学会操控这些新服务★ღ✿ღ。当其他产品还在研究新服务的文档时★ღ✿ღ,Chaterm已经可以帮用户在新服务上执行任务了吃饭时还在她身体里★ღ✿ღ。
(2)更深度的技术支持★ღ✿ღ。Advanced级别合作伙伴让Chaterm可以拥有专属的Partner SA(解决方案架构师)和技术支持通道★ღ✿ღ。可以直接与亚马逊云科技的内部服务团队对话★ღ✿ღ,这种“Pro-to-Pro”的沟通★ღ✿ღ,让Chaterm在攻克技术难题时★ღ✿ღ,能节省数周甚至数月的时间★ღ✿ღ,加速迭代速度★ღ✿ღ。
(3)技术之外★ღ✿ღ,亚马逊云科技还为Chaterm提供了强大的GTM(Go-To-Market)支持★ღ✿ღ,包括亚马逊云科技 Marketplace上架吃饭时还在她身体里★ღ✿ღ、联合营销活动★ღ✿ღ、技术研讨会等★ღ✿ღ,帮助Chaterm能更快地触达和服务于亚马逊云科技庞大的客户群★ღ✿ღ。
Chaterm使用亚马逊云科技的EKS★ღ✿ღ,KMS★ღ✿ღ,Bedrock等托管服务构建安全可靠的AI服务端
OpenAI将AGI划分为五级模型★ღ✿ღ,分别是Chatbots(聊天机器人)→Reasoners(逻辑推理者)→Agents(解决方案输出者)→Innovators(创新者)→Organizers(组织者)★ღ✿ღ,如果套用这个分类的话认为★ღ✿ღ,Water认为目前AGI正处于2.5的阶段★ღ✿ღ,并且AGI的发展就像自动驾驶一样★ღ✿ღ,要在2.5待很久★ღ✿ღ。
Water表示★ღ✿ღ,AI未来的发展会超越人们的想象★ღ✿ღ,Chaterm的目标更多会聚焦在当下★ღ✿ღ,把Agent做好★ღ✿ღ,为下一个阶段的发展积蓄能量优发国际随优而动一触即发★ღ✿ღ。Chaterm的侧重点也非常明确★ღ✿ღ,主要包括云与基础设施★ღ✿ღ、云原生K8S★ღ✿ღ、FINOPS成本优化★ღ✿ღ、安全合规等等★ღ✿ღ。可以把Chaterm理解为一个技能树系统★ღ✿ღ,正围绕运维领域最高频优发国际随优而动一触即发★ღ✿ღ、最痛的场景★ღ✿ღ,不断地“点亮”新的技能点★ღ✿ღ,使它在专业领域的理解力远超通用Chatbot★ღ✿ღ。
对于百花齐放的AI应用来说★ღ✿ღ,运维之所以是一个值得关注的方向★ღ✿ღ,除了AI快速发展带来的新挑战和较高技术密集度之外★ღ✿ღ,运维对于经验的要求也很高★ღ✿ღ,Chaterm的一个重要护城河也在于将长期的处于孤岛状态下的非标知识沉淀成了可复用的实践能力★ღ✿ღ,通过MCP和RAG★ღ✿ღ,学习和检索运维专家的排错SOP★ღ✿ღ、最佳实践★ღ✿ღ、祖传脚本优发国际随优而动一触即发★ღ✿ღ,这相当于把20年专家的经验赋能给了团队里的每一个人★ღ✿ღ,实现整个团队能力的跃升★ღ✿ღ。优发娱乐官网首页入口网站优发国际随优而动一触即发★ღ✿ღ,能源危机★ღ✿ღ。优发官方app下载★ღ✿ღ。优发国际游戏官方网站★ღ✿ღ,