在全球数字化浪潮中,网络的稳定性和安全性已成为社会经济运行的基石。然而,近期出现的一系列宕机事件,如腾讯云、ChatGPT以及阿里云的故障,再次敲响了警钟,提醒我们即便是在科技高度发达的今天,系统可靠性依然是行业亟待解决的重大课题。在这一背景下,SRE(网站可靠性工程)作为确保在线服务连续性和响应性的关键学科,正迅速成为全球科技行业的焦点。近日,北京鸿雪科技董事长兼CEO郑乃东接受了中国电...
新年伊始,北京鸿雪信息科技有限公司(以下简称鸿雪科技)收到了2024的第一份喜报,正式通过国家高新技术企业认定,成为国家高新技术企业成员。科技创新·砥砺奋进高新技术企业是指在《国家高新技术产业发展规划》中确定的领域内,以科技创新为核心,以高新技术为支撑,具有较强的技术创新能力和市场竞争力,符合国家有关规定的企业。旨在引导企业调整产业结构,走自主创新、持续创新的发展道路,激发企业自主创新的热情...
会上,鸿雪科技董事长接受媒体专访时表示:我们需要认识到数字世界的发展不是孤立的,数字世界是普惠的,数字世界更是有韧性的,并就数字化转型公共平台和算力服务如何在经济社会发展中起到重要作用进行了深入阐述。
如果说5年前我们去谈“互联网+”是源自消费者驱动的被动选择,那么如今我们去谈“智能+”则是企业自驱动的主动变革。从“互联网+”到“智能+”是技术发展和应用的必然,也是企业数字化转型的进一步延伸和深化,两者之间具有延续性,但同时也存在诸多不同特点。比如,“互联网+”基于的是互联网数字技术,解决的是通信问题,而“智能+”基于的是人工智能、大数据、云计算、物联网等最新的前沿技术,解决的是商业模式创...
众所周知,这是一个掌握数据,便可把握住机遇的时代。爆炸性增长的数据推动着新技术的萌发和壮大,诸如AI之类的新兴科技,在协助企业开展与商业生态系统长久相连的业务,乃至推动社会进程方面发挥着至关重要的作用。然而,究竟如何利用技术开辟产业创新之路,以下的实践和思考或许能给我们带来启示。创新:当蜜蜂遇上云计算让我们先来看一个有趣的创新例子。最近我注意到有一个和甲骨文合作的“世界蜜蜂项目”,旨在研究全...
重要 SRE 原则和做法:良性循环200 XP如果在某种程度上“你即你所为”确实是对的,那么我们就已触及本模块的核心。 本单元将介绍两种通常被认为是 SRE 核心做法的做法。 这两种做法都源于务必要形成“良性循环”的原则。在这种情况下,良性循环是指在组织中构建有助于组织持续改进的反馈循环的做法。 将有完整的模块确切讲解这两种做法,因此本单元仅蜻蜓点水般地概述每种做法。良性循环 1:SLI 和...
SRE(Site Reliability Engineering,网站可靠性工程)和运维(Operational Engineering)是保障现代互联网服务稳定运行的两个关键职能。它们之间的主要区别在于方法论的不同、职责焦点的差异、技术实现手段的区别以及团队文化的不同。SRE是由谷歌首创的一种实践,它将软件工程的原则和实践应用到运维问题上,强调自动化和持续改进,目的是提升服务的可靠性、效率...
概述混沌工程(Chaos Engineering)混沌工程是一种在分布式计算系统中测试和增强系统弹性的方法。其核心理念是:有意的在生产环境中引入故障,观察系统会如何响应,并从中学习以增强系统的健壮性。混沌工程通过在受控的实验中模拟各种潜在的故障,如服务器宕机、网络延迟、服务崩溃等,来验证系统是否能够在异常情况下保持正常运行或快速恢复。混沌猴(Chaos Monkey)混沌猴是混沌工程中的一个...
机构预测当前数字人才总体缺口约在2500万至3000万左右;针对2023届高校毕业生的职位中,人工智能、智能制造等增速较快,AI大模型应届生职位同比增速超过100%……从人才流动的趋势,可洞悉数字经济蓬勃向上的发展态势。人瑞人才联合德勤中国最新发布的《产业数字人才研究与发展报告(2023)》指出,大量数字化、智能化的岗位相继涌现,相关行业对数字人才的需求与日俱增,人才短缺已经成为制约数字经济...
近日,人力资源社会保障部等九部门印发《加快数字人才培育支撑数字经济发展行动方案(2024-2026年)》,紧贴数字产业化和产业数字化发展需要,用3年左右时间,扎实开展数字人才育、引、留、用等专项行动,增加数字人才有效供给,形成数字人才集聚效应。《行动方案》通过部署重点任务,实施数字技术工程师培育项目、推进数字技能提升行动、开展数字人才国际交流活动、开展数字人才创新创业行动、开展数字人才赋能产...
虽然 站点可靠性工程师(site reliability engineer)(SRE)角色在近几年变得流行起来,但是很多人 —— 甚至是软件行业里的 —— 还不知道 SRE 是什么或者 SRE 都干些什么。为了搞清楚这些问题,这篇文章解释了 SRE 的含义,还有 SRE 怎样关联 DevOps,以及在工程师团队规模不大的组织里 SRE 该如何工作。什么是站点可靠性工程?谷歌的几个工程师写的《...
概述:所有 SRE 工程师都应该掌握的黑胶带哲学,故障修复速度快效果好。亲爱的读者,我猜你可能正在负责一项你和你的用户都希望能够持续正常运行的业务服务。如果是这样,我想告诉你:你应该为这个业务服务至少准备一两个通用的故障缓解措施。如果你还没有这样做,那么你可能会遇到麻烦。如果你已经有了这些措施,那么请务必定期维护它们,否则它们也可能会失效。01什么是通用缓解措施?缓解措施是指你可能采取的任何...
最好的起点通常是一开始。 首先,一起来回答一个基本问题:“什么是网站可靠性工程?” 尽管此问题有很多答案广为流传,其中包括造出这个词的人(Google 的 Ben Treynor Sloss)经常引用的一种定义,但我们可以提供的最实用答案如下:站点可靠性工程是一门工程专业,致力于持续帮助组织实现系统、服务和产品的可靠性级别。稍后,我们可能会向这个概念中加入其他一些定义,这是个起点。 此定义有...
7月2日消息,B站(哔哩哔哩)平台今日上午出现服务问题,视频评论区和用户(UP 主)主页都无法加载,#B站崩了#冲上热搜,引发热议。阿里云服务器再次发生故障有网友反馈表示,B站平台7月2日上午出现服务问题,视频评论区和用户(UP主)主页都无法加载。访问B站用户主页会显示-500错误码,视频评论区则一直显示“加载中”。还有网友反映小红书内容也无法刷新。小红书内容无法刷新记者致电阿里云客户服务中...
我们经常会面临产品上线出现问题,开发团队和运维团队就开始互相踢皮球,很难直接定位问题根因。SRE的出现,正是为了更好解决此问题。谷歌SRE的初始定义:站点可靠性工程(SRE)是一门结合软件工程并将其应用于基础架构和运维问题的学科,2003年左右由谷歌创建,并通过SRE books进行宣传。SRE是什么:1.SRE是一个学科2.SRE是一种最佳实践3.SRE是一类创新岗位谷歌SRE解决了哪些问...
一、数字化转型的重要性1提升客户体验:数字化转型可以帮助企业更好地了解客户需求,提供更加个性化和便捷的服务,从而提升客户满意度和忠诚度。因此,数字化转型对于传统行业来说,不仅是生存和发展的问题,更是关乎未来命运的重大问题。
中小企业是经济高质量发展的微观基础,是经济实现质的有效提升和量的合理增长的重要动力。而数字化转型是中小企业在数字经济时代的“必答题”,推动中小企业数字化转型是实现中小企业快速成长和高质量发展的新路径,将为加快构建现代化产业体系提供有力支撑。2023年7月,《中共中央国务院关于促进民营经济发展壮大的意见》明确提出“支持中小企业数字化转型”,着力推动民营经济实现高质量发展。总体来看,中小企业数字...
在当今的软件开发和运维领域,SRE(Site Reliability Engineering)已成为一个备受关注的重要概念。SRE不仅仅是一个职位或角色,而是一套系统化的方法,旨在提高服务的性能和稳定性。在本文中,我们将深入探讨SRE的角色、职责和目标,并通过全局视角来更透彻地理解这一概念。首先,我们来了解一下SRE的基本职责。SRE的主要任务是负责各种服务的性能和稳定性,远离底层硬件,更多...
作为中国经济增长的重要引擎,数字经济频迎政策利好。接下来,国家将协同完善数据基础制度和数字基础设施,进一步推动数字经济高质量发展。7月5日召开的国务院常务会议,研究部署推进数字经济高质量发展有关工作。会议指出,要从全局高度认识和推动数字经济高质量发展,促进数字技术和实体经济深度融合,推进数字产业化、产业数字化,全面赋能经济社会发展。此前的7月2日至3日,国务院总理李强在江苏苏州调研,提出加快...