經(jīng)濟(jì)觀察報記者 錢玉娟
自雙十一結(jié)束開始,關(guān)于阿里巴巴的新聞就一直沒有停止。
11月12日晚間,阿里云突發(fā)服務(wù)故障,影響波及幾乎阿里系所有的APP應(yīng)用;11月16日晚,阿里巴巴在披露2024財年第二季度財報時,宣布不再推進(jìn)云智能集團(tuán)的完全分拆。11月16日晚間,阿里巴巴集團(tuán)CEO、阿里云智能CEO吳泳銘在財報發(fā)出后的分析師電話會上給出了阿里云不在完全分拆的解釋,“介于目前外部環(huán)境的各種不確定,我們經(jīng)謹(jǐn)慎評估后決定……”吳泳銘提及的“不確定”,在阿里財報中有更為詳盡的說明,“美國近期擴(kuò)大對先進(jìn)計算芯片出口的限制,給云智能集團(tuán)的前景帶來不確定性。”
不過,對于11月12日傍晚突發(fā)故障這道“主觀題”,阿里云并未回應(yīng),新任CEO吳泳銘也避而提及。
11月12日當(dāng)天,“阿里系A(chǔ)pp崩了”相關(guān)詞條沖上熱搜,阿里云工程師在緊急處理故障問題的過程中,經(jīng)濟(jì)觀察報記者曾向阿里巴巴集團(tuán)內(nèi)部求解,彼時得到一個戲謔的答復(fù):“有個小抖動,結(jié)果就被大家逮到了”、“有的人沒啥感覺,挺快就過去了”。
確實,故障發(fā)生短短兩個小時后,絕大部分地域的服務(wù)就已恢復(fù)訪問,但事實上,過去5年間被記錄下的,阿里云就曾發(fā)生數(shù)次服務(wù)事故,而此次“小抖動”,影響波及近乎全球范圍,直接引致市場對阿里云安全與穩(wěn)定性的質(zhì)疑。
如今,這場“小抖動”似乎還在持續(xù)。
當(dāng)市場還沒有從盒馬和阿里云的變化中緩過神來,美國證券交易委員會(SEC)于當(dāng)?shù)貢r間11月14日披露了兩份144表格,其中顯示,馬云家族信托全資擁有的英屬維爾京群島公司JC Properties Limited和JSP Investment Limited,擬于11月21日出售阿里巴巴創(chuàng)始人股份,均為500萬股美國存托股份(ADS),共涉及股票市值達(dá)8.707億美元。
令人意外的BUG
之于所有阿里人而言,雙十一結(jié)束第二天的周末,本該是放松的,但那晚李強(qiáng)的工作群“炸了”。
李強(qiáng)是阿里云的一名銷售,此次故障不僅事涉他所服務(wù)的地區(qū),“影響很廣,但不深。”記者在阿里云官網(wǎng)的健康狀態(tài)頁(Status Page)中看到了受影響范圍的相關(guān)信息,除了中國內(nèi)地、香港外,還包括美國、英國、印度、阿聯(lián)酋、韓日以及東南亞等多個國家和地區(qū),幾近波及全球范圍,受影響的也包括對外服務(wù)的金融云,政務(wù)云等。
被廣泛感知的不只是淘寶、閑魚、釘釘、菜鳥驛站、阿里云盤、語雀等阿里系產(chǎn)品,網(wǎng)頁版、App訪問受到影響,還有很多阿里云服務(wù)的B端客戶,像納思云充電樁,智慧笑聯(lián)洗衣機(jī)、樂爽cooleasy洗衣機(jī)、蘇打智能打水軟件等,為社會、學(xué)校等提供公共服務(wù)設(shè)施的平臺,紛紛因阿里云IoT服務(wù)API接口故障,服務(wù)“崩”了。
“從阿里云計算第一行代碼開始,我們就希望讓計算成為像水和電一樣的公共服務(wù),成就更多的開發(fā)者和企業(yè)。”這是阿里巴巴董事局主席蔡崇信在10月30日舉行的云棲大會上做的主題發(fā)言,彼時的他并不會想到,十幾天后,提供著像“水電煤”服務(wù)的阿里云,讓一些人短暫且真實地感知到了“斷水、斷電”。
從阿里云官網(wǎng)顯示的受影響產(chǎn)品和區(qū)域信息看,“波及多個區(qū)域,基礎(chǔ)服務(wù)掛了,導(dǎo)致連鎖反應(yīng)。”王亮是國內(nèi)某搬家應(yīng)用軟件的技術(shù)負(fù)責(zé)人,其所在的平臺是阿里云服務(wù)多年的B端客戶。
11月13日,王亮在接受經(jīng)濟(jì)觀察報記者采訪時透露,其平臺派單給司機(jī)后,用戶和司機(jī)原本會綁定一個隱私號碼,以此通話還可以錄音,但在12日傍晚,王亮發(fā)現(xiàn),不斷有司機(jī)師傅向客服反饋,“訂單沒有綁定隱私號碼,直接返回到真實號碼狀態(tài),好在服務(wù)沒有阻斷。”
王亮回憶,那晚軟件后臺圖片依賴的OSS(對象存儲)服務(wù)也受較大影響,但值得慶幸的是,平臺核心的下單和支付流程影響不太大,那期間,他曾嘗試登錄阿里云后臺,“發(fā)現(xiàn)登不了,再進(jìn)入阿里云公共服務(wù)組件的釘釘群,發(fā)現(xiàn)大家都在向官方支持同學(xué)反饋著問題。”
當(dāng)晚19:20左右,阿里方面回應(yīng),經(jīng)工程師緊急處理,阿里旗下淘寶、釘釘、阿里云盤等App已全面恢復(fù)。隨后于21:11顯示,受影響的云產(chǎn)品也均已恢復(fù),“因故障影響部分云產(chǎn)品的數(shù)據(jù)可能存在延遲推送情況,不影響業(yè)務(wù)正常運(yùn)行。”
危機(jī)不只兩小時
阿里云的一次閃崩,直接勾起了大家的互聯(lián)網(wǎng)記憶。
早在2018年年中時,阿里云曾出現(xiàn)持續(xù)近半小時的重大技術(shù)故障,彼時,阿里云官方作出解釋:運(yùn)維上的一個操作失誤,導(dǎo)致一些客戶訪問阿里云官網(wǎng)控制臺和使用部分產(chǎn)品功能出現(xiàn)問題。
“云服務(wù)出現(xiàn)故障,在所難免。”劉星是某科技公司CMO,作為阿里云的客戶還參加了今年的云棲大會。
幾年前,劉星曾是國內(nèi)某家云廠商的高管,他對阿里云2019年3月的宕機(jī)事件記憶猶新。彼時華北地區(qū)不少互聯(lián)網(wǎng)公司遭受影響,官網(wǎng)或產(chǎn)品應(yīng)用癱瘓,當(dāng)時阿里云回應(yīng)稱,經(jīng)緊急排查處理后逐步恢復(fù)服務(wù)。并且針對上述故障,官方還根據(jù)SLA協(xié)議(服務(wù)合同)進(jìn)行相應(yīng)賠償事宜。
“作為同行,完全不會幸災(zāi)樂禍,反倒是引以為鑒。”劉星表示,云商一旦發(fā)生大范圍“崩潰”事件,除了帶來品牌和商譽(yù)的間接損失外,直接損失便是經(jīng)濟(jì)賠償,甚至更為慘痛的客戶流失。
劉星看到,不少客戶會在經(jīng)歷云商的服務(wù)故障后選擇多云。記者也看到,阿里云故障發(fā)生兩天后,“友商”京東云在其官方公眾號發(fā)出,“又一次了,該認(rèn)真考慮’混合多云’了!”
雖沒有“硬剛”提及云廠商的名字,但京東云認(rèn)為故障給行業(yè)敲響了警鐘,以此喚醒用戶市場對用云策略的調(diào)整。但劉星強(qiáng)調(diào),“多云和混合云以及混合多云部署,對于廠商和甲方都是老課題了,但做起來不容易。”
據(jù)劉星介紹,國外確實因為“多云”形成了 IT 領(lǐng)域很多行當(dāng)?shù)男律猓热缍嘣茍鼍跋碌臄?shù)據(jù)管理,多云場景下的軟件定義網(wǎng)絡(luò)服務(wù)等等。但回歸中國市場看,他說,“企業(yè)多云的管理水平不高,多云產(chǎn)生的生態(tài)不太成熟。”
當(dāng)前云服務(wù)市場的變化,“增量不足,存量競爭激烈”,是劉星理解下,阿里云這一巨頭的當(dāng)下困境,縱使AI新一輪的技術(shù)浪潮給云廠商帶來了新的增長空間,但他也認(rèn)可阿里云提及的“算力”這一不確定問題。
BUG解除、服務(wù)恢復(fù)的第二天,王亮所在的平臺享受的阿里云OSS服務(wù)、后臺依賴的Auth認(rèn)證服務(wù)等出了問題,“ECS和數(shù)據(jù)庫的服務(wù),本身還是正常的。”
王亮在等待阿里云給出具體的故障報告,“底層服務(wù)都是好的,一些基礎(chǔ)服務(wù)問題導(dǎo)致的連鎖反應(yīng)。”不過,隨著時間推移,事件過去幾天后,官方保持緘默,他猜測“阿里云應(yīng)該還在復(fù)盤。”
李強(qiáng)無法解答技術(shù)側(cè)的問題,作為阿里云一員,他將突發(fā)故障視為“黑天鵝事件”,對于一些外部釋放的消息,也予以更正,“并不是完全宕機(jī),恢復(fù)時間快。”
服務(wù)故障所涉及的技術(shù)術(shù)語,李強(qiáng)認(rèn)為,兩個多小時的“崩潰”危機(jī),被廣泛感知后,之于云服務(wù)商,尤其是在中國整體市場占據(jù)份額第一位的阿里云,“不算小問題”。李強(qiáng)說。
多事之秋
12日晚突發(fā)的服務(wù)故障,將阿里云服務(wù)在安全性與穩(wěn)定性方面的隱憂放置于臺前。但這次讓人不解的是,官方始終保持著緘默,故障波及范圍之廣,卻沒有對外發(fā)出一份明確的事故報告或說明。
公開資料顯示,2022年12月,同樣在云棲大會和雙十一大促之后,阿里云香港Region可用區(qū)C發(fā)生大規(guī)模服務(wù)中斷事件,導(dǎo)致香港及澳門包括金融管理局等多個關(guān)鍵基礎(chǔ)設(shè)施營運(yùn)者網(wǎng)站無法訪問。
針對上述事故,阿里云在官方聲明中曾坦言,是其運(yùn)營十多年來持續(xù)時間最長的一次大規(guī)模故障,整個處置過程超10小時。
那次事故暴露出阿里云內(nèi)部管理的一個問題,在長達(dá)5個小時時間里,阿里云都沒有更新狀態(tài)監(jiān)控,故障信息更新速度被嚴(yán)重質(zhì)疑。該事件的最終結(jié)果是,時任阿里云一號位的張建鋒離任,并由時任阿里巴巴集團(tuán)一號位的張勇?lián)?ldquo;救火隊長”。
11月12日晚大規(guī)模故障發(fā)生后,外界都在觀望,技術(shù)背景出身、擔(dān)任阿里云一號位剛滿兩個月的吳泳銘,會有哪些處理辦法。
一位身處阿里云生態(tài),與之合作長達(dá)十年的生態(tài)伙伴向記者反映,領(lǐng)頭羊換人后的阿里云,優(yōu)化裁員不少。天貓雙十一大促沖刺當(dāng)晚,淘寶曾短暫“宕機(jī)”,之后阿里云近乎全球范圍的一些服務(wù)出現(xiàn)“癱瘓”,這位阿里云生態(tài)伙伴猜測,“內(nèi)部產(chǎn)研出了問題。”在他看來,如果產(chǎn)研因為裁員動蕩,沒有很好地做好“工作銜接”時,往往會出現(xiàn)類似問題。
上述阿里云生態(tài)伙伴在其企業(yè)中擔(dān)任技術(shù)層高管,他深知企業(yè)處理勞資關(guān)系時,若“忽略人性問題”,會發(fā)生一些不可控事件,“之前微盟還出現(xiàn)過刪庫事件”。
微盟內(nèi)部一人士向記者回溯了發(fā)生在2020年3月的“刪庫事件”,公司內(nèi)部管理疏漏的同時,一員工因獨自在上海租房,防疫封控導(dǎo)致心理出現(xiàn)問題,加之其通過網(wǎng)貸借錢無力償還,故把刪庫作為發(fā)泄出口。
“員工惡意破壞公司線上生產(chǎn)環(huán)境及數(shù)據(jù)。”上述微盟人士透露,公司緊急應(yīng)對處理,發(fā)現(xiàn)問題后報警,該員工在家中被警方控制并帶走。
一位在阿里云工作長達(dá)10年,于今年9月份離開的“老人”,對于過去五年里經(jīng)歷的多次大事故,記憶猶新,談及此次全球范圍的大BUG,“屋漏偏逢連夜雨。”他覺得,事件發(fā)生以來,“最大的懸念是誰來接云。”
不止阿里云
從張勇開始再到吳泳銘,作為一個由兩任集團(tuán)CEO兼職帶隊的業(yè)務(wù)板塊,阿里云于阿里巴巴集團(tuán)來說,顯然是不一樣的。
在阿里內(nèi)部,吳泳銘被親切地稱為“吳媽”,一位阿里前員工評價是,“吳媽是老馬最信任的人。”對于啟用老將,由吳泳銘與蔡崇信搭配來管整個阿里,“是合適的。”作為阿里的第一代程序員、創(chuàng)業(yè)團(tuán)隊的“十八羅漢”之一,吳泳銘一定程度上代表著阿里的技術(shù)基因。“今天,傳統(tǒng)互聯(lián)網(wǎng)模式嚴(yán)重同質(zhì)化,已走向存量競爭,AI人工智能為代表的新技術(shù),正成為全球商業(yè)發(fā)展的新動能。”履新后的吳泳銘,為阿里巴巴確立了兩大戰(zhàn)略重心:用戶為先、AI驅(qū)動。
一位老阿里人如此評價熟識的吳泳銘,“他非常低調(diào),卻勇于創(chuàng)新,不固步自封。”很多人都知道張勇的戰(zhàn)功中,必須有帶隊淘寶“All in無線”一事,而吳泳銘正是背后項目執(zhí)行的那位技術(shù)大牛。
“敢于冒險、敢賭。”上述老阿里人透露,阿里體系之內(nèi),吳泳銘曾帶隊創(chuàng)業(yè),搭建起了阿里電商的營銷平臺阿里媽媽,還曾主導(dǎo)參與了對高德的投資并購案;在阿里體系之外,他以創(chuàng)始合伙人身份創(chuàng)立元璟資本后,先后在硬科技、新造車、數(shù)字醫(yī)療以及工業(yè)互聯(lián)網(wǎng)等領(lǐng)域,押注新型企業(yè),展開投資。
每個熟悉吳泳銘的人,都不曾懷疑他的技術(shù)實力,但在今年9月12日,從掛印離開的張勇手中接過管理棒兩天后,他發(fā)出一封全員信,提出了“管理團(tuán)隊年輕化”的明確目標(biāo)。
吳泳銘提出希望,未來四年內(nèi),讓85后和90后成為阿里巴巴的主力管理者,刷新業(yè)務(wù)管理團(tuán)隊,并創(chuàng)造出讓更多年輕的阿里人成為核心力量的機(jī)制和文化環(huán)境。但在隊伍年輕化的進(jìn)程中,如何保證業(yè)務(wù)交接和基本盤的穩(wěn)定,卻并未被提及。
在“阿里系A(chǔ)pp崩潰”等相關(guān)詞條沖上熱搜當(dāng)晚,不少網(wǎng)友在社交媒體上發(fā)出“能勝任維護(hù)云穩(wěn)定工作的人都走了”的討論。
劉星今年奔到云棲大會現(xiàn)場,也感覺早年熟識的一些阿里云“同學(xué)”已經(jīng)離開,讓他更為感慨的是,每年在各種展會上都會看到阿里云的身影,但在杭州,阿里云的主場,“跟以前比,(阿里云)變得樸素了。”他有一種阿里云也在降本增效的即視感。
就在16日晚的分析師電話會上,吳泳銘講到阿里巴巴集團(tuán)將在阿里云戰(zhàn)略方向上保持長期堅決投入后,他釋放了這樣一個信息點:云智能集團(tuán)仍會繼續(xù)保持獨立公司運(yùn)作方式,采取董事會授權(quán)的CEO負(fù)責(zé)制。
顯然,在吳泳銘是阿里云一號位角色下,未來“誰來接云”仍值得關(guān)注。“阿里云的主要問題,不是淘汰老人的問題,而是在關(guān)鍵人選用的信任和策略方面,需要變革。”上述阿里云前員工告訴記者,作為互聯(lián)網(wǎng)科技平臺企業(yè),不再大規(guī)模擴(kuò)張,且已經(jīng)建立起了一個平穩(wěn)系統(tǒng)后,從經(jīng)濟(jì)角度來講,“當(dāng)然希望能夠用‘便宜’的人來做管理。”
就在11月16日晚財報發(fā)布之后,吳泳銘公布了阿里巴巴的第一批四個戰(zhàn)略級創(chuàng)新業(yè)務(wù):1688,閑魚,釘釘,夸克。阿里方面稱,這些戰(zhàn)略級創(chuàng)新業(yè)務(wù),組織上將作為獨立子公司運(yùn)營,業(yè)務(wù)上將打破以往在集團(tuán)內(nèi)的定位限制,阿里以3-5年為周期持續(xù)投入。
吳泳銘還首次披露了遴選標(biāo)準(zhǔn):具備足夠巨大的市場空間,具備獨特的市場定位,符合用戶需求趨勢和集團(tuán)“AI驅(qū)動”戰(zhàn)略。
至于阿里云,吳泳銘稱,“堅定實施AI驅(qū)動、公共云優(yōu)先的戰(zhàn)略,并加大對AI相關(guān)軟硬件領(lǐng)域的技術(shù)投資。”在吳泳銘看來,阿里云在未來需要堅持做好兩件事,打造一朵“AI時代最開放的云”,為全行業(yè)提供穩(wěn)定高效的AI基礎(chǔ)設(shè)施,其次是創(chuàng)建開放繁榮的AI生態(tài)。
(受訪對象要求,文中李強(qiáng)、王亮、劉星為化名)