“新計(jì)算”帶來“新商業(yè)”的重構(gòu),“新商業(yè)”也會(huì)不斷推動(dòng)“新計(jì)算”的重構(gòu),這是必然發(fā)生的循環(huán)。
怎么理解算力?確切地說,怎么理解云時(shí)代的算力?算力可以比照電力,以往根據(jù)發(fā)電量大概能夠判斷出經(jīng)濟(jì)形勢(shì),算力未來也是一樣。
數(shù)字化就是一百年前的電氣化,算力就是一百年前的電力。發(fā)電量的背后是一臺(tái)一臺(tái)的發(fā)電機(jī),算力的背后是無數(shù)的云數(shù)據(jù)中心,云計(jì)算匯聚算力的過程,類似發(fā)電廠形成的過程。
在電力應(yīng)用的歷史上,有一個(gè)并不太“出名”的人物——塞繆爾·英薩爾(Samuel Insull),他是愛迪生的私人秘書,后來成為通用電氣的副總裁。當(dāng)華爾街認(rèn)為每個(gè)家庭都應(yīng)該有一臺(tái)發(fā)電機(jī),但發(fā)電機(jī)的價(jià)格就像私人游艇一樣的奢侈品,英薩爾卻用大型蒸汽渦輪機(jī)來生產(chǎn)廉價(jià)的電力,實(shí)現(xiàn)規(guī)模經(jīng)濟(jì)以此克服市場(chǎng)成本,讓電力觸手可及。
發(fā)電廠解決了電力生產(chǎn)、匯聚和流通的問題,電力得以變成社會(huì)基礎(chǔ)設(shè)施。從歷史角度來看,作為奢侈品的電力,顯然沒有作為普及品的電力對(duì)社會(huì)經(jīng)濟(jì)的影響深遠(yuǎn)。
云計(jì)算時(shí)代,同樣要解決算力生產(chǎn)、匯聚和流通的問題,我們正處在量變到質(zhì)變的關(guān)口。
云計(jì)算改變了什么?
上一階段的云計(jì)算主要體現(xiàn)在算力商業(yè)模式的變化,比如自建變成代建、租用、隨需隨用,這是在一種新商業(yè)關(guān)系支持下,計(jì)算能力的新型組織方式。
當(dāng)云計(jì)算發(fā)展到一定規(guī)模之后,技術(shù)和商業(yè)邏輯也會(huì)隨之變化。或者說,云計(jì)算發(fā)展到一定程度,整個(gè)體系就要被重構(gòu)。
比如這些年來設(shè)備供應(yīng)商就發(fā)現(xiàn),原先批發(fā)、托管、零售的模式在商業(yè)上被重構(gòu)了。而云計(jì)算企業(yè)本身,也一樣需要思考在下一個(gè)技術(shù)體系或者商業(yè)體系下,自己的定位是什么,能力是什么。
“新計(jì)算”帶來“新商業(yè)”的重構(gòu),“新商業(yè)”也會(huì)不斷推動(dòng)“新計(jì)算”的重構(gòu),這是必然發(fā)生的循環(huán)。
在看到技術(shù)創(chuàng)新帶來商業(yè)邏輯重構(gòu)之后,阿里云需要思考,是簡單地靠規(guī)模優(yōu)勢(shì)把歷史價(jià)值吃盡,還是尋求新的創(chuàng)新能力去創(chuàng)造新時(shí)代的更大價(jià)值?阿里云已經(jīng)走在后者的路上。
例如自研CPU,以前如果商業(yè)平臺(tái)沒有規(guī)模,自研CPU是沒有價(jià)值的,而隨著商業(yè)平臺(tái)規(guī)模化,自研CPU的使用量占比越來越高,此時(shí)云廠商有能力定義下一代的CPU、下一代GPU,甚至下一代的計(jì)算體系。這是真正令人興奮的議題。
云計(jì)算是“規(guī)模+技術(shù)”的模型,必須對(duì)技術(shù)和規(guī)模都有足夠的追求。而從歷史上看,這樣的企業(yè)模型才更有競(jìng)爭力,比如蘋果是“技術(shù)+規(guī)模”,亞馬遜也是。
我認(rèn)為,中國云計(jì)算現(xiàn)在可能面臨一個(gè)最大的轉(zhuǎn)折點(diǎn)。云計(jì)算的門檻很高,全世界的頭部云計(jì)算廠商主要是海外廠商,中國還有希望,但這個(gè)希望是否可以實(shí)現(xiàn),還是要客觀認(rèn)識(shí)很多基礎(chǔ)問題。
比如,什么是云計(jì)算?云計(jì)算的商業(yè)模式跟技術(shù)體系的關(guān)系到底是什么?必須要“Back to Basic”,透徹地洞悉下一代的技術(shù)結(jié)構(gòu)和商業(yè)模式。
什么將改變?cè)朴?jì)算?
阿里云要去理解下一代的計(jì)算,首先要清楚“計(jì)算”一詞的定義。“計(jì)算”看上去包羅萬象,我們可以把所有現(xiàn)在沒有看清楚、想清楚的東西,都放到里面。從我的角度,計(jì)算創(chuàng)新方向理解應(yīng)該有三個(gè)層次:
第一,回到傳統(tǒng)意義的算力,云廠商集中給企業(yè)提供計(jì)算能力服務(wù),比企業(yè)自營自建更高效、更有性價(jià)比,商業(yè)公司本身可以不關(guān)注復(fù)雜的計(jì)算能力構(gòu)建,只要按需使用算力,有效解決自己的商業(yè)問題,把原來本質(zhì)上的托管形式變成一種服務(wù)——這不只是商業(yè)模式的問題,同樣是技術(shù)問題。
第二,“算力”本身在變化,或者說“計(jì)算能力”所針對(duì)的目標(biāo)、服務(wù)的場(chǎng)景變了。比如自動(dòng)駕駛有大規(guī)模數(shù)據(jù)處理的需求,原來的計(jì)算架構(gòu)并不是最高效的方式,需要新的思路和新的技術(shù)能力。
第三,一個(gè)客戶需要的算力,其中既有傳統(tǒng)的算力,也有創(chuàng)新的,如何組織最有效的“計(jì)算”來解決?客戶工作負(fù)載可能是無數(shù)個(gè)多種計(jì)算的總和,如果要實(shí)現(xiàn)很高的效率,就需要有適用的算力,把所有工作負(fù)載全部編排拆解,其成本非常高。
對(duì)此阿里云已經(jīng)有一些實(shí)踐。譬如CIPU的誕生,是云服務(wù)商對(duì)算力需求給予回應(yīng),能夠?qū)⑻摂M化損耗降到0。其實(shí),阿里云的神龍架構(gòu)和AWS的Nitro比DPU這一概念出現(xiàn)還要早,春江水暖鴨先知,這就是云服務(wù)商應(yīng)對(duì)算力需求變化作出的改變。
更進(jìn)一步,2022年6月,阿里云宣布推出CIPU(Cloud Infrastructure Processing Units,云基礎(chǔ)設(shè)施處理器),這是為新型云數(shù)據(jù)中心設(shè)計(jì)的專用處理器,將替代CPU成為云時(shí)代IDC的處理核心,它可對(duì)計(jì)算資源進(jìn)行云化加速,并可通過部署飛天云計(jì)算操作系統(tǒng)對(duì)算力資源進(jìn)行管控。
阿里云彈性計(jì)算產(chǎn)品線負(fù)責(zé)人旭卿所負(fù)責(zé)的相關(guān)研發(fā)團(tuán)隊(duì),是CIPU的基礎(chǔ),在2015年就開始技術(shù)攻關(guān),經(jīng)過多年自研迭代,神龍、彈性RDMA網(wǎng)絡(luò)等核心技術(shù)不斷深入垂直整合,演進(jìn)出以CIPU為中心的全新架構(gòu)形態(tài)。
在這個(gè)全新體系架構(gòu)下,CIPU向下對(duì)數(shù)據(jù)中心的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源快速云化,并進(jìn)行硬件加速,向上接入飛天云計(jì)算操作系統(tǒng),將全球數(shù)百萬臺(tái)服務(wù)器連成一臺(tái)超級(jí)計(jì)算機(jī)。而CIPU又將改變傳統(tǒng)數(shù)據(jù)中心的形態(tài),完成一次由內(nèi)而外的體系變化。
再如智算中心,融合了多種算力,阿里云正式推出全棧智能計(jì)算解決方案“飛天智算平臺(tái)”,并啟動(dòng)張北和烏蘭察布兩座超大規(guī)模智算中心。其中張北超級(jí)智算中心總建設(shè)規(guī)模為12 EFLOPS(每秒1200億億次浮點(diǎn)運(yùn)算)AI算力,將超過谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS。
一個(gè)工作負(fù)載輸送到智算中心,在飛天智算平臺(tái)的分解下,CPU、GPU、XPU各行其職,并不是云服務(wù)商的算力硬件一定比其他服務(wù)商好很多,而是對(duì)工作負(fù)載的理解和構(gòu)建新型算力的方式不同。
不同人對(duì)云計(jì)算有不同的理解,例如,有人來買云計(jì)算,考慮買了一百個(gè)核、買了多少存儲(chǔ),然后比較一下是貴了還是便宜了,這還是資源型的購買。客戶真正需要的其實(shí)是一個(gè)能解決問題的服務(wù),并不是那些數(shù)字。
Serverless(無服務(wù)器)是很重要的發(fā)展趨勢(shì),將理順大家對(duì)云計(jì)算的認(rèn)知,云計(jì)算不是“云+計(jì)算器”,也不是“云+計(jì)算機(jī)”,而是以云的方式組織符合時(shí)代需求的算力,交付的是能力,這是一個(gè)全新的邏輯。
而要做到這一點(diǎn),云計(jì)算企業(yè)就必須在技術(shù)上不斷創(chuàng)新、進(jìn)步,要站在時(shí)代前面定義問題。
舉例來看,AI越來越多地在商業(yè)世界中扮演重要角色,要使其發(fā)揮更大的作用,應(yīng)該有新的計(jì)算能力。
中國的人工智能應(yīng)用過去比較集中在視覺領(lǐng)域,我認(rèn)為會(huì)繼續(xù)發(fā)揚(yáng)光大,特別是以自動(dòng)駕駛為代表的領(lǐng)域。但自動(dòng)駕駛也需要決策,三到五年之內(nèi)或許有基礎(chǔ)性的突破,云服務(wù)商需要提供新型算力,自動(dòng)駕駛的算力數(shù)據(jù)量巨大、模型巨大,需要有新型的計(jì)算體系支撐。
其他領(lǐng)域也要用大數(shù)據(jù)做模型預(yù)測(cè),也叫決策智能。數(shù)據(jù)量超大,意味著要有新型的網(wǎng)絡(luò)結(jié)構(gòu),加上強(qiáng)算力和優(yōu)化模型,現(xiàn)在很多模型參數(shù)已經(jīng)上百萬億,云計(jì)算必須解決這些問題。
算力的未來是想象力
技術(shù)型的公司,對(duì)技術(shù)做戰(zhàn)略性判斷一定是頭等大事,這考驗(yàn)著我們一個(gè)很樸素的能力——“定義問題的能力”。中國企業(yè)似乎最缺乏定義問題的能力,在很長一段時(shí)間,都是別人提供定義,我們負(fù)責(zé)跟隨。
定義問題的能力并不簡單。比如電力是直流電還是交流電,是走高端路線還是平民路線,計(jì)算機(jī)發(fā)展早期也有人說,“世界只需要五臺(tái)計(jì)算機(jī)”,后來PC時(shí)代到來,其言論不攻自破,然而隨著云計(jì)算時(shí)代漸進(jìn),定義問題的前提又發(fā)生了變化。
其實(shí)現(xiàn)在的云計(jì)算也面臨著同樣的問題。算力下一步演進(jìn)投入會(huì)更大,會(huì)朝著軟硬件結(jié)合的方向,硬件需要三五年的周期,一個(gè)芯片往往要多次流片,必須要定義好真正值得解決的問題。
大企業(yè)戰(zhàn)略的核心,就是要防止“把問題定義錯(cuò)了”的風(fēng)險(xiǎn),而在正確的問題上,做一些“有質(zhì)量的浪費(fèi)”都是值得的。
所以,阿里云現(xiàn)在開始重新定義問題,再一次用技術(shù)創(chuàng)新解決真實(shí)的問題,云計(jì)算的技術(shù)門檻跟規(guī)模門檻都非常高,我們要敢于再次走進(jìn)無人區(qū),這不只是勇氣,而是不得不做的正確的事,規(guī)模越大,技術(shù)創(chuàng)新得到的回報(bào)也越大。云計(jì)算要么巨虧,要么有非常好的經(jīng)濟(jì)效益,沒有中間路線。
算力的未來是想象力。正如一百年前,沒有人想象得到電視、電冰箱、電腦,如今人們無法想象一個(gè)算力的未來,算力的極大豐富將帶來我們想象得到的以及我們還想象不到的產(chǎn)品技術(shù)和生活工作方式——一切始于我們將如何定義算力。
文/張建鋒 阿里云智能總裁、阿里巴巴達(dá)摩院院長