作為核心技術“三大件”之一,數據庫在中國的發展可謂齟齬前行。1978年,中國人民大學經濟信息管理系創建人薩師煊提出了發展數據庫的理念,并在1979年匯集成《數據庫系統簡介》和《數據庫方法》,成為我國最早的數據庫學術啟蒙讀物。
20年后,國內第一家數據庫公司人大金倉KINGBASE創立。據人大金倉總裁杜勝介紹,人大金倉之所以有“人大”兩個字,是因為從人民大學信息學院中脫胎而來,“金倉”則原本是信息學院的一個研究課題。
“數據庫門檻太高,國外很早就已經發展成熟,大家都知道在這個領域投資會賠錢,所以當時沒有人投。后來是人大的老師們湊了50萬元一起創辦,才有了今天的人大金倉。”
從數據庫概念的提出,到產業化的落地,都是自“人大”開始。本期《新程序員》與人大金倉總裁杜勝,就數據庫的技術演進邏輯、產業的發展周期,以及核心研發人員如何培養等方面進行了深入探討。
業務邏輯趨向應用端,數據庫集群并行運算
《新程序員》:經過數十年發展,數據庫技術不斷迭代更新,從File形式存儲到層次型數據庫,再到關系型數據庫……你是在哪個階段進入到這一領域?后續發展呈現怎樣的特點?
杜勝:我是在關系型數據庫時代切入到這個領域的。應該說我們現在看到的大多數數據庫應用都是關系型場景。關系型數據庫最早是基于傳統C/S架構,比如20年前我們會用PowerBuilder,或者Delphi這類語言去做客戶端的展現。
一般前端很少寫業務實現邏輯,它的實現主要通過數據庫來進行運算。當數據庫在存儲過程中把邏輯實現后,再通過前端按鈕觸發邏輯運行。
對于早期應用來說,數據庫是核心。大量的應用邏輯是基于數據庫的PL/SQL語言來開發的,一是這樣的語言作為腳本語言學習難度低,容易上手;二是數據庫能夠提供非常多的功能擴展包,幫助應用快速實現功能,比如要完成某個遞歸算法時,通過數據庫中的一個函數就可以完成。如果是我們自己編程,代價就會高很多。從關系型數據庫時代開始,數據庫就成為了應用中不可或缺的一部分。
《新程序員》:從數據庫發展歷程來看,演進的邏輯是什么?
杜勝:關系型數據庫之所以登上歷史舞臺,主要在于它對應用的支撐作用。傳統C/S(Client/Server)應用,Client端模式非常簡單,更重的落腳在Server端,Server對于數據庫來說是至關重要的部件。后來,應用從C/S演變到B/S(Browser/Server),出現中間件,一些邏輯就開始往中間件遷移。當然,還有部分應用依然沒有擺脫C/S架構的特點,依托數據庫完成業務邏輯計算,但當中間件發展到一定程度后,邏輯開始向應用代碼中遷移。
再到未來云原生的模式,用戶對應用的投入越來越高,對數據庫的依賴則在降低。整體上,數據庫更多在于提升伸縮性和彈性,以應付更大的并發量和負載壓力。所以,數據存儲和吞吐能力整體在提升,業務運算方面則在弱化。
包括現在討論的分布式數據庫,更多是基于數據的存儲,運算基本放在應用端來實現,這是應用整體架構的變化帶來的。架構的變化基于應用場景的變化,是應用在驅動我們的底層變革,數據庫實際上是被動跟隨。
《新程序員》:一直以來,數據庫行業都在討論如何實現技術“去O”,你認為該如何實現?
杜勝:過去有兩個說法,一個是“去O”,一個是“替O”。這是兩種思路的差異,“去O”主要因為Oracle足夠復雜,很難取代。那么,就從應用的角度入手,讓應用端承擔更多的運算,從而避免使用Oracle的復雜能力,繞開它。我們當然可以用應用代碼來編寫業務邏輯,比如用MySQL開源數據庫來滿足需求,但這樣的話,所有的應用都必須重寫,不能再利用歷史資產,相當于重構一個新的體系。
另一條路徑是“替O”,延續原本的規則和體系,依然使用存儲過程和函數。“替”的含義在于讓國產數據庫產品具備同等能力,從而替換Oracle。
相較而言,“替O”路徑對于應用廠商而言成本更低,因為“替”的過程實現對于應用廠商來說更容易,客戶的歷史資產能夠得到保留。對于一些傳統企業和黨政客戶來說,盡可能利用歷史資產是最優選擇。但在互聯網領域,對成本不是很敏感,一般會選擇“去O”。
當然,隨著云原生的發展,新的技術路線也在演進。未來數據庫的使用會更加偏向目前互聯網的模式,我們會在應用中實現更多業務邏輯,從而降低對數據庫的依賴,這是一個大的趨勢。
《新程序員》:從“數據庫”到“數據倉庫”,只是一個字的變化,看上去只表現在量級上的差別。你認為從“庫”到“倉庫”之后,有哪些延續了?有哪些升級了?
杜勝:從數據庫到數據倉庫的變化主要基于社會信息化程度越來越高。
在早期,數據庫能夠解決交易和分析兩方面的問題。但近三十年來,信息化逐漸興起,隨著數據量的不斷積累,我們遇到了兩個問題:第一,數據存儲遇到挑戰,設計的容量不夠,需要把它擴大;第二,有了這么多數據之后,該怎么用?數據本身沒有任何價值,只有把它們用作分析、統計或者運算才有意義。
要解決數據容量不夠和數據處理不足這兩個問題,在單點的運算能力難以支撐下,就需要構建大的數據庫集群,進行并行運算。
我們有一款名為KADB的產品,是用MPP技術來實現的分布式數據庫,可以實現大規模并行處理。通過并行運算,原來一個單機兩到三天才能運算出的結果,構建100臺集群后,幾分鐘之內就可以把結果計算出來。因此,從數據庫到數據倉庫不僅是量的變化,我們要面對的場景更復雜,處理能力也需要極大提升。
《新程序員》:目前產業還面臨哪些普遍的技術難題?
杜勝:在傳統領域,共享存儲集群還是非常困難的技術。對于數據庫軟件來說,穩定可靠是第一位,如果這個問題沒有解決,其他都沒有意義。但目前來看,只有Oracle能做到這點。
雖然我們想要彎道超車,但這類硬核技術的研發幾乎是不可能的,同時也不太可能用某種新技術來代替。無論軟、硬件,底層技術的要求都非常高,很難通過走捷徑解決,只能一點點消化、學習,希望市場能夠給我們沉淀和試錯的時間。
數據庫產業處于成長期,產學體系仍需優化
《新程序員》:相較于AI、物聯網、云計算等動輒萬億產值的技術,數據庫在早年沒有被追捧,但近年資本也逐漸涌入這個領域,為什么會掀起這樣的熱潮?
杜勝:確實,如果放在前些年,人大金倉想要在資本市場獲得關注是很困難的。但最近三年我們發現,資本對數據庫產業的關注明顯提升。近期有幾家產業鏈友商獲得大額融資,最多的獲得了2.6億美金。這在過去是不可想象的,說明現在國內態勢正在轉變。
為什么會出現這樣的趨勢?說白了就是核心技術要掌握在自己手里,才能從根本上保證產品的自主可控。
在全球化時代,看似所有東西都能買到,但關乎到核心技術和核心理論,還是存在普遍的保護主義的。這對于我們即將開啟的數字化轉型無疑是壞消息,整個經濟都要構建在數字底座上,我們買不到就只能自己做。所以,這個節點上,資本投入數據庫領域也是情理中。
《新程序員》:從產業周期看,你覺得國內數據庫是處于成長期,還是已快到成熟期?
杜勝:我個人感覺還是在成長期,我們評價產業發展階段有一個標準,就是產業從業人員,尤其是核心技術從業人員能否支撐產業的可持續發展。很明顯,我們在核心技術人員的儲備上嚴重不足。再從市場來看,自2001年中國加入WTO,國外品牌紛紛進入中國,二十年過去了,依然占據大多數市場份額,壟斷是一直存在的。
在現象背后,是后進者與先進者的歷史差距。Oracle 1977年創立,人大金倉1999年創辦,盡管是國內最早的數據庫公司,但還是落后了22年。
當然,我們走向成熟也指日可待。一方面基于國家層面的規劃;另一方面,最近幾年涌現出200余家數據庫公司,這是非常好的現象。雖然短期可能有泡沫,但行業做起來會吸引大量人才,大浪淘沙后優秀者自然會留下,行業也會逐步走向成熟。
《新程序員》:在硬核技術領域,你覺得很難“彎道超車”。但面對這樣既重要又困難的現實,產業界往往又寄希望于有這樣的彎道,對此,你認為該怎么辦?
杜勝:需要從兩個方面來說,一個是技術的底層邏輯,一個是人才和市場。
首先,做基礎軟件需要端正心態。在整個產業鏈上,過去做得好的是應用,比如淘寶、美團、抖音等軟件,滿足了客戶需求并持續深耕,就能在市場中下沉。
然而,基礎軟件開發有客觀規律和周期。比如,目前我們的高等教育、研究與產業界之間仍然不能緊密銜接。學校的老師大部分是本、碩、博“直通車”,上完學就回到學校教學,很少有在產業界扎根的經歷,學校和產業是脫節的。如何達成人才培養閉環和產業閉環?可以借鑒一些成熟的經驗,比如國際名校的很多老師曾是產業界的高級經理人,或者是技術人員。他們退休后利用閑暇回到學校,將產業中遇到的難題和研究方法教授給學生。這樣,理論可以有的放矢,產業界的實踐也通過大學的進一步研究而系統升華。我們的學校也開始有這樣的趨勢,但還需要持續發展形成閉環。
其次,每個人有不同的個體稟賦,我們的學生也都非常聰明勤奮,現在世界上很多知名科學家都是華人。從主觀能動性的角度,我還是相信整體的學習氛圍能讓我們在某些領域趕超,然后帶動其他領域。
再者,以人大金倉的經歷來看,市場也是轉折的關鍵。在創立的前十年我們發展比較慢,國外軟件幾乎沒給我們留什么機會。09年被中國電科收購之后,我們加入了“國家電網核心電力調度系統”這個項目,通過這個系統應用獲得的良好聲譽,讓我們的產品和服務打開了市場。
所以,技術落地要符合客觀規律,還需要在體系建設上持續優化。從人的主觀能動性和市場培育角度,我覺得還是有超越的可能。未來十年,我們希望進入國際市場,再過五年,或許可以做到世界領先。
DBA與核心研發人員的培養
《新程序員》:對于數據庫核心研發人員的培育,人大金倉是通過怎樣的方式來培養?
杜勝:我們現在的人才體系有兩類:
第一類是數據庫的使用人才,就是常說的DBA,培養核心是怎么使用和維護數據庫。這類人才的培養相對容易,美國數據庫軟件公司已經幫我們培養了很多人。對他們來說,在我們這里的學習不是從0開始,而是“再學習”。在共通的數據庫技術下,他們轉換很快,可以把以前Oracle、Db2、SQL Server等的DBA很快轉化到國產數據庫,這樣就多掌握了一門技術。我們現在面向全國開設免費學習課程,包括KCA、KCP、KCM,國外這類課程都是收費的。對于我們來說,為產業培育人才不是為了盈利,是為了讓生態快速建立起來。
第二類是核心研發人員,這類人才培養非常困難。就目前情況來看,中國有非常多的程序員,但做數據庫內核研發的只有一兩千人。以傳統師傅帶徒弟的自然培養方式顯然是不夠的,我們要把人才體系真正建立起來。目前國內開設數據庫相關課程的高校只有二十多家,我們已經和人民大學、武漢大學、山東大學合作開發課程,增設了數據庫內核專業。
《新程序員》:你要“從IT應用軟件產業中尋覓人才”,《新程序員》的核心受眾正是龐大的軟件開發者群體,你對開發者有什么要說嗎?
杜勝:如果仔細觀察,我們不難發現做數據庫的都是國際巨頭,像2019年排名前五的數據庫廠商:Oracle、微軟、AWS、IBM、SAP。事實上,做系統類軟件才能在全球通用,所以這個市場量足夠大。假以時日,我們國產數據庫真正成長起來,彼時遍布所有行業,那一定會成長為巨頭公司。如果看好數據庫,想讓你做的軟件被世人銘記,那就加入我們!
作者|楊陽
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。