21世紀(jì)經(jīng)濟(jì)報(bào)道記者 周瀟梟 北京報(bào)道 政府工作報(bào)告指出,制定支持?jǐn)?shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展政策,積極推進(jìn)數(shù)字產(chǎn)業(yè)化、產(chǎn)業(yè)數(shù)字化,促進(jìn)數(shù)字技術(shù)和實(shí)體經(jīng)濟(jì)深度融合。深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用,開展“人工智能+”行動(dòng),打造具有國際競爭力的數(shù)字產(chǎn)業(yè)集群。
全國政協(xié)委員、中國科學(xué)院院士、北京大學(xué)講席教授陳松蹊今年兩會(huì)帶來的提案跟“數(shù)字中國”建設(shè)相關(guān),他建議加強(qiáng)數(shù)據(jù)分析人才培養(yǎng)、推進(jìn)公共數(shù)據(jù)開放,這樣中國才能在全球數(shù)據(jù)賦能競賽中成為“領(lǐng)跑者”,才能更好地推動(dòng)實(shí)現(xiàn)科技自立自強(qiáng)。
近日,21世紀(jì)經(jīng)濟(jì)報(bào)道記者帶著相關(guān)問題專訪了陳松蹊。陳松蹊表示,中國發(fā)展人工智能要走自己的路,可以把深度學(xué)習(xí)和統(tǒng)計(jì)學(xué)結(jié)合起來,走一條更效能更綠色的發(fā)展之路。
(全國政協(xié)委員、中國科學(xué)院院士、北京大學(xué)講席教授陳松蹊,采訪者供圖)
數(shù)據(jù)驅(qū)動(dòng)經(jīng)濟(jì)騰飛有經(jīng)典案例
《21世紀(jì)》:今年兩會(huì)你帶來的提案,有一份是關(guān)于加強(qiáng)數(shù)據(jù)分析人才培養(yǎng)。在推進(jìn)人工智能發(fā)展過程中,數(shù)據(jù)起到什么作用?數(shù)據(jù)分析起到什么作用?
陳松蹊:人工智能的算法是基于數(shù)據(jù),基于高質(zhì)量數(shù)據(jù)。人工智能的基礎(chǔ),一個(gè)是計(jì)算機(jī),一個(gè)是統(tǒng)計(jì)學(xué)。像人工智能大模型,就是基于大量的、無序的、有偏差的數(shù)據(jù),應(yīng)用統(tǒng)計(jì)思想、統(tǒng)計(jì)分析方法,構(gòu)建的分析決策模型。
近些年,人力資源部發(fā)布的數(shù)據(jù)顯示,我國數(shù)據(jù)分析人才非常欠缺。大量數(shù)據(jù)要真正實(shí)現(xiàn)“賦能”,需要經(jīng)過數(shù)據(jù)分析,因?yàn)閿?shù)據(jù)存在隨機(jī)性、誤差等特征。只有通過分析數(shù)據(jù)才知道其質(zhì)量、價(jià)值、是否可以賦能;只有經(jīng)過統(tǒng)計(jì)分析才能真正用于決策。
統(tǒng)計(jì)學(xué)是一門基礎(chǔ)學(xué)科,各個(gè)學(xué)科的實(shí)證分析,都需要用到統(tǒng)計(jì)學(xué)。統(tǒng)計(jì)學(xué)科數(shù)據(jù)賦能的歷史已有150年,在農(nóng)業(yè)、工業(yè)、生物制藥、醫(yī)學(xué)、金融等領(lǐng)域都有廣泛的應(yīng)用。
像日本經(jīng)濟(jì)實(shí)現(xiàn)騰飛很關(guān)鍵的一環(huán)在于1950年代開始使用統(tǒng)計(jì)學(xué)的質(zhì)量控制,在數(shù)據(jù)分析的基礎(chǔ)上提升了工業(yè)產(chǎn)品質(zhì)量,是數(shù)據(jù)驅(qū)動(dòng)經(jīng)濟(jì)騰飛的經(jīng)典案例。藥物臨床試驗(yàn)要做的實(shí)證分析,是通過實(shí)驗(yàn)組和對照組來對比驗(yàn)證藥物是否有效,這里面數(shù)據(jù)的采集分析需要用到統(tǒng)計(jì)學(xué)方法。美國幾個(gè)大的藥廠都雇傭600名統(tǒng)計(jì)博士。另外一個(gè)數(shù)據(jù)賦能的成功案例是信用卡公司,信用卡個(gè)人信用風(fēng)險(xiǎn)評估,就是基于大量個(gè)人數(shù)據(jù),應(yīng)用統(tǒng)計(jì)學(xué)方法建模分析對不同客戶進(jìn)行風(fēng)險(xiǎn)打分。近年來,部分統(tǒng)計(jì)學(xué)畢業(yè)生進(jìn)入互聯(lián)網(wǎng)公司,跟算法工程師一起完善算法。
我們團(tuán)隊(duì)之前監(jiān)測大氣污染的治理效果,就在考慮統(tǒng)計(jì)團(tuán)隊(duì)可以貢獻(xiàn)什么。因?yàn)榇饲霸u估空氣污染治理效果,主要基于觀測到的大氣污染平均濃度,但是大氣污染受到排放、氣象條件等多因素影響。我們應(yīng)用統(tǒng)計(jì)學(xué)方法剔除掉氣象因素,排除掉“天幫忙”的情形,基于排放來監(jiān)測大氣狀況,來評估地方大氣治理的效果,這樣的評估會(huì)更加公平有效。
加強(qiáng)統(tǒng)計(jì)分析來挖掘數(shù)據(jù)生產(chǎn)力
《21世紀(jì)》:我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展多年,但很多大數(shù)據(jù)公司似乎難以盈利,在你看來背后的原因是什么?
陳松蹊:我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有十多年了,此前很多公司側(cè)重在賣硬件,在顯示、存儲(chǔ)、算力等方面投入較多,但是在數(shù)據(jù)分析這塊還比較欠缺。要真正實(shí)現(xiàn)數(shù)據(jù)賦能,不能只是配備硬件,需要在某個(gè)領(lǐng)域里深耕,真正利用數(shù)據(jù)分析實(shí)現(xiàn)科學(xué)決策,這樣才能真正盈利?,F(xiàn)在要補(bǔ)齊數(shù)據(jù)分析能力,基于行業(yè)特點(diǎn)通過數(shù)據(jù)分析,才能判斷數(shù)據(jù)的質(zhì)量和價(jià)值,才能摸索出數(shù)據(jù)賦能的路徑,才能釋放數(shù)據(jù)的生產(chǎn)力。
數(shù)據(jù)賦能現(xiàn)在有兩條路,一條是自上而下,一條是自下而上。“自上而下”就是大模型的應(yīng)用,使用通用模型來解決問題。但是,大模型耗電量很大,需要使用很多超算,訓(xùn)練模式也比較復(fù)雜,通用大模型下沉到具體企業(yè)還有很長的路要走。對于企業(yè)而言,其實(shí)更適合“自下而上”,就是企業(yè)把自己產(chǎn)生的數(shù)據(jù)先分析利用起來,在此基礎(chǔ)上解決企業(yè)、行業(yè)現(xiàn)實(shí)的問題。數(shù)據(jù)賦能是一個(gè)長期事業(yè),需要企業(yè)有自己的數(shù)據(jù)分析師,而不是只是找短期咨詢師,咨詢完后就走人。
數(shù)據(jù)是國家或企業(yè)的戰(zhàn)略資源,但是數(shù)據(jù)本身不會(huì)自動(dòng)賦能,要通過數(shù)據(jù)分析才能實(shí)現(xiàn)。通過數(shù)據(jù)分析挖掘數(shù)據(jù)生產(chǎn)力,是數(shù)字中國建設(shè)的一個(gè)關(guān)鍵。
統(tǒng)計(jì)分析讓人工智能更高效更綠色
《21世紀(jì)》:去年美國的ChatGPT,今年開年的Sora,都讓大家驚訝于人工智能的發(fā)展。中國的人工智能應(yīng)該朝著什么方向努力?
陳松蹊:中國需要走出自己的路,不然總是跟在別人后面?,F(xiàn)在大模型主要靠算力,也消耗很多能源,中國可以考慮是否能讓人工智能變得更綠色,比如把深度學(xué)習(xí)和統(tǒng)計(jì)分析結(jié)合起來,在前端做更多聰明的事情,減少一些蠻力投入,這樣對能源的消耗不會(huì)那么大,讓人工智能的發(fā)展路徑更加綠色高效。
公共數(shù)據(jù)開放需建立規(guī)范機(jī)制
《21世紀(jì)》:你今年還有一份提案,建議“加強(qiáng)公共數(shù)據(jù)共享,推動(dòng)科技數(shù)據(jù)自立自強(qiáng)”。公共數(shù)據(jù)的開放,現(xiàn)在是否變得更迫切?在推動(dòng)公共數(shù)據(jù)開放共享方面,有何建議?
陳松蹊:數(shù)據(jù)是最新的生產(chǎn)要素,新質(zhì)生產(chǎn)力的發(fā)展往往需要數(shù)據(jù)驅(qū)動(dòng)。要想數(shù)據(jù)賦能,要想彎道超車,需要有頂層設(shè)計(jì),需要在數(shù)據(jù)標(biāo)準(zhǔn)、交易制度、數(shù)據(jù)開放等方面做更多工作。2023年專門成立國家數(shù)據(jù)局,就是為了更好推動(dòng)相關(guān)基礎(chǔ)工作。
科學(xué)家和企業(yè)對公共數(shù)據(jù)都有需求。比如,智慧農(nóng)業(yè)對氣象、地表、土壤等數(shù)據(jù)都有需求??茖W(xué)家們需要穩(wěn)定的數(shù)據(jù)來源,因?yàn)樽隹蒲邪l(fā)表時(shí)所用數(shù)據(jù)其他人也要可以獲取,用于重復(fù)驗(yàn)證,因此公共數(shù)據(jù)對外公開的標(biāo)準(zhǔn)和格式都應(yīng)該有規(guī)范,不要隨意更改。
要推動(dòng)實(shí)現(xiàn)高水平科技自立自強(qiáng),首先需要提高公共數(shù)據(jù)的開放度。中國科學(xué)家可以基于中國海量數(shù)據(jù),構(gòu)建高質(zhì)量的數(shù)據(jù)集,進(jìn)而推動(dòng)相關(guān)研究、人工智能往前發(fā)展。
因?yàn)閲鴥?nèi)公共數(shù)據(jù)獲取存在困難,我國科學(xué)家大量使用國外的公共數(shù)據(jù)進(jìn)行科學(xué)研究。比如英國生物銀行基于30萬大樣本人群的遺傳、生活環(huán)境和健康數(shù)據(jù),是腦科學(xué)、生物統(tǒng)計(jì)、人口遺傳等學(xué)科研究常用的數(shù)據(jù)來源。華為的盤古氣象大模型,是基于歐洲氣象中心的數(shù)據(jù),構(gòu)建了再分析數(shù)據(jù)集,進(jìn)而訓(xùn)練成功的。世界衛(wèi)生組織發(fā)布的各國流行病數(shù)據(jù),也是開展相關(guān)研究的重要公共數(shù)據(jù)來源。
在公共數(shù)據(jù)開放方面,政府可以帶個(gè)頭。那些不涉及國家安全的數(shù)據(jù),諸如經(jīng)濟(jì)、地球科學(xué)、交通、氣象等數(shù)據(jù),應(yīng)該盡可能多地公開共享。建議建立一套公共數(shù)據(jù)公開透明的機(jī)制,明確哪些可以對外公開,哪些做了風(fēng)險(xiǎn)評估后公開,哪些需要簽訂保密協(xié)議等。當(dāng)然,搜集采集數(shù)據(jù)是有成本,有些數(shù)據(jù)的獲取可以收費(fèi)。