【
智慧城市網(wǎng) 視點跟蹤】《全國數(shù)據(jù)資源調(diào)查報告(2024年)》顯示,2024年我國高質(zhì)量數(shù)據(jù)集數(shù)量同比增長27.4%,標志高質(zhì)量數(shù)據(jù)集建設(shè)進入加速期。隨著人工智能技術(shù)更進一步發(fā)展,對高質(zhì)量數(shù)據(jù)集的需求缺口必將繼續(xù)增大。加強優(yōu)質(zhì)數(shù)據(jù)供給,以高質(zhì)量數(shù)據(jù)驅(qū)動人工智能創(chuàng)新發(fā)展變得愈發(fā)關(guān)鍵。
明確高質(zhì)量數(shù)據(jù)集建設(shè)的戰(zhàn)略意義
習近平總書記圍繞“發(fā)揮數(shù)據(jù)的基礎(chǔ)資源作用和創(chuàng)新引擎作用”做過多項重要的戰(zhàn)略部署,近日發(fā)布的《人工智能全球治理行動計劃》《關(guān)于深入實施“人工智能+”行動的意見》也對“數(shù)據(jù)供給”議題予以特別關(guān)注。當前正值人工智能引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的歷史性窗口,數(shù)據(jù)作為新型生產(chǎn)要素的重要作用空前凸顯,已經(jīng)成為推動傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級、培育新質(zhì)生產(chǎn)力的中堅力量,數(shù)據(jù)領(lǐng)域的新技術(shù)、新模式、新業(yè)態(tài)不斷涌現(xiàn),數(shù)據(jù)要素對于經(jīng)濟社會發(fā)展的乘數(shù)效應(yīng)進一步放大。在此背景下,高質(zhì)量數(shù)據(jù)集建設(shè)的戰(zhàn)略意義已經(jīng)遠超技術(shù)與應(yīng)用層面。
一方面,高質(zhì)量數(shù)據(jù)集是構(gòu)筑國家核心競爭力的關(guān)鍵要素和維護國家安全的重要屏障。掌握高質(zhì)量、主權(quán)可控的優(yōu)質(zhì)數(shù)據(jù)資源,不僅關(guān)乎我國是否能在全球數(shù)字經(jīng)濟版圖占據(jù)有利地位,更是直接影響產(chǎn)業(yè)鏈、供應(yīng)鏈的韌性與安全。尤其是對于金融、能源、交通、國防等關(guān)鍵領(lǐng)域,高質(zhì)量數(shù)據(jù)集的建設(shè)與治理更是保障經(jīng)濟社會穩(wěn)定運行、提升國家治理體系和治理能力現(xiàn)代化的內(nèi)在要求,是國家安全體系不可或缺的組成部分。
另一方面,高質(zhì)量數(shù)據(jù)集是驅(qū)動產(chǎn)業(yè)深度轉(zhuǎn)型和催生重大科技突破的根本前提。產(chǎn)業(yè)應(yīng)用方面,海量、優(yōu)質(zhì)、多樣的數(shù)據(jù)集是人工智能性能躍升的基礎(chǔ)。隨著人工智能模型不斷變“大”,數(shù)據(jù)供給不足已經(jīng)成為亟待解決的問題。數(shù)據(jù)質(zhì)量更是成為制約人工智能從“可用”向“好用”跨越,更深入賦能實體經(jīng)濟的瓶頸。只有通過建設(shè)面向具體場景的高質(zhì)量數(shù)據(jù)集,才能真正打通技術(shù)落地的“最后一公里”。而在科技創(chuàng)新方面,未來的科學發(fā)現(xiàn)愈發(fā)依賴數(shù)據(jù)驅(qū)動的研究范式。蘊含深刻領(lǐng)域知識“更聰明”的數(shù)據(jù)集,是科學家探索、發(fā)現(xiàn)新規(guī)律的“創(chuàng)新燃料”。
阻礙高質(zhì)量數(shù)據(jù)集建設(shè)的三重挑戰(zhàn)
盡管我國高質(zhì)量數(shù)據(jù)集建設(shè)已經(jīng)取得初步進展,但其未來發(fā)展仍然面臨許多挑戰(zhàn)。供給側(cè)層面,結(jié)構(gòu)性矛盾尤為突出。一是當前支撐前沿科研與關(guān)鍵行業(yè)應(yīng)用的中文,以及垂類領(lǐng)域高質(zhì)量數(shù)據(jù)集總量不足;二是跨部門、行業(yè)和地區(qū)的數(shù)據(jù)標準不統(tǒng)一與互操作性缺失,導致海量異構(gòu)數(shù)據(jù)資源整合困難、處理成本高;三是現(xiàn)有數(shù)據(jù)質(zhì)量評估大多止于完整性、一致性等基礎(chǔ)維度,普遍缺乏對于科學知識內(nèi)涵與工程指標洞察的深度挖掘能力。所以,很多時候存在“量大質(zhì)低”現(xiàn)象。
技術(shù)底座層面,高質(zhì)量數(shù)據(jù)集建設(shè)的關(guān)鍵環(huán)節(jié)存在明顯薄弱點。當前的數(shù)據(jù)加工、處理的自動化水平較低,多依賴傳統(tǒng)的人工密集型方式。如此不僅成本高昂、效率低下,倘若標注者自身的學歷、能力參差不齊,數(shù)據(jù)集的實際效用也會大打折扣——這樣的情況會在醫(yī)療、建筑等專業(yè)性較強的領(lǐng)域尤為突出。面向復雜場景的數(shù)據(jù)合成、數(shù)據(jù)蒸餾等關(guān)鍵技術(shù)有待突破,盡管部分算法具備自主性的學習能力,但在很大程度上仍需要人來引導,難以規(guī)模化生產(chǎn)專業(yè)領(lǐng)域所需的“高質(zhì)量”數(shù)據(jù)。更為關(guān)鍵的一點是,目前各個行業(yè)普遍缺乏廣泛認可的高質(zhì)量數(shù)據(jù)集評估標準、認證體系以及配套工具鏈。這不僅使數(shù)據(jù)價值難被客觀、科學地度量,更使高質(zhì)量數(shù)據(jù)集建設(shè)的目標定位變得模糊,進而,導致“為數(shù)據(jù)而數(shù)據(jù)”的本末倒置行為出現(xiàn)。
管理機制層面,高質(zhì)量數(shù)據(jù)集建設(shè)的系統(tǒng)規(guī)劃與協(xié)同能力仍有不足。一方面,從原始資源到高質(zhì)量數(shù)據(jù)集的轉(zhuǎn)化路徑缺乏清晰的實施框架。因此,部分高質(zhì)量數(shù)據(jù)集的建設(shè)呈現(xiàn)一定程度的碎片化、形式化。另一方面,跨部門、跨行業(yè)的協(xié)同機制缺位,致使難以匯聚資源合力,引起重復建設(shè)與資源分散問題。此外,由于數(shù)據(jù)要素本身兼具商業(yè)價值與社會價值,權(quán)屬界定、利益分配等機制不明本身即對高質(zhì)量數(shù)據(jù)集建設(shè)造成制度性阻礙。
推進高質(zhì)量數(shù)據(jù)集建設(shè)的實施路徑
首先,要盡快完善針對數(shù)據(jù)集質(zhì)量的評價體系。針對通識類、行業(yè)通用類、行業(yè)專用類數(shù)據(jù)集制定分級分類標準與質(zhì)量評估、認證體系,確保數(shù)據(jù)集質(zhì)量能夠符合應(yīng)用場景的真實需求。特別是對于行業(yè)專用類數(shù)據(jù)集的質(zhì)量評估、認證,需要緊密切合場景需求進行專門設(shè)計,避免簡單追求所謂的完整性、一致性、正確性。此舉將為各個參與方提供清晰的指引,并確保數(shù)據(jù)集建設(shè)的合規(guī)性、安全性與可用性。其次,要堅持場景驅(qū)動與示范先行的策略。聚焦工業(yè)、農(nóng)業(yè)、醫(yī)療、金融等數(shù)據(jù)密集且有明確需求的重點行業(yè),基此開展試點示范工程。通過將該行業(yè)的高質(zhì)量數(shù)據(jù)集建設(shè)成果與具體業(yè)務(wù)產(chǎn)品緊密結(jié)合,以點帶面形成可復制、可推廣的成功模式。再者,要深化人工智能技術(shù)的應(yīng)用。逐步推進數(shù)據(jù)清洗、標注直至質(zhì)量評估實現(xiàn)全流程智能化,保障數(shù)據(jù)完整性、一致性、可用性的同時,大幅提高效率、降低成本。面對冷門學科等“低資源”場景,則更應(yīng)當發(fā)揮人工智能用于數(shù)據(jù)合成、數(shù)據(jù)增強方面的獨特優(yōu)勢,補齊數(shù)據(jù)多樣性短板。最后,要大力建設(shè)開源與多方協(xié)同平臺。借助開源機制匯聚集體智慧、打破“數(shù)據(jù)孤島”,提升數(shù)據(jù)集的規(guī)模與質(zhì)量。
為進一步確保我國高質(zhì)量數(shù)據(jù)集建設(shè)的有效推進,還須同步構(gòu)建三位一體的支撐體系。一是資源支持上,應(yīng)設(shè)立國家人工智能數(shù)據(jù)集專項基金。加大對于數(shù)據(jù)合成、隱私計算等關(guān)鍵共性技術(shù)的研發(fā)支持,建設(shè)國家級的數(shù)據(jù)技術(shù)“測試場”與中試基地,加速新興技術(shù)的驗證、轉(zhuǎn)化與應(yīng)用推廣。二是能力建設(shè)上,應(yīng)高度重視跨學科人才的培養(yǎng)。尤其是注重吸納應(yīng)用場景的相關(guān)專家,為數(shù)據(jù)集價值評估和治理提供全面的視角。此外,還應(yīng)積極推動國際交流。借鑒全球先進經(jīng)驗,參與國際數(shù)據(jù)治理規(guī)則制定。三是保障措施上,應(yīng)建立明確的目標分解與責任機制。其一,需要統(tǒng)籌協(xié)調(diào),避免重復建設(shè)與資源分散等問題。其二,需要通過常態(tài)化的效果評估與優(yōu)化機制確保高質(zhì)量數(shù)據(jù)集建設(shè)工作能夠持續(xù)、穩(wěn)定推進。其三,需要加快數(shù)據(jù)權(quán)屬、數(shù)據(jù)合規(guī)等制度建設(shè)。明確相關(guān)主體的權(quán)利與義務(wù),保障數(shù)據(jù)能在穩(wěn)定、可預(yù)期的框架之內(nèi)得到高效的流通利用。
版權(quán)與免責聲明:
凡本網(wǎng)注明“來源:智慧城市網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智慧城市網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:智慧城市網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責任。
本網(wǎng)轉(zhuǎn)載并注明自其它來源(非智慧城市網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或和對其真實性負責,不承擔此類作品侵權(quán)行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品第一來源,并自負版權(quán)等法律責任。
如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。