ChatGPT火爆出圈后,國內外各行業紛紛探索“AI+”等生成式人工智能產品,比如百度的“文心一言”、騰訊的“混元”AI大模型、華為的“盤古西里AI大模型”、微軟新版Bing&Edge。在此背景下,5月30日,北京市人民政府辦公廳印發《北京市促進通用人工智能創新發展的若干措施(2023-2025年)》(以下簡稱《若干措施》),分別從算力、數據要素、技術體系、應用場景創新、監管模式等多個維度探索人工智能產業創新發展方向,進一步發揮人工智能技術在數字市場中的引領和改革作用。
《若干措施》明確數據要素供給能力對人工智能產業發展的核心推動作用,聚焦通用人工智能發展,營造創新生態,重視防范風險。現階段,國內人工智能產業發展面臨的最大障礙是數據資源不充分、不全面。在技術原理層面,生成式人工智能產品的功能迭代依賴質量高、規模大、內容全的數據集合,經由數據清洗、歸并、去噪等環節,輸入至預設的算法模型,以此不斷調整輸出端的可靠性與準確性。
當然,實際的技術處理過程遠比這復雜得多。但毋庸置疑的是,人工智能產業的全球競賽在一定程度上也是高質量數據資源的競爭。因此,《若干措施》直指產業創新痛點,貼合國家數據要素市場化配置的戰略目標,分別從高質量的訓練數據集、國家級數據訓練基地以及精細化標注平臺三個方面明確提升數據要素供給能力。
人工智能產業需要滿足高質量標準的訓練數據集!度舾纱胧穼⒏哔|量的基礎訓練數據集歸納為三類表現形式,即合法性、多元性和效用性。所謂的合法性,是指訓練數據集的來源合法、處理方式合法。這是因為在實踐中存在部分數據處理者為了加速算法模型迭代升級速度,以非法方式獲取包含個人信息的訓練數據集或者違法抓取第三方數據,這顯然與我國數據安全法所要求的數據處理者收集數據應當以“合法、正當的方式”相悖。同時,《若干措施》多次提及“合規安全”等表述,也是為了貫徹落實數據安全法的立法要求,即“保障數據安全,促進數據開發利用”。所謂的多元性,是指訓練數據集應當盡可能來自不同渠道,不同行業、不同領域的數據資源聚合往往可以產生更高的經濟效益,也有助于更高效地提升算法模型的迭代升級速度。為此,《若干措施》強調,以有條件的社會數據開放形式兼顧數據來源合法性與數據高質量運用。所謂的效用性,是指訓練數據集應當能夠直接投入算法模型迭代優化的處理流程,提升數據處理效率?陀^而言,以中文語料為主的訓練數據集往往需要經過更為煩瑣的數據加工處理流程才能投入使用,這并不利于人工智能產業創新速度的提升,故而《若干措施》也提出“清洗中文預訓練數據,形成安全合規的開放基礎訓練數據集”等發展策略。
人工智能產業需要規模化的數據資源優勢。《若干措施》提出“加快建設數據基礎制度先行先試示范區”有助于打破目前社會數據資源跨行業傳輸不充分、規模效益難以實現的產業僵局。盡管我國已發布了《中共中央 國務院關于構建數據基礎制度更好發揮數據要素作用的意見》(以下簡稱“數據二十條”)等文件,但距離真正實現數據要素的高效市場化配置仍有一段路要走。大部分數據持有者為了避免承擔數據安全法律責任、鞏固自身數據資源市場競爭優勢等,普遍缺乏跨行業開發利用數據資源的積極性,這導致行業數據遲遲未能充分發揮潛在的經濟價值。此外,以ChatGPT為代表的生成式人工智能產品研發成功離不開規;瘮祿Y源的支持,而這種規;⒉粏渭兪侵负唵蔚臄盗魁嫶,還包括種類龐大,即需要整合國家層面的高質量數據進行算法模型訓練。加快建設數據基礎制度先行先試示范區的現實意義便是盡可能為符合安全標準的企業或科研機構提供單個市場主體無法獲取的訓練數據集,這恰恰也是“數據二十條”中“建立合規高效、場內外結合的數據要素流通和交易制度”的具體實現路徑。值得注意的是,為了解決過去數據交易中心營利模式單一、數據交易單一等局限性,《若干措施》還鼓勵開展內容信息服務的互聯網平臺提供高質量語料數據,供創新主體申請使用。探索基于數據貢獻、模型應用的商業化場景合作。
人工智能產業需要精細化標準服務支撐。數據標注是人工智能算法優化的核心業務流程,其原理是通過人為地標注文本、圖像、視頻、聲音等數據的特征,以便讓計算機能夠理解不同數據的性質、作用與真偽,進而達成自主識別數據的目標。換言之,人工智能產業創新不僅僅是算法模型等技術要素的創新,同時也包括數據標注的質量提升。不同的服務提供者往往采用符合自身業務特征的數據標注體系,但伴隨著越來越精確的數據標注需求,僅憑研發企業自身難以有效支撐其業務發展需求,故而《若干措施》有的放矢地提出“精細化標注眾包服務平臺”。這里的眾包服務可以理解為服務提供者把數據標注任務有償地進行分包,好處是能夠由不同行業的工作者對本行業數據設置更精確的標準,有利于降低企業運營的經濟成本。更重要的是,精細化的數據標準結果能夠提升人工智能輸出端的準確性。當然,如果僅僅按照現有的數據標注服務模式遠遠不足以支撐我國人工智能產業走得更遠,而是需要更長久、更直接的經濟激勵機制確保標注工作者能夠勤勉認真地完成高質量的數據標準工作,比如對于貢獻者適當獎勵顯得尤為必要。
《若干措施》切實抓住了人工智能技術創新的三大關鍵要素,即數據、算力和算法。過去的產業政策中,大多是針對訓練數據的規模、類型、內容提出具體要求,此次北京市選擇了更具操作性的政策實施方案,細化了訓練數據高質量保障、規;垡约皵祿䴓俗①|量提升三個具體目標的實施步驟,這對完善數字時代人工智能產業發展的短板具有重要意義,對于我國搶占人工智能技術國際競爭高地將起到提速增效的重要作用。
。ㄗ髡邌挝唬罕本┖娇蘸教齑髮W)
