本報記者 田鵬
發(fā)展自主可控的大模型是我國搶占數(shù)據(jù)發(fā)展高地的必然選擇,而數(shù)據(jù)要素則是支撐大模型發(fā)展的重要引擎。
7月8日,上海數(shù)交所總經(jīng)理湯奇峰在2023世界人工智能大會“大模型時代下的數(shù)據(jù)要素流通”論壇上表示,大模型建設(shè)中,語料庫是一個非常重要的方向,語料庫采購已經(jīng)在不少大模型企業(yè)成本中占據(jù)重要比重,上海數(shù)交所希望以市場配置的方式組織數(shù)據(jù)要素推動語料庫建設(shè)。
在全球人工智能蓬勃發(fā)展背景下,數(shù)據(jù)與算力、算法共同構(gòu)成了新一代人工智能發(fā)展過程中的三大要素。因此,意識到數(shù)據(jù)要素重要性的同時,更應該認清目前我國在數(shù)據(jù)要素利用過程中所面臨的阻礙。
目前存在的阻礙有哪些?
語料庫建設(shè)是一件長期性、專業(yè)性的工作,需要遵循相應的質(zhì)量標準和規(guī)范,并保持持續(xù)更新和擴充,以適應大模型發(fā)展的新需求和新挑戰(zhàn)。
“從與大模型相關(guān)企業(yè)溝通的情況來看,我國語料庫建設(shè)還存在供給不足、質(zhì)量不高、多樣性匱乏、標準欠缺等現(xiàn)狀。”湯奇峰指出。
“數(shù)據(jù)要素在人工智能大模型的發(fā)展中具有關(guān)鍵性的作用,決定了模型的訓練質(zhì)量、性能表現(xiàn)和應用領(lǐng)域的廣度與深度。”在中國電子副總經(jīng)理陸志鵬看來,大模型技術(shù)實現(xiàn)高質(zhì)量發(fā)展,數(shù)據(jù)有效供給是關(guān)鍵,亟需建設(shè)安全可信的數(shù)據(jù)底座。當前數(shù)據(jù)合規(guī)確權(quán)、計量估價、協(xié)調(diào)分配、安全隱私保護等核心難題需要破解。
科大訊飛大數(shù)據(jù)研究院院長譚昶表示,我們對大模型語料數(shù)據(jù)方面有三大關(guān)注點:首先,語料數(shù)據(jù)更新問題亟待解決。目前,大模型訓練都是按月為周期,能否實現(xiàn)以天為周期值得思考。其次,語料偏見問題目前需要通過一些規(guī)則模式將其屏蔽,但這種模式對于大模型來說是一種約束和限制。第三,數(shù)據(jù)安全問題不容忽視。
在談及數(shù)據(jù)流通過程中面臨的問題時,中國知網(wǎng)副總經(jīng)理張宏偉稱,在真正的交易流通里面有定價的問題,有確權(quán)的問題,有收益分配的問題,尤其是我們的數(shù)據(jù),包括它的主體是多元的,有了數(shù)據(jù)分配之后,如何在這些利益主體之間分配,這個是非常難的問題。
“破題”關(guān)鍵在何方?
數(shù)據(jù)驅(qū)動三大變革,包括經(jīng)濟結(jié)構(gòu)、創(chuàng)新范式、企業(yè)模式。面向大模型,數(shù)據(jù)要素市場大有可為,多層次數(shù)據(jù)要素市場建設(shè)需要提供重要助力。因此,在認清數(shù)據(jù)要素流通過程中存在的問題之后,更應清楚“破題”關(guān)鍵所在。
關(guān)于語料庫建設(shè)的挑戰(zhàn),湯奇峰認為,可以根據(jù)開放程度強弱和數(shù)據(jù)質(zhì)量高低將語料數(shù)據(jù)生態(tài)機構(gòu)分出四類供方,制定差異化工作策略。同時,從政府引導市場主導、豐富種類提高質(zhì)量、統(tǒng)一標準規(guī)范建設(shè)、加強監(jiān)管保障安全四個方向建設(shè)大模型時代下的語料庫。
湯奇峰稱,針對數(shù)據(jù)質(zhì)量高但開放程度低的供方,可以通過數(shù)據(jù)交易鏈有效破解語料數(shù)據(jù)流通的信任問題,“核心之一在于產(chǎn)權(quán)和參與大模型后的收益分配問題。”
商湯科技聯(lián)合創(chuàng)始人楊帆認為,對于訓練數(shù)據(jù)的管理和監(jiān)督必不可少。同時,要實現(xiàn)數(shù)據(jù)開源,特別是訓練數(shù)據(jù)相關(guān)領(lǐng)域的開源,只有開源才是更加健全。
在談及如何應對上述風險和阻礙時,張宏偉認為,各方權(quán)益的保護在某種程度為技術(shù)讓步的,但也不能過多讓步,保護創(chuàng)作者的利益仍然很重要。
大數(shù)據(jù)流通與交易技術(shù)國家工程實驗室常務副主任黃麗華表示,多層次數(shù)據(jù)要素市場的建設(shè)需要有明確的數(shù)據(jù)需求應用場景,數(shù)據(jù)要素產(chǎn)權(quán)制度可以提供重要支撐,合規(guī)安全機制提供保障,基于這樣的一個市場,數(shù)據(jù)產(chǎn)品低成本、大規(guī)模可得才有可能實現(xiàn),才能更好地賦能商業(yè)高效應用,促進數(shù)字化轉(zhuǎn)型。未來,顛覆性創(chuàng)新一定是基于數(shù)據(jù)+人工智能+行業(yè)專業(yè)知識發(fā)生的。
(編輯 孫倩)
中國國際經(jīng)濟交流中心副理事長楊偉民:建議改革身份證制度和住房...2023-07-09 17:06
上海數(shù)據(jù)交易所總經(jīng)理湯奇峰:構(gòu)建大模型時代語料庫數(shù)據(jù)生態(tài) 推...2023-07-09 15:50
工業(yè)和信息化部副部長徐曉蘭:加大人工智能技術(shù)創(chuàng)新攻關(guān)力度 加...2023-07-06 19:43
醫(yī)保談判藥品續(xù)約規(guī)則將優(yōu)化 利好創(chuàng)新藥企業(yè)2023-07-05 00:21
衛(wèi)星通信管理制度及政策法規(guī)進一步完善……[詳情]
| 19:27 | 通達動力:GE是公司的重要客戶之一 |
| 19:27 | 逸豪新材:截至2025年11月28日公司... |
| 19:27 | 通達動力:公司在手訂單較為充足 |
| 19:27 | 通達動力:公司與包括比亞迪在內(nèi)的... |
| 19:27 | 會稽山:公司持續(xù)專注黃酒主業(yè)的發(fā)... |
| 19:27 | 拉芳家化:截至2025年9月30日股東... |
| 19:27 | 江蘇國信:公司已關(guān)注并探索電力與... |
| 19:27 | 豪威集團:公司是全球主要的圖像傳... |
| 19:27 | 中青旅:青旅集團及光大集團正在按... |
| 19:27 | 城發(fā)環(huán)境:截至11月30日公司股東人... |
| 19:27 | 中新集團:截至11月28日公司股東人... |
| 19:27 | 四川長虹:公司生產(chǎn)經(jīng)營正常 |
版權(quán)所有證券日報網(wǎng)
互聯(lián)網(wǎng)新聞信息服務許可證 10120180014增值電信業(yè)務經(jīng)營許可證B2-20181903
京公網(wǎng)安備 11010202007567號京ICP備17054264號
證券日報網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
掃一掃,即可下載
掃一掃,加關(guān)注
掃一掃,加關(guān)注