2025年2月9日,經(jīng)濟(jì)合作與發(fā)展組織(OECD)發(fā)布了一篇題為《人工智能基于抓取數(shù)據(jù)的知識產(chǎn)權(quán)問題》的專題報告,該報告深入探討了人工智能(AI)技術(shù)快速發(fā)展背景下,數(shù)據(jù)抓?。―ata Scraping)在模型訓(xùn)練中的應(yīng)用及其對知識產(chǎn)權(quán)(IP)體系的沖擊。報告指出,隨著生成式AI的爆發(fā)式增長,數(shù)據(jù)抓取已成為獲取海量訓(xùn)練數(shù)據(jù)的主要手段,但這一過程頻繁涉及版權(quán)、商標(biāo)、數(shù)據(jù)庫權(quán)利等法律爭議,亟需全球協(xié)調(diào)的政策框架與技術(shù)創(chuàng)新應(yīng)對挑戰(zhàn)。
數(shù)據(jù)抓?。篈I創(chuàng)新的雙刃劍
報告將“數(shù)據(jù)抓取”定義為“通過自動化工具從第三方網(wǎng)站、數(shù)據(jù)庫或社交媒體平臺提取信息的行為”。其核心流程包括數(shù)據(jù)收集、預(yù)處理、存儲及模型訓(xùn)練。例如,大型語言模型(如GPT-3)的訓(xùn)練數(shù)據(jù)中,超過80%來自Common Crawl等公開網(wǎng)絡(luò)抓取數(shù)據(jù)集。這類數(shù)據(jù)為AI模型提供了多樣化的語言表達(dá)和跨領(lǐng)域知識,但也埋下隱患——抓取內(nèi)容可能包含受版權(quán)保護(hù)的書籍、文章、圖像,甚至個人隱私信息。
數(shù)據(jù)顯示,當(dāng)前約70%的AI訓(xùn)練數(shù)據(jù)集缺乏清晰的來源許可信息。2023年一項對1800個常用數(shù)據(jù)集的審計發(fā)現(xiàn),部分?jǐn)?shù)據(jù)集包含盜版內(nèi)容,如“Books3”數(shù)據(jù)集涉嫌收錄17萬本未經(jīng)授權(quán)的書籍,被用于訓(xùn)練Meta的Llama等知名模型。此類爭議已引發(fā)多國訴訟。美國作家協(xié)會、《紐約時報》等機(jī)構(gòu)已對OpenAI、微軟等企業(yè)提起訴訟,指控其未經(jīng)許可使用受版權(quán)保護(hù)內(nèi)容訓(xùn)練AI;歐盟、日本等地也出現(xiàn)類似案件。
法律困境:全球規(guī)則碎片化
報告強(qiáng)調(diào),現(xiàn)行知識產(chǎn)權(quán)法律體系多制定于AI技術(shù)普及之前,難以適應(yīng)數(shù)據(jù)抓取引發(fā)的復(fù)雜問題。各國法律對“合理使用”“文本與數(shù)據(jù)挖掘(TDM)例外”等關(guān)鍵概念的解釋存在顯著差異:
-歐盟通過《數(shù)字單一市場版權(quán)指令》允許研究機(jī)構(gòu)在合法獲取數(shù)據(jù)的前提下進(jìn)行TDM,但版權(quán)所有者可通過合同或技術(shù)手段“選擇退出”(Opt-out);
-日本《著作權(quán)法》允許出于“非娛樂目的”的TDM,包括商業(yè)用途;
-美國依賴“合理使用”原則,需通過司法案例逐案判斷;
-新加坡2021年修訂的《版權(quán)法》新增“計算數(shù)據(jù)分析例外”,明確允許基于數(shù)據(jù)分析的機(jī)器學(xué)習(xí),但禁止衍生內(nèi)容用于其他目的。
這種法律碎片化導(dǎo)致跨國企業(yè)面臨合規(guī)難題。例如,歐盟《人工智能法案》要求通用AI模型提供者遵守歐盟版權(quán)法,即使模型在境外訓(xùn)練,只要輸出用于歐盟市場即需擔(dān)責(zé)。這種“長臂管轄”凸顯了國際協(xié)調(diào)的必要性。
政策工具箱:行為準(zhǔn)則、技術(shù)工具與公眾教育
為平衡AI創(chuàng)新與權(quán)利保護(hù),OECD提出四大政策方向:
1. 自愿行為準(zhǔn)則:制定跨國“數(shù)據(jù)抓取行為準(zhǔn)則”,明確術(shù)語定義(如區(qū)分?jǐn)?shù)據(jù)抓取、網(wǎng)絡(luò)爬蟲等技術(shù)細(xì)節(jié)),要求企業(yè)披露訓(xùn)練數(shù)據(jù)來源、尊重技術(shù)保護(hù)措施(如網(wǎng)站robots.txt協(xié)議),并建立違規(guī)登記與追責(zé)機(jī)制。準(zhǔn)則可參考G7《廣島AI行為守則》,區(qū)分商業(yè)與非商業(yè)用途,鼓勵平臺采用“數(shù)據(jù)集卡片”(Dataset Cards)標(biāo)注數(shù)據(jù)許可信息。
2. 標(biāo)準(zhǔn)化技術(shù)工具:開發(fā)支持版權(quán)管理的技術(shù)方案。例如,改進(jìn)現(xiàn)有robots.txt協(xié)議,設(shè)計機(jī)器可讀的“選擇退出”標(biāo)識;探索數(shù)據(jù)訪問控制工具,允許版權(quán)方通過API授權(quán)使用,并集成自動付費系統(tǒng)。歐盟正推動此類工具研發(fā),以配合《人工智能法案》的透明度要求。
3. 標(biāo)準(zhǔn)合同條款:針對數(shù)據(jù)提供者與AI開發(fā)者的合作協(xié)議,設(shè)計兼顧靈活性與合規(guī)性的模板條款。例如,OpenAI與美聯(lián)社、Shutterstock等機(jī)構(gòu)的內(nèi)容授權(quán)協(xié)議,或成為行業(yè)參考范式。
4. 公眾意識提升:通過教育項目幫助創(chuàng)作者理解權(quán)利邊界,指導(dǎo)AI用戶遵守使用限制(如避免生成侵權(quán)內(nèi)容),并推動企業(yè)公開模型訓(xùn)練的倫理審查流程。
未來挑戰(zhàn):技術(shù)迭代與利益平衡
報告警示,高質(zhì)量訓(xùn)練數(shù)據(jù)可能在2026年前耗盡,迫使企業(yè)轉(zhuǎn)向語音轉(zhuǎn)錄、合成數(shù)據(jù)等新型抓取手段,進(jìn)一步加劇法律風(fēng)險。同時,AI生成內(nèi)容對個人形象權(quán)、藝術(shù)風(fēng)格模仿等新型侵權(quán)形式的界定仍存爭議。例如,AI生成的“虛擬歌手”是否侵犯原聲音樂人的權(quán)利?模仿畫家風(fēng)格的AI作品是否構(gòu)成道德權(quán)利侵害?這些問題亟待法律與倫理框架的更新。
OECD呼吁各國政府、企業(yè)與社會組織加強(qiáng)合作,在保護(hù)創(chuàng)新激勵與公共利益之間尋求平衡。正如報告主筆之一、杜克大學(xué)教授李·蒂德里奇(Lee Tiedrich)所言:“沒有一刀切的解決方案,但通過技術(shù)規(guī)范、合同創(chuàng)新與國際對話,我們可以為AI的可持續(xù)發(fā)展鋪平道路?!?/span>