GitHub Copilot 『合理』用開源?注意授權,不可無限上綱

基於知識共享的願景,開放原始碼及開放授權推動了科技發展,然而人工智慧技術對網路內容的大量使用及再製,近年不斷觸及著作權討論的灰色地帶。舉例而言,2021 年六月 GitHub 與 OpenAI 合作發布 GitHub Copilot 人工智慧程式碼編寫工具,今年付費版服務正式上線。Copilot 雖宣稱「參照公開資料自動編寫程式碼」,卻未明確說明機器學習所使用的來源代碼庫 (codebase),在革新程式碼編寫型態之餘,也招致開源自由軟體社群批評其忽視了每個採用自由與開源授權的軟體的授權條款。

GitHub Copilot 服務推出後,監督開源技術應用的自由軟體倡議組織 SFC (Software Freedom Conservancy) 質疑 GitHub Copilot 的服務誤用「著左權」(copyleft) 崇尚知識公開分享的本意:儘管 GitHub 聲稱 Copilot 的機器訓練集來自「社群代碼庫上的開放資料」,然而根據七月底 Twitter 上相關社群的討論,由於 Copilot 未曾明確列舉 AI 所「學習」的開放原始碼及授權條款,該服務所「參考」的這些所謂「公開」的程式碼,可能涵蓋各種自由或開放授權條款,例如使用寬鬆的 MIT、Apache、或是相對嚴謹的 GPL 授權條款,甚至是只是公開了程式碼,但其實並未明確授權給公眾使用的程式碼。如果沒有明確標示 AI 所採用的專案是哪些,可能會侵害未使用自由或開源授權的軟體權利,或是進一步造成 Copilot 的使用者因為使用這樣的服務產出了程式碼,卻有可能違反 GPL 授權條款,將該授權條款中「希望再利用者取用這些開放的資源的同時,也要向世界公開其改作的原始碼」這樣的初衷拋諸腦後。

而除了 GitHub Copilot,其他大型科技公司近年也紛紛推出人工智慧輔助的程式編寫服務,例如 Google 的 AlphaCode、Salesforce 的 CodeT5、Amazon 的 CodeWhisperer 等等,乍看下似乎為軟體開發的創新應用,卻對歷史資料的使用範圍定義不明。論及 Copilot 等工具是否在使用這些開放資料時合乎道德,專攻開源領域的律師 Heather Meeker 表示:「人工智慧服務所生成的建議內容,大多宣稱僅參照了開放資料中的『常見語法』。此做法看似符合著作權使用,卻可能挪用原始程式碼編寫時的脈絡,造成隱而不現的侵權問題。」

除了開放原始碼的應用,近年亦有專家討論 CC 授權的圖文內容,是否可作為人工智慧開發的機器學習素材。根據 Creative Commons 的定義,若遵循 CC 授權的四大授權要素:姓名標示 (BY)、相同方式分享 (SA)、非商業性使用 (NC)、禁止改作 (ND),任何人皆可使用該素材內容。機器學習的應用則應以「非營利的數據及資料探勘」為主。然而,Creative Commons 卻在 2019 年,發現 IBM 技術研究部門長期自 Flickr 等大型圖庫取用上萬張 CC 授權圖像,作為人臉辨識技術的訓練資料,卻未公開告示圖像的具體用途及選擇標準,引來資訊不透明、侵害隱私權等批評。

對此,OSI (Open Source Initiative) 等相關組織呼籲,在知識共享的願景下,現存法規應明確規範人工智慧及機器學習對開放資料及開源技術的使用。OSI 近期也正籌備 Deep Dive AI 系列研討會,探討人工智慧與開源科技的結合可能。提倡知識共享的 EU Forum 亦在專文中呼籲,除了修訂涵納 AI 技術應用的 GPL 條款,AI 技術發展單位應沿用預建模組所使用的開放授權條款,並遵循 Windfall Clause 協議重新分配部分利潤及知識紅利。如同 Shoshana Zuboff 在《監控資本主義時代》一書所提出的「行為剩餘」概念,在人工智慧技術狂飆的當今,任何網路內容及數據,經演算模型的提煉皆能被賦予營利價值。若人工智慧技術持續以「機器學習」為由,無限上綱地進行資料探勘、而未探尋開放的源頭、遵守授權的規範,原先基於共享互利而開放的知識內容,可能徒淪生成科技產品的免費原料,同時也忽視了選擇開源這條路的原創者們,在著作權上的權益。

參考資料:

留言