(本文翻譯自 Should CC-Licensed Content be Used to Train AI? It Depends by Brigitte Vézina and Sarah Hinchliff Pearson, CC BY 4.0)
在談論人工智慧( AI )發展時,只要提到著作權素材及 CC 授權素材使用之相關議題(註 1),幾個問題就會隨之而生,而其中之一便是 CC 授權素材(如照片、藝術創作、文章、音樂等)是否可用於訓練 AI 。為調查廣大群眾的對此議題的意見,我們在推特發起一項投票活動,而結果是超過半數參與者投給「看情況」。其實我們也是同樣看法,原因如下:一般來說,我們認為可以若是用於 AI 訓練,素材應可以廣泛存取;但我們也希望盡量了解可能使創作者卻步、不願公開分享作品的倫理道德方面之擔憂。
CC 支持大眾廣泛存取與公益相關資訊內容
CC 致力於促進開放存取、增進公共利益。我們相信使用能開放存取的資訊內容能增進創新、協作與創造力;我們也認為著作權相關法律之限制不僅能保障創作中事實與想法的重新利用,也使公眾領域產能更高、更多采多姿。因此原則上 CC 支持大眾以公益為出發點,廣泛存取、運用取得授權的作品來訓練 AI ,這當中當然包括開放的授權內容。此類存取有助於消弭偏見、使社會更加包容、促進教育與研究等重要活動、鼓勵 AI 發展路上的正面創新。
AI 訓練是否涉及著作權問題?
AI 訓練是否必須服從著作權機制(也就代表必須遵守 CC 授權條款),取決於 AI 訓練活動是否是權利持有者之權利行使的一種。
對於使用授權素材訓練 AI 系統是否為專屬權,大眾目前尚未達成共識。
AI 訓練是否涉及著作權,法律上仍有極大不確定性,也就是說 CC 授權不見得適用。換言之,對於使用取得授權的素材訓練 AI 系統是否為專屬權,大眾目前尚未達成共識(如重製、改作等)。不同國家對著作權與 AI 關係的規範程度有別,因此上述情況可能在世界各地不盡相同:以美國為例,使用素材來訓練 AI 應會被認為是合理使用;以歐盟為例,《數位單一市場著作權指令》(Directive on Copyright in the Digital Single Market, DSM)的第三篇文章提及一例外,即研究人員與文化資產機構可執行非商業性文字與資料探勘(text-and-data mining, TDM),而第四篇文章則提供另一例外機制,即權利持有者可選擇退出商業性 TDM 。
![]() |
CC 相信使用授權素材訓練 AI,是著作權法律相關的事項。我們認為應預設其不違反授權,也就是預設人們可以合法存取授權素材、將其作為 AI 的資訊輸入。舉例來說,若是運用於科研或教育領域, TDM 應可獨立於著作權之外而被允許,體現「閱覽權就是探勘權 (The right to read is the right to mine.)」這句格言。前文中的推特投票活動下方有位評論者指出:「著作權不該被拿來阻止資料探勘和 AI 研究。」以下我們先簡單介紹 CC 授權是如何運作。
CC 授權小講堂
我們的各種授權並不限制任何特定種類的「再利用」行為或技術,只要遵守姓名標示(attribution, BY)、相同方式分享(share-alike, SA)、禁止改作(no-derivatives, ND)和非商業性(non-commercial, NC)等四個授權要素所組成的幾種條款即可。因此從著作權角度嚴格來說,若是有人使用 CC 授權素材訓練 AI 程式,他也完全不需要向授權持有人取得明文許可(註 2)。
也請務必記得,我們的授權是在著作權體系下運作的,所以隱私、人格、公開發表等其他種權利或倫理道德並不受授權保障(註 3)。我們竭盡所能保障那些透過我們的授權發布作品的創作者們了解充分我們的授權、知悉它們能保障著作權相關權利。例如, CC 授權也許有提供大家重新利用圖片的權利,但不會提供大家利用圖片裡人物之其他照片及圖像的權利,因為那是受肖像權或人格權所保護的。
AI 的不確定性可能對分享造成額外困難
在授權提供的自由框架之外,創作者們擔憂自身受 CC 授權保護的創作可能被用於不當用途,像是作為人臉辨識 AI 的資訊輸入。
2019 年,我們發現 IBM 等公司利用可公開取得的圖庫(例如 Flickr 上的百萬張圖片)中受 CC 授權保護的圖片,用以訓練自家公司的臉部辨識 AI 演算法,而 IBM 當然沒有取得拍攝者或被拍攝者的同意。部分 Flickr 用戶得知 IBM 擅自利用 CC 授權素材訓練 AI 一事後頗為不悅、在發現 IBM 將素材用於商業用途後更加不滿。他們對 IBM 擅自利用素材庫訓練 AI 演算法所牽涉的倫理與隱私問題多有疑慮(註 4)。
此事件使「資料開放」與「開放授權素材使用的道德擔憂」之間的矛盾愈演愈烈。聯合國秘書長古特瑞斯(António Guterres)曾承認「AI 相關科技的進步,如臉部辨識軟體與數位身分系統,不該被用來侵占人權、加劇不平等和現存歧視。」(註 5)與任何基本的理想一樣,資料的「開放性」本身並不是絕對結果,必須考慮同等有效的因素保持平衡,以確保共享最终是對公眾利益有助益的。
我們的前進觀點:更包容、更支持性的資訊分享
先不論著作權問題, AI 很可能會從根本改變創作內容分享與開放社群的樣貌。 AI 相關道德議題造成法律不確定性、 AI 演算法不夠透明、 AI 資訊輸出造成私有化與資訊封閉...... 以上議題持續阻撓資訊分享,使其無法進步。確實,對許多創作者來說,這些議題都是他們不願分享創作的原因之一。
CC 秉持持續開放倡議、保衛 CC 授權無數使用者之利益的初衷,非常希望能參與 AI 多面向能力的相關討論、進一步以公益為基礎促進資訊分享。
這就是為什麼想要推廣使用 CC 授權素材訓練 AI 的話,我們需要一種社群領導的、協同且包容的方法;我們不只要考慮 CC 授權所處的著作權框架,還必須考量社會責任、永續性、文化權、人權、人格權、隱私權、資料保護、道德等議題。CC 秉持持續開放倡議、保衛 CC 授權無數使用者之利益的初衷,非常希望能參與 AI 多面向的相關討論、進一步以公益為基礎促進資訊分享。
為達成此目的,全球 CC 網絡中的 CC 著作權平台將會在本年度仔細檢視 AI 與開放創作內容之間如何交集。透過討論與集體行動,我們期待能探索關於授權與基礎建設、政策(註 6)、樹立規範(註 7)、喚起人民意識等方面的所有選擇。
對於加入全球政策專家的討論有興趣嗎?現在就加入 CC 政策郵件群組,成為 CC 著作權平台會員之一吧!
註釋
- CC 此前與 AI 相關的網誌文章包括:〈我們為何提倡謹慎處理著作權與人工智慧相關議題〉、〈人工智慧與創造力:我們為何反對以著作權保障 AI 產出之內容〉、〈人工智慧與創造力:機器能媲美珍.奧斯汀嗎?〉等。也可參考創用 CC 投書至世界智慧財產權組織(World Intellectual Property Organization)的兩篇文章(第一篇連結、第二篇連結)、投書至歐盟委員會的文章。
- 參考我們官網上的這兩篇談授權與 AI 關係的 FAQ (第一篇連結、第二篇連結)。
- 雖然這麼說,授權仍包含一項棄權條款,授權持有者可選擇不行使他們自身對重新利用者的道德、公開發表、隱私和/或其他類似的人格權。
- 因為此事件,有人開發了一項名叫 exposing.ai 的工具, Flickr 用戶可檢查自己的 CC 授權圖片是否被用於訓練人臉辨識 AI 。
- 出自他於 2020 年 2 月於瑞士日內瓦聯合國人權理事會上的演說。
- 我們希望我們將心力投注於足夠有代表性且足夠包容的全球倡議,理想而言最好能呼應聯合國教科文組織發表之人工智慧倫理與世界智慧財產權組織舉辦之數屆「人工智慧與知識產權政策會議」。
- 〈從檔案室學資料蒐集〉這篇文章可作為制定機器學習系統之行為準則與道德標準的有效方針。