【】Anna’s Archive稱,幾乎所有的大語言模型巨頭都對它的盜版書庫表示過興趣,最終有包括DeepSeek在內的30家公司與它建立了合作,其中多數為中國公司,以及少量歐美俄日韓公司,多數美國公司則出於版權顧慮放棄了。安娜檔案表示,如果西方想在AI競爭中保持領先,就有必要修訂版權法,這關乎國家安全。
一年多前安娜檔案獲得流出的某秀書庫數據(即pdf販子用的庫)後,便邀請各大AI公司與其合作。公司以“捐贈”或交換資源的形式獲得某秀庫的獨家早期訪問權以及其他書庫的高速下載,並將完成OCR的文檔回饋給安娜檔案供其發布。半年前安娜檔案公開發布了該庫。DeepSeek也在論文中提到,訓練數據集包含來自安娜檔案的百萬本中英文書籍。