| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

新闻资讯

论坛

温哥华地产

大温餐馆点评

温哥华汽车

温哥华教育

黄页/二手

旅游

Anthropic"蒸馏"了人类最大的知识库


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
2024 年初,在美国某处的一座仓库里,工人们正在做一件看起来有些奇怪的事:把书一本本送进机器,切掉书脊,扫描,然后把剩下的纸送去回收。


这些书是刚买来的,有些甚至是新的。没有人会读它们,它们存在的唯一目的,就是被数字化扫描,然后被销毁。

下令做这件事的,是一家名为 Anthropic 的 AI 公司。




在他们的内部文件里,这项计划有个代号:“巴拿马项目”。一份规划文件里如此写道:“这是我们以破坏性方式扫描全球所有书籍的计划,我们不希望外界知道我们正在做这件事。”

但这件事最终还是被人知道了。

上个月,一名美国联邦法官解封了一批与版权诉讼相关的文件,总计超过 4000 页。外界由此看到的,不只是一家 AI 公司的秘密,而是整个 AI 行业在数据争夺战中的真实面目。

被大模型“吃”掉的实体书

为什么这些处于技术前沿的科技巨头,会用如此原始甚至粗暴的方式对待纸质书?答案其实藏在 AI 对高质量数据的极度渴求里。

Anthropic 内部很早就意识到,训练 AI 模型光靠网络上的内容不够用。


根据《华盛顿邮报》报道,一位Anthropic 联合创始人在 2023 年 1 月的文件中写道,用书籍训练模型,可以让 AI 学会“如何写得更好”,而不是只会模仿质量参差不齐的网络语言。

书籍经过严格编辑和校对,内容结构清晰,是网络文本难以替代的高质量语料。

这个逻辑本身并不难理解,但问题是,既然承认书籍有价值,为什么不付钱?究其原因,挨个找出版社和作者谈授权,费时费力,成本也高。于是 Anthropic 启动了“巴拿马项目”。仅凭那句“不希望外界知道”,说明它也清楚这件事不见得光。


甚至“巴拿马项目”还没启动的时候,Anthropic 已经尝试通过另一种方式获取书籍。



Ben Mann

法院文件显示,Anthropic 联合创始人 Ben Mann 曾在 2021 年 6 月的 11 天里,从一个叫 LibGen 的“影子图书馆”网站下载了大量侵权小说和非小说类书籍。

一年后,另一个网站 Pirate Library Mirror 于 2022 年 7 月上线,该网站公开宣称“在大多数国家故意违反版权法”。

Mann 把这个网站的链接发给了其他 Anthropic 员工,并留言写道:“来得正是时候!!!”从这些感叹号,我们也能看出一位公司高管对一个公开承认违法的盗版网站表达的真实态度。
不错的新闻,我要点赞     这条新闻还没有人评论喔,等着您的高见呢
上一页1234下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0241 秒 and 5 DB Queries in 0.0016 秒