今天给各位分享企业级服务受困“洪流”:AI爬虫大规模攻击引发争议的知识,其中也会对进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
我已经无法忍受了!
OpenAI最大的竞争对手Anthropic利用网络爬虫在一天之内访问了一家名为iFixit的科技网站数百万次,以获取其大型模型Claude的更多数据。
直接迫使iFixit CEO Kyle Wiens 在X 上与Anthropic 对抗!
Kyle Wiens 毫不客气地戳了Anthropic 的脊柱:嘿@AnthropicAl,我知道你想要数据。克劳德真的很聪明!但你真的需要在24小时内攻击我们的服务器数百万次吗?
你不但白占了我们的内容,还占了我们的开发资源。那不酷。
图片
令人气愤的是,Anthropic 并没有向iFixit 道歉,而是给了他一篇似乎在指责他的博文。博文写道:
“根据行业标准,Anthropic 使用各种数据源进行模型开发,例如通过网络爬虫收集的公开数据。” “我们的爬行不应该是侵入性的或侵扰性的。我们通过考虑同一域内的爬行速度并尊重适当的爬行延迟来做到这一点,以尽量减少干扰。”
1.天降横祸:iFixit承受爬虫围攻
iFixit 是一个专注于提供电子设备维修指南和工具的技术论坛。
iFixit主要通过提供详细的拆解和维修指南来帮助用户自行维修设备,从而延长电子产品的使用寿命。
凯尔·维恩斯在接受外媒采访时讽刺地说,“我们只是世界上最大的维护信息数据库。他们未经许可窃取了我们所有的数据,并在此过程中淹没了我们的服务器,这没什么大不了的。”
他补充说,iFixit 的网站有数百万个页面,包括维修指南、这些指南的修订历史、博客、新闻文章和研究、论坛、社区贡献的维修指南和问答部分。
维恩斯向媒体展示了该网站的服务器日志。根据日志内容,Claudebot 在几个小时内每分钟发出数千个请求。
显然,爬虫中转会导致访问量激增不断增加服务器负载,导致服务器响应时间变慢甚至崩溃。
然而,这并不是克劳德博特第一次陷入麻烦,也可能不会是最后一次。
2.恶名在外:Claudebot罪行累累
如果你搜索Claudebot,你会发现它已经是惯犯了。
克劳德博特疯了,导致技术论坛瘫痪了几个小时。专注于讨论Linux Mint 操作系统的Linux Mint 论坛遭到了残酷的攻击。
ClaudeBot开始搜索并访问该论坛后,该论坛在几个小时内表现极差,最终导致宕机。直到爬虫被防火墙拦截后,论坛性能才恢复正常。
图片
因此,有人直接评价Claudebot为“我的服务器近年来遇到的最烦人的爬虫机器人”。并表示所有与克劳德有关的内容都会被屏蔽。
图片
Reddit 上还有一篇帖子抱怨Claudebot 过于激进。更不合理的是,Claudebot似乎直接打开并绕过了他的robots.txt文件。
图片
这篇帖子引起了广泛反响,一位网友回应道:“我不介意抓取数据来改进模型,但我绝对无法忍受这些公司可笑的虚伪。
所有顶级模特,包括克劳德,都会警告您不要在输入中使用受版权保护的文本。 AI模型本身也会告诉你这一点。
然而,这些公司在训练模型时公然忽视版权。这种“只许国家官员放火,不许老百姓点灯”的情况着实令人恼火。
我还讨厌的是,反人工智能人群正在竭尽全力试图压制其他穷人对人工智能的使用。因此,来自上层(公司)和下层(挨饿的艺术家)的压力正在抑制其他穷人对人工智能的使用。这太愚蠢了。 ”
图片
3.应对方案:有是有,但不完美
几乎所有的人工智能公司都不会遵守网站的服务条款。
对抗LLM 爬虫的常见方法是设置robots.txt 文件。
这是放置在网站根目录中的文件,用于告诉网络爬虫和机器人哪些部分可以访问。
以下是robots.txt的设置(部分)。有兴趣的朋友可以一步步查看代码分析:
https://neil-clarke.com/block-the-bots-that-feed-ai-models-by-scraping-your-website/
图片
不过,这是防君子不防小人的应对策略。只有行为良好的爬虫才会遵守这些指令,而ClaudeBot 显然不是其中之一。
Reddit 上的一位网友证实了这一点:“我从出版商那里听说ClaudeBot 会忽略robots.txt 的指令。在Anthropic 被亚马逊或另一家担心诉讼的大公司收购之前,你无能为力。”
图片
也有人向凯尔·维恩斯建议:你可以故意设置一些假的修复帖子,这样你就可以追踪谁窃取了你的数据。例如,发布一个问题,询问“如何更换Dipsogenic Hampoon 的电池.”
图片
目前,涉及AI公司利用爬虫侵犯网站内容的案例并不多。许多现有案例都集中在网站条款的执行、合理使用抓取和版权问题上。例如,LinkedIn对数据抓取公司HiQ Labs提起诉讼,法院最终裁定HiQ Labs的行为部分违法。
4.展望未来:艰难探索中的商业合作
显然,人工智能爬虫的滥用是一个表面问题。更本质的问题是,技术论坛、新闻机构等内容生产者的版权谁来保护?
图片
在人工智能广泛发展的今天,这个问题不仅出现在国外,也出现在国内。此前,有网友发现,基于字节的豆宝AI不仅能看懂自家小说APP上的网络文章,还能阅读“十年前的贴吧文章”、“晋江VIP文章”等内容并提问。如果真是这样,这么大规模的探索很难不依赖爬虫的参与。
图片
正如凯尔·维恩斯(Kyle Wiens)向Anthropic 喊话时所说,如果AI 模型如此需要数据,最好慷慨地付费以获得内容的商业授权。
图片
当然,在版权问题上,人工智能也并非没有进步。
在收到多起诉讼后,OpenAI已经在商业层面推进内容合作。 OpenAI 已与GitHub、Reddit 和多个新闻机构签署了合作和许可协议。
今年5月,OpenAI与新闻集团新闻集团签署了具有里程碑意义的多年协议,允许AI模型访问《华尔街日报》、《纽约邮报》、《巴伦周刊》、《市场观察》等主要出版物的内容。该协议预计五年内价值超过2.5 亿美元。
图片
不过,那些能够获得版权合作的网站,注定是大型新闻机构和社区。像iFixit这样的垂直科技网站如果想获得AI公司的内容合作,不知道还要等多久,也不知道能否等到这一天。
参考链接:https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/
51CTO AI.x社区
https://www.51cto.com/aigc/
大家好,企业级服务受困“洪流”:AI爬虫大规模攻击引发争议相信很多的网友都不是很明白,包括也是一样,不过没有关系,接下来就来为大家分享关于企业级服务受困“洪流”:AI爬虫大规模攻击引发争议和的一些知识点,大家可以关注收藏,免得下次来找不到哦,下面我们开始吧!
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.iotsj.com//kuaixun/6081.html
用户评论
天呐,一个爬虫都这么厉害了吗?这也太恐怖了吧
有6位网友表示赞同!
Anthropic应该重视一下这个问题啊,不然就真的会让人讨厌
有5位网友表示赞同!
上百万次攻击服务器?感觉像是在打电脑游戏一样疯狂啊
有19位网友表示赞同!
Claud到底爬错了什么,让CEO这么气的?
有8位网友表示赞同!
说来说去还是数据问题吧,现在这个人工智能发展得确实太快了
有17位网友表示赞同!
技术论坛的CEO应该写个长微博好好解释一下情况
有12位网友表示赞同!
希望Anthropic能尽快解决这个问题,不让大家对Claude有偏见啊
有8位网友表示赞同!
要是我的服务器被攻击上百万次,我也会很愤怒
有13位网友表示赞同!
不知道Claude爬取的数据对他们有什么用吗?感觉有点无聊的样子
有7位网友表示赞同!
这技术论坛是哪个啊,我去看看情况怎么样
有14位网友表示赞同!
说句公道话,Anthropic也别太依赖别人提供的数据吧
有14位网友表示赞同!
Claud这个名字听起来怪可爱的,没想到这么厉害
有11位网友表示赞同!
数据很重要,但攻击服务器可不是个好办法啊
有15位网友表示赞同!
这要是被曝光了,估计Claude的名声就毁了
有7位网友表示赞同!
人工智能发展越来越快,监管也应该加强一下
有6位网友表示赞同!
希望大家理性看待这个问题,别让舆论过度渲染
有7位网友表示赞同!
Anthropic赶紧回应吧,解释清楚是什么情况才能缓和局面啊
有7位网友表示赞同!
现在的人工智能有点太让人担心了,总觉得他们快要超过人类掌控了
有10位网友表示赞同!
希望Claude以后能学习到尊重他人数据和服务的意识
有18位网友表示赞同!
这种事要是发生在我公司,我也会被气疯的
有20位网友表示赞同!