我的blog再一次被人工智能模型看上了-qaq卟言的个人博客

前言
1.png
在最近进行修复blog漏洞中，发现ClaudeBot的用户代理，于是研究了一下
发现在去年十一月十一号凌晨三点四十八第一次访问，以下的AI对话为字节跳动的豆包
2.png
发现是Anthropic公司开发的，也是一个搞人工智能模型的
3.png
记上第一次被人工智能模型看上，还是字节跳动，网上还出现过很多构病字节跳动的文章或讨论
并且网络上很多网站都说了吞噬速度比OpenAI还快25倍，随着时间的推移，Bytespider变得更加激进
4.jpg
抓取活动每周都会大幅增加，并且字节跳动的搜索爬虫无视Robots协议暴力爬取，连一些老外都在头疼
来看一下豆包总结自己家的看法
5.png
6.png
7.png
网上基本上都说这些爬虫无视规则，Bytespider机器人与OpenAI和Anthropic的机器人非常相似
但是我感觉国内基本上爬虫都应该样子都无视规则
科技公司使用抓取机器人免费复制所有内容并将其放入他们的数据集中
被抓取的个人和组织认为版权在此过程中受到了侵犯
比如百度跟奇虎（360）因为Robots协议打了一次案子
处理
那么是否应该放行Claude这一类型的爬虫呢
Claude
8.png
9.png
Bytespider
10.png
看起来爬取的频率也不是特别高，字节跳动也没有去年这么过分了
参考我上面发的朋友圈截图，鉴于它们的爬取频率不是特别高
不会影响网站正常运行和其他用户的访问体验，感觉可以适当的开放一下
毕竟允许人工智能爬取可以扩大影响力，促进知识共享
我写blog也是为更多人能够获取和利用这些程序相关知识，推动技术交流和行业发展
也可能引发更多的讨论和反馈，有助于我进一步提升文章质量
为人工智能的训练和发展提供有价值的语料，有助于推动自然语言处理等技术在程序领域的应用和进步
当然缺点也有参考一下第四张截图，不一定会显示原文的链接，限制了内容传播与品牌推广
也可能人工智能将内容在商业目的使用博客文章
总结
大量人工智能爬取可能会给服务器带来额外的负载，影响网站的运行速度和稳定性
甚至可能导致服务器崩溃，影响正常用户的访问体验
如果博客文章中包含一些敏感信息，如代码中的密钥、个人联系方式等
可能会随着爬取被泄露，带来隐私和安全风险
并且难以完全确保人工智能使用者严格遵守非商业性和署名等要求
可能存在内容被用于商业目的或被修改、歪曲
从而损害博主权益和声誉的情况
如果你能确定人工智能的爬取行为是符合协议且对网站有益的
可以考虑允许，不过要密切关注其情况
参考
速递丨训练数据不够用了！字节为AI大模型推出网络爬虫，吞噬速度比OpenAI还快25倍！新模型或为AI搜索
字节跳动推出了新的网络爬虫，激进抓取网络数据

【我的blog再一次被人工智能模型看上了】

随机文章

回复给❌取消回复

自动补充