是公众号的 robots 协议出现漏洞,让搜索平台的爬虫爬到了,现在已经修复了。
嗐,搞半天白高兴一场。
不过,今天还是想就这个 robots 协议和大家探讨一下。
因为说起来你可能不信,我们在百度里前搜不到公众号文章,后搜不到淘宝商品,都是因为 robots 协议。
robots 协议其实很简单,就是一个放在网站根目录的文本,它写明了搜索引擎可以/不可以收录哪些信息。
微信公众号的 robots 协议 ▼
有人可能会说,原来就是这几行字害得互联网不能互联了?
不不,这锅 robots 协议可不背。
robots 协议原本只是帮助搜索引擎更高效地收录信息,只不过现在人们用着用着逐渐变了味。
这事还得从上世纪 90 年代初期说起。
在搜索引擎诞生之前,人们要查资料,只能一个个进入相关网页,效率非常低下。
后来有了搜索引擎,搜索引擎通过释放网络爬虫( 也可以叫蜘蛛 ),抓取各个网页里的信息,并把这些信息收录起来供大家查询,这才极大提高了人们的效率。
但是,那会爬虫就跟小黑胖一样,抓取信息来完全不挑食。
不管是没用的垃圾信息,还是网站重要的内部数据,不分青红皂白地一顿乱抓,全都要。
这种粗暴的抓法不仅降低了用户搜到有用信息的效率,还会让网页的重要数据泄露,服务器过载无法运行。
所以在 1994 年初,荷兰有位网络工程师提出了 robots 协议。
就好比宾馆房间门上挂着的“ 请勿打扰 ”,“ 欢迎打扫 ”牌子,告诉阿姨哪些房间是可以打扫的。
每个网站的根目录下也摆着一份 robots 协议,协议里告诉爬虫:哪些东西你可以抓,哪些东西你不能抓。
虽说这个 robots 协议目前还没被任何国际组织采纳,没有制约性,只能算个君子协议:你不听,就不是个正人君子。
但它毕竟为了帮助搜索爬虫 更有效地抓取对用户有用的信息,更好促进信息共享。
所以在国外不管是早期的 altavista 还是后来的 Google 、必应,大家也都遵守着这一套协议。
同样 2012 年 11 月中国互联网协会发布了《 互联网搜索引擎服务自律公约 》,也规定了:
搜索引擎要遵守网站的 robots 协议,但前提是 这 个 robots 协议是合理的。
这个公约对 12 家发起单位生效,成员包括百度、腾讯、奇虎 360、搜狗、网易、新浪等。
图源百度百科 ▼
如今绝大多数 搜索引擎的爬虫在访问网站时,第一件事就先读下网站的 robots 协议。
在了解哪些信息是可以抓取之后,才会行动。
比如淘宝的 robots 协议,虽然只有简单的 4 行字,但写明了: 百度爬虫 ( Baiduspider ) 不允许 ( Disallow ) 抓取任何内容 ( / ) 。
百度爬虫过来看到协议后,就算心里难受,也只能啥也不碰马上离开。
那可能有人说,这既然是君子协议,会不会有人不当“ 君子 ”呢?
当然有,robots 协议只相当于一个告知书,爬虫 ( 背后的人 )可以不听你的。
和大家说两个违背 robots 协议的例子。
第一个例子是 BE 和 eBay 的纠纷。
BE 是一个提供拍卖信息的聚合网站。它利用爬虫抓取 eBay 等拍卖网站的商品信息,然后放在自己网站上赚取流量。
尽管 eBay 早已写好了 robots 协议,告诉 BE 爬虫不准抓取任何内容。
但 BE 认为这类拍卖信息都是大众上传的,eBay 设置 robots 协议不让自己抓取,不合理啊。
后来法院经过多方调查取证, 认为 ebay 网站上内容属于私有财产,它用 robots 协议保护私有财产是合理的。
最后认定 BE 侵权。
想必大家能看出来,法院判定结果并不是单纯看有没有违背robots 协议,最主要还得看这个 robots 协议合不合理。
同样,还有个例子也证明了这点。
大部分人都知道 3Q 大战,但可能没听过 360 和百度的“ 3B 大战 ”。
2012 年 8 月 360 搜索刚上线,它抓取了百度旗下的内容 ( 百度知道,贴吧 )并以快照的形式提供给用户。
但是,百度的 robots 协议写明了只有部分搜索引擎可以抓取,当中没包括 360 搜索。
也就是说 360 违背了百度 robots 协议。
图源百度百科 ▼
后来百度想了一个法子,只要在 360 搜索中搜到百度相关网站,点击后就会跳转到百度搜索引擎网站。
再到后来他们闹上了法庭。
这件事去年才算正式结案,判决书大概有一万多字吧,可看了好一会。
不管是 360 把百度快照提供给用户,还是百度的跳转措施,这些操作法院都进行了相应的判决,但是跟我们文章没太大关系。
只在这里说下: 对于 360 搜索违背百度 robots 协议的抓取行为,是怎么判定的。
首先 360 在 2012 年 8 月违背 robots 协议是有不合理在先,但是同年 11 月发布了《 自律条约 》。
条约可是规定了 robots 协议限制搜索引擎 得有正当理由 :比如为了保护敏感信息、公众利益或者维持网站正常运行。
但百度限制 360 搜索抓取的内容,既不是重要敏感信息,被抓取了也不会让百度不能运行了或者损害了公共利益。 。
这就可以判定百度没有正当理由拒绝 360 抓取, 360 的抓取行为也并非不正当竞争行为。
所以啊, 不是写了 robots 协议就一定在理,你这个协议首先得合理才行。
但关键是,这个合理的界限有时候不是很好定。
比如现在不少互联网公司用 robots 协议阻止搜索引擎收录,限制了信息分享。
你说他们是在合理设置 robots 也没错,毕竟是为了保护自己的数据权益。
但这是不是和互联网的初衷背道而驰了呢。
就拿自己经历来讲。
之前写个反诈骗的文章,百度查了大半天资料不够,差点放弃。后来在微信里搜,才在一家公众号文章上找到相关资料。最后要找视频作为动图素材,我又跑去短视频平台。
要知道曾几何时,我们明明可以很轻易的查询到信息,现在因为各大网站的 robots 协议变成了如此困难。
更讽刺的是, robots 协议原本做出来只是为了提高爬虫效率,更好地促进信息流动的。
这是不是有点变味了。
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。