一份君子协议的robots.txt维持了互联网30年来的秩序,但AI的出现破坏了这种信任和平衡

一份君子协议的robots.txt维持了互联网30年来的秩序,但AI的出现破坏了这种信任和平衡

三十年来,一个不起眼的文字文件一直维持着网络的秩序。 这个名为robots.txt的文件,既没有法律约束力,也没有复杂的技术要求,却像网络初始拓荒者间的君子协定,让所有人都能受益。 它就像网络的小型宪法,以代码的形式存在。

这个叫robots.txt的文件基本上都存在你的网站根目录下(yourwebsite.com/robots.txt)([invalid URL removed])。 无论是个人美食博客或跨国企业,网站管理者都可以通过robots.txt告诉互联网世界谁能访问你的网站,谁不能。 例如,哪些搜索引擎可以索引你的网站? 哪些数据库可以保存你的网页副本? 竞争对手是否可以监控你的页面? 都由你决定,并向网络世界宣告。

这不是一套完美的系统,但它确实有效。 数十年来,robots.txt 主要用于控制搜索引擎,你可以让它们抓取你的网站内容,而它们则承诺把流量引回给你。 然而,人工智能(AI)改变了这一切:网络上的公司开始利用你的网站及其数据构建庞大的训练数据集,用于建立可能根本不会承认你的存在的新模型和产品。

robots.txt 文件原本规范着一种相互协作,但现在 AI 却像是只索取不贡献。 由于人工智能蕴含巨大的商业利益,再加上技术发展日新月异,许多网站所有者根本无法跟上步伐。 更糟的是,支撑robots.txt乃至整个网络的「大家互相尊重」这一基本协议,可能也快要失效了。

网络早期,机器人曾以各种名称被提及,像是蜘蛛、网络漫游者、蠕虫、网页蚂蚁、网络爬虫等。 当时它们大多出于善意,例如开发者用来建立酷炫新网站目录、确保自家网站运作正常,或是建立研究数据库。 那大约是 1993 年左右,远早于搜索引擎普及,甚至能把整个网络塞进电脑硬盘的时代。

那时最大的问题其实是流量:无论是用户造访网站或网站经营者本身,当时的网络又慢又贵。 许多人把网站建在自己电脑上或是靠家用网络连接的简易服务器软件运作,只要几个爬虫过度热心地下载你的网页,网络就会当掉,电话费也会暴增。

1994 年,软件工程师兼开发者马丁·柯斯特(Martijn Koster)与一群网络管理员和开发者们,共同想出一个名为「机器人排除协议」的解决方案。 这个提案相当简单:它要求网络开发人员在他们的域中加入一个纯文本文件,指定哪些机器人不允许扫描他们的网站,或者列出所有机器人都不允许访问的页面。 (再次强调,当时你可以列出所有现存的机器人-柯斯特和其他一些人就做到了这件事。 )对于机器人的创造者来说,协议更简单:尊重文字文件的意愿。

从一开始,柯斯特就明确表示他不讨厌机器人,也没有打算摆脱它们。 他在1994年发给名为WWW-Talk 的邮件列表(其中包括提姆·伯纳斯·李(Tim Berners-Lee)和马克·安德森(Marc Andreessen)等早期互联网先驱)的第一封电子邮件中表示:「机器人是网络上为数不多的会造成运行问题和让人头疼的方面之一。」 )。 「但它们同时也提供有用的服务。」 柯斯特 告诫人们不要争论机器人是好是坏,因为这无关紧要,它们已经存在并且不会消失。 他只是试图设计一个系统,可以「最小化问题并最大化收益」。

那年夏天,他的提议就成为非官方但普遍接受的标准。 柯斯特在 6 月份再次更新了 WWW-Talk 群组。 「简而言之,它是一种通过在服务器上提供一个简单的文字文件,将机器人引导远离Web服务器 URL 空间中特定区域的方法,」他写道。 「这在你拥有大量文件、具有大量 URL 子树的 CGI 脚本、临时信息或只想拒绝服务机器人的情况下特别有用。」 他建立了一个主题特定的邮件列表,成员们就这些文字文件的语法和结构达成了共识,将文件名称从RobotsNotWanted.txt改为简单的robots.txt,几乎所有人都同意支持它。

在接下来的近30年里,这种做法都非常有效,它都运作得相当顺利。

但这时网络已经无法再塞进硬盘,机器人也强大得多。 谷歌使用它们为其搜索引擎爬取和索引整个网络,该搜索引擎已成为网络的接口,每年为公司带来数十亿美元的收入。 Bing的爬虫也是这么做,微软将其数据库许可给其他搜索引擎和公司。 互联网文件馆使用爬虫保存网页以供后世参考。 亚马逊的爬虫爬遍网络寻找产品信息,根据最近的一起反垄断诉讼,该公司利用这些信息惩罚不在亚马逊上提供更优惠价格的卖家。 像 OpenAI 这样的 AI 公司正在爬取网络以训练大型语言模型,这些模型可能再次彻底改变我们存取和分享信息的方式。

下载、存储、组织和查询现代互联网的能力为任何公司或开发人员提供了相当于全世界积累的知识来工作。 大约在过去一年左右,像 ChatGPT 这样的 AI 产品及其背后的大型语言模型的兴起,使高质量的训练数据成为互联网最值钱的商品之一。 这导致各种互联网提供商重新考虑其服务器上数据的价值,并重新思考谁可以访问什么。 过于宽容可能会让你的网站失去所有价值; 过于严格可能会让你被忽视。 你必须不断地为新公司、新合作伙伴和新利害关系做出这样的选择。

网络爬虫种类繁多。 你可以创建完全无害的爬虫,用来检查页面链接是否有效; 也可以打造更具争议的爬虫,从网络上收集所有可以找到的电子邮件地址或电话号码。 但最常见、也最受争议的,是简单的网络爬虫。 它的任务是尽可能找到并下载整个网络的信息。

网络爬虫通常相当简单。 它们从知名网站开始,例如CNN、维基百科或政府网站等。 (如果你运行的是通用搜索引擎,你将从不同主题的大量高质量网域开始; 如果你只关注体育或汽车,你只需从汽车网站开始。 )爬虫会下载第一个页面并将其储存在某个地方,然后自动点击该页面上的每个链接,下载所有链接,再点击每个新页面的所有链接,以此方式扩展到整个网络。 如果拥有足够的时间和运算资源,爬虫最终会找到并下载数十亿个网页。

谷歌 在 2019 年估计,超过 5 亿个网站都拥有一个 robots.txt 页面,用于规定爬虫可以访问哪些内容。 这些页面的结构大致相同:首先会命名一个「用户代理」,用来指爬虫向服务器自我识别时使用的名称。 例如,谷歌 的用户代理是 谷歌bot; 亚马逊的是 Amazonbot; Bing的是 Bingbot; OpenAI 的是 GPTBot。 Pinterest、LinkedIn、推特 和许多其他网站和服务也有自己的爬虫,并非所有爬虫都会在每个页面上提及。 (维基百科和 Facebook 是机器人记录特别详尽的两个平台。 )在这些名字下方,robots.txt 页面会列出特定用户代理不允许访问的网站部分或页面,以及允许访问的特定例外。 如果一行写着「Disallow: /」,则完全不欢迎爬虫。

对于大多数人来说,服务器超载已经很久没成为真正的问题了。 「如今,人们通常不再关注网站上使用的资源,而更多地关注个人偏好,」谷歌 搜索倡导者约翰·穆勒(John Mueller)说,「你想要抓取什么并建立索引等等?」

历史上,大多数网站所有者需要回答最大的问题是是否允许 谷歌bot 爬取他们的网站。 取舍相当简单:如果 谷歌 可以爬取你的页面,它就可以将其索引并显示在搜索结果中。 任何你想在 谷歌 上搜索得到的页面,都必须让 谷歌bot 看见。 (谷歌实际上如何显示该页面,以及在搜索结果的哪里显示该页面又是另一个故事。 )问题是,您是否愿意让 谷歌 消耗一些你的带宽并下载你的网站拷贝以换取搜索带来的可见性。

对于大多数网站来说,这是一个简单的交易。 「谷歌 是我们最重要的爬虫」,Medium 首席首席执行官汤尼. 史托布勒拜(Tony Stubblebine)说。 谷歌 可以下载所有 Medium 的页面,作为交换,我们获得了大量的流量。 这是双赢的局面。 每个人都这么认为。」 这是 谷歌 与整个互联网达成的协议,将流量引入其他网站,同时在搜索结果中销售广告。 从各方面来说,谷歌一直是robots.txt的良好公民。 「几乎所有知名搜索引擎都遵守它」,谷歌 的穆勒说,「他们很高兴能够爬取网络,但他们不想因此惹恼人们…… 这只会让每个人的生活更轻松。」

不过,在大约一年前,人工智能的崛起颠覆这种平衡。 对于许多出版商和平台来说,让他们的资料被爬取用于训练资料,感觉不再像交易,更像是窃取。 「我们很快发现与 AI 公司合作的结果是」,史托布勒拜说,「不仅没有价值交换,我们实际上什么也得不到。」 去年秋天,当史托布勒拜宣布 Medium 将禁止AI爬虫时,他写道:「AI 公司一直在掠夺作者的价值,然后用来向网络读者推送垃圾邮件。」

去年,大部分媒体行业都回应了史托布勒拜的观点。 「我们不认为当前未经BBC允许而进行的『抓取』 BBC 资料以训练生成式 AI 模型的行为符合公共利益」,BBC 国家事务总监罗德里·塔尔凡·戴维斯(Rhodri Talfan Davies)去年秋天宣布,BBC 也将禁止OpenAI的爬虫「纽约时报」也在几个月后屏蔽了 GPTBot,然后才对 OpenAI 提起诉讼,指控 OpenAI 的模型「 是通过复制和使用数百万份《时代周刊》的版权新闻文章、深度调查、观点文章、评论、指南等资料建造的“。 路透社新闻应用程序编辑班·威尔士(Ben Welsh)的一项研究发现,在接受调查的1,156家出版商中,有606家在他们的robots.txt文件中屏蔽了GPTBot。

不仅是出版商,亚马逊、Facebook、Pinterest、WikiHow、WebMD 等许多平台也明确禁止GPTBot存取部分或全部网站。 在大多数这些robots.txt页面上,OpenAI的GPTBot是唯一明确且完全不允许的爬虫。 但是还有很多其他专门针对人工智能的爬虫开始爬取网络,例如 Anthropic 的 anthropic-ai 和谷歌的新型 谷歌-Extended。 根据去年 Originality.AI 的一项研究,网络上排名前1,000个网站中有306个屏蔽了GPTBot,但只有85个屏蔽了谷歌-Extended,28个屏蔽了anthropic-ai。

还有一些爬虫既用于网络搜索,也用于人工智能。 CCBot 由组织 Common Crawl 运行,用于搜索引擎目的,但其数据也由 OpenAI、谷歌等公司用于训练其模型。 微软的Bing爬虫既是搜索爬虫,也是人工智能爬虫。 这些只是会自我辨识的爬虫,还有许多其他的爬虫会相对隐蔽地运行,使得它们很难被阻止,甚至在其他网络流量中难以发现。 对于任何足够受欢迎的网站来说,找到一个隐秘的爬虫就像大海捞针一样。

在很大程度上,GPTBot成为robots.txt的主要反派,是因为OpenAI让这种情况发生了。 该公司发布并推广了一个页面,介绍如何阻止 GPTBot,并构立了爬虫程序,每次接近网站时都会大声地辨识自己。 当然,它是在训练使其如此强大的基础模型之后才这样做,而且只是在它成为科技生态系统的重要组成部分之后才这样做。 但 OpenAI 的首席战略长杰森·权(Jason Kwon)说,这正是重点所在。 「我们是生态系统中的一员,」他说,「如果你想以开放的方式参与这个生态系统,那么这就是每个人都感兴趣的互惠交易。」 他表示,如果没有这种交易,网络就会开始萎缩,封闭,这对OpenAI和所有人来说都是不好的。 「我们做这一切都是为了让网络保持开放。」

默认情况下,机器人排除协议一直都是宽松的。 它和30年前的柯斯特一样,认为大多数机器人都是好的,是由好人制造的,因此默认允许它们。 总而言之,这是正确的决定。 「我认为互联网本质上是一种社会生物,」OpenAI 的权说,「这种持续了几十年的握手似乎确实奏效了。」 他表示,OpenAI维护该协议的举措包括让ChatGPT对大多数用户免费使用,进而将价值回馈给用户,并尊重robots的规则。

但是robots.txt不是正式的法律文件──在它创建后的 30 年里,它仍然依赖于所有参与方的善意。 你在robots.txt页面上禁止爬虫就像在树屋上贴了一张「禁止女生入内」的标志一样──它传送了一个消息,但它在法庭上站不住脚。 任何想忽略 robots.txt 的爬虫都可以这样做,几乎不用担心后果。 (不过,网络抓取通常有一些法律先例,尽管这可能很复杂,而且大多数都允许抓取和爬取。 ) 例如,互联网文件馆在 2017 年宣布不再遵守 robots.txt 的规则。 网际网络数据库 Wayback Machine 的主任马克·格林汉(Mark Graham)当时写道「随着时间的推移,我们观察到面向搜索引擎爬虫的 robots.txt 档不一定能满足我们存档的目的。」 就这样,事情发生了。

随着人工智能公司不断增多,其爬虫变得更加肆无忌惮,任何想退出或等待人工智能接管的人必须参加一场无休止的「打地鼠」游戏。 他们必须逐个阻止每个机器人和爬虫 (如果这甚至可能的话),同时也要考虑到副作用。 正如谷歌和其他公司预测的那样,如果人工智能真的是搜索的未来,那么阻止人工智能爬虫可能是一场短期胜利,但却是长期灾难。

双方都有人认为我们需要更好、更强大、更严格的工具来管理爬虫。 他们认为,钱投入太多,新的不受监管的使用案例太多,仅仅依靠每个人同意做正确的事是不够的。 「虽然许多参与者都制定了一些规则来规范他们使用爬虫的行为,」两位科技律师在 2019 年关于网络爬虫合法性的论文中写道,「但总体而言之,这些规则太弱,追究他们的责任太困难。」

一些出版商希望对被爬取的内容及其用途拥有更详细的控制权,而不像robots.txt的一刀切式「是」或「否」权限。 谷歌几年前曾努力将机器人排除协议正式化,也试图淡化robots.txt的重要性,理由是它是一个旧标准,而且太多网站都没有关注它。 「我们认识到现有的网络出版商控制权是在新的 AI 和研究用例出现之前开发的,」谷歌信任副总裁丹妮尔·罗曼(Danielle Romain)去年写道。 「我们认为,网络和 AI 社群是时候探索其他机器可读的方法,让网络出版商在新的 AI 和研究用例中拥有更多选择和控制权。」

即使人工智能公司在如何构建和训练模型方面面临监管和法律问题,这些模型仍在不断改进,新公司似乎每天都在出现。 大小网站都面临着一个选择:屈服于人工智能革命,还是坚守阵地。 对于那些选择退出的人来说,他们最强大的武器是一份由网络上最早、最乐观的一些真正信徒在三十年前达成的一项协议。 他们相信互联网是一个美好的地方,充满好人,他们最希望互联网成为一件好事。 在这个世界上,在这个互联网上,用一个文字文件解释你的愿望就足够了。 现在,随着人工智能再次重塑互联网的文化和经济,一个简单的纯文字文件看起来有点过时了。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论