困惑被指控抓取明确阻止人工智能抓取的网站
        据互联网基础设施提供商 Cloudflare 称,人工智能初创公司 Perplexity 正在从明确表示不想被抓取的网站中抓取和抓取内容。

         周一,Cloudflare发表了研究报告说它观察到这家人工智能初创公司忽略了块并隐藏了它的抓取和抓取活动。 这家网络基础设施巨头指责 Perplexity 在试图抓取网页时掩盖了其身份,“试图规避网站的偏好”。Cloudflare 的研究人员写道。 像 Perplexity 提供的

         AI 产品依赖于从互联网上吞噬大量数据,而 AI 初创公司长期以来一直在未经许可的情况下多次从互联网上抓取文本、图像和视频,以使其产品正常工作。 最近,网站试图通过使用网络标准Robots.txt文件进行反击,该文件告诉搜索引擎和人工智能公司哪些页面可以被索引,哪些不应该被索引,努力好坏参半到目前为止的结果。 据 Cloudflare 称,

         Perplexity 似乎愿意通过更改其机器人的“用户代理”来规避这些障碍,这意味着通过设备和版本类型识别网站访问者的信号,以及更改其自治系统网络 (ASN),本质上是识别互联网上大型网络的数字。

         “每天在数万个域和数百万个请求中观察到这种活动。 我们能够对此进行指纹识别使用机器学习和网络信号相结合的爬虫,“Cloudflare 的帖子中写道。

         Perplexity 发言人 Jesse Dwyer 将 Cloudflare 的博客文章斥为“推销”,并在给 TechCrunch 的一封电子邮件中补充说,帖子中的屏幕截图“显示没有访问任何内容”。 在一封后续电子邮件中,Dwyer 声称 Cloudflare 博客中提到的机器人“甚至不是我们的”。

         Cloudflare 表示,在客户抱怨 Perplexity 正在爬行和抓取他们的网站,即使在他们在机器人文件上添加了规则并专门阻止 Perplexity 的已知机器人之后。 Cloudflare 表示,随后进行了测试以检查并确认 Perplexity 正在规避这些块。

         Cloudflare 表示:“我们观察到 Perplexity 不仅使用了他们声明的用户代理,还使用了一个通用浏览器,旨在在他们声明的爬虫被阻止时在 macOS 上冒充 Google Chrome。

         该公司还表示,它已经将 Perplexity 的机器人从其经过验证的列表中删除,并添加了新技术来阻止它们。

         Cloudflare 最近对 AI 爬虫采取了公开立场。 上个月,Cloudflare宣布推出一个市场允许网站所有者和发布者向访问其网站的人工智能抓取工具收费。 Cloudflare 首席执行官马修·普林斯 (Matthew Prince) 当时敲响了警钟,称人工智能正在打破互联网的商业模式,尤其是出版商。 去年,Cloudflare 还推出了免费工具以防止机器人抓取网站来训练人工智能。

         这并不是 Perplexity 第一次被指控未经授权抓取。

         去年,新闻媒体,如《连线》杂志,声称Perplexity正在抄袭他们的内容。 几周后,Perplexity 的首席执行官 Aravind Srinivas在 Disrupt 2024 会议上接受 TechCrunch 的 Devin Coldewey 采访时,当被要求提供公司对抄袭的定义时,无法立即回答。