什么是网页抓取

网页抓取是使用机器人从网站中提取内容和数据的过程。

与仅复制屏幕上显示的像素的屏幕抓取不同,网络抓取提取底层 HTML 代码,并使用它提取存储在数据库中的数据。然后,抓取工具可以在其他地方复制整个网站内容。

网络抓取用于依赖数据收集的各种数字业务。合法用例包括:

搜索引擎机器人抓取网站,分析其内容,然后对其进行排名。

价格比较网站部署机器人以自动获取联盟卖家网站的价格和产品描述。

市场研究公司使用抓取工具从论坛和社交媒体中提取数据(例如,用于情绪分析)。

网络抓取也被用于非法目的,包括压低价格和窃取受版权保护的内容。被刮刀攻击的在线实体可能会遭受严重的经济损失,特别是如果它是一个强烈依赖竞争性定价模型或内容分发交易的企业。推荐阅读:《网站运营应该怎样抓取用户的注意力》

  抓取工具和机器人

网络抓取工具是软件(即机器人),用于筛选数据库和提取信息。使用了多种机器人类型,其中许多是完全可定制的:

  •   识别独特的 HTML 站点结构
  •   提取和转换内容
  •   存储抓取的数据
  •   从 API 中提取数据

由于所有抓取机器人都有相同的目的——访问站点数据——很难区分合法机器人和恶意机器人。

也就是说,几个关键差异有助于区分两者。

合法的机器人被识别为它们所针对的组织。例如,Googlebot 在其 HTTP 标头中将自己标识为属于 Google。相反,恶意机器人通过创建虚假的 HTTP 用户代理来冒充合法流量。

合法的机器人遵守网站的 robots.txt 文件,该文件列出了机器人可以访问的页面和不能访问的页面。另一方面,恶意抓取工具会在不考虑网站运营商允许的情况下抓取网站。

运行网络爬虫机器人所需的资源 是巨大的——以至于合法的爬虫机器人运营商大量投资于服务器来处理被提取的大量数据。

缺乏这种预算的犯罪者通常会使用 僵尸网络——地理上分散的计算机,感染相同的恶意软件并从一个中心位置进行控制。个别僵尸网络计算机所有者不知道他们的参与。受感染系统的综合力量使犯罪者能够大规模抓取许多不同的网站。推荐阅读:《网站描述没有被百度抓取是什么原因?》

  恶意网页抓取示例

在未经网站所有者许可的情况下提取数据时,网络抓取被认为是恶意的。两个最常见的用例是价格抓取和内容盗窃。

  价格抓取

在价格抓取中,犯罪者通常使用僵尸网络启动抓取机器人来检查竞争业务数据库。目标是获取定价信息、削弱竞争对手并促进销售。

攻击经常发生在产品易于比较且价格在购买决策中起着重要作用的行业。价格爬取的受害者可能包括旅行社、售票员和在线电子产品供应商。

例如,以相对一致的价格销售类似产品的智能手机电子交易商经常成为目标。为了保持竞争力,他们有动力提供尽可能最优惠的价格,因为客户通常会选择成本最低的产品。为了获得优势,供应商可以使用机器人不断抓取竞争对手的网站,并立即相应地更新自己的价格。

对于肇事者来说,成功的价格抓取可能会导致他们的报价在比较网站上突出显示 – 客户将其用于研究和购买。同时,被抓取的网站经常会遭受客户和收入损失。

  内容抓取

内容抓取包括从给定站点进行的大规模内容窃取。典型的目标包括在线产品目录和依赖数字内容推动业务的网站。对于这些企业来说,内容抓取攻击可能是毁灭性的。

例如,在线本地企业目录投入大量时间、金钱和精力来构建其数据库内容。刮取可能导致它全部被释放到野外,用于垃圾邮件活动或转售给竞争对手。这些事件中的任何一个都可能影响企业的底线及其日常运营。

以下内容摘自Craigslist 提交的 投诉,详细介绍了其在内容抓取方面的经验。它强调了这种做法的破坏性:

“[内容抓取服务] 每天都会向 craigslist 发送大量数字机器人,以复制和下载数百万 craigslist 用户广告的全文。[该服务] 然后不分青红皂白地将这些盗用的列表——通过其所谓的“数据馈送”——提供给任何想要出于任何目的使用它们的公司。一些这样的‘客户’每月为这些内容支付高达 20,000 美元……”

根据索赔,抓取的数据用于垃圾邮件和电子邮件欺诈,以及其他活动:

“[被告] 然后从该数据库中获取 craigslist 用户的联系信息,并每天向从 craigslist 服务器获取的地址发送数千封电子邮件…… [消息] 在垃圾邮件正文中包含误导性的主题行和内容,旨在诱使 craigslist 用户从使用 craigslist 的服务切换到使用 [捍卫者的] 服务……”

  网页抓取保护

恶意爬虫程序日益复杂,使得一些常见的安全措施变得无效。例如, 无头浏览器机器人 可以伪装成人类,因为它们在大多数缓解解决方案的雷达下飞行。

为了对抗恶意机器人操作员的进步,Imperva 使用精细的流量分析。它确保进入您网站的所有流量,无论是人和机器人,都是完全合法的。

该过程涉及因素的交叉验证,包括:

HTML 指纹– 过滤过程从对 HTML 标头的细粒度检查开始。这些可以提供有关访客是人还是机器人,恶意还是安全的线索。将标头签名与包含超过 1000 万个已知变体的不断更新的数据库进行比较。

IP 声誉 – 我们从针对客户的所有攻击中收集 IP 数据。来自曾被用于攻击的 IP 地址的访问会受到怀疑,并且更有可能受到进一步审查。

行为分析 – 跟踪访问者与网站互动的方式可以揭示异常行为模式,例如可疑的攻击性请求率和不合逻辑的浏览模式。这有助于识别伪装成人类访客的机器人。

渐进式挑战 ——我们使用一系列挑战,包括 cookie 支持和 JavaScript 执行,来过滤机器人并最大程度地减少误报。作为最后的手段,验证码挑战可以淘汰试图将自己伪装成人类的机器人。推荐相关阅读:《网站出现抓取异常的原因是什么》

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注