ic_ee

如何消除网站上的机器人

可能听说过互联网上的机器人,但却不清楚它们是什么以及它们的作用。简单来说,互联网机器人、网络机器人或简单的机器人,是一种在互联网上自动运行各种任务的软件应用。这些任务可以是好的,也可以是坏的,这取决于创建者。好的机器人通常用于协助自动化任务,如网站扫描或数据收集,通常用于使我们的生活更轻松。然而,坏的机器人是一个麻烦,在网络世界中被用于恶意目的。在Imperva Incapsula关于机器人流量的年度报告中,他们发现近60%的机器人流量可以归结为坏机器人,下面hostgator美国空间商为您详细介绍一下。

坏机器人被用于黑客、垃圾邮件、间谍、干扰和损害各种规模的网站。如果在网上有任何形式的存在,有可能已经和这些烦人的机器人打过交道。处理机器人的方法有很多,今天,机器人占了互联网流量的近一半(准确的说是48.5%),所以有可能无法完全避免它们,但有了我们的帮助,就不会经常被它们困扰了。有两种解决方案来摆脱网站上的机器人,一种是困难方式,一种是简单方式,首先从困难方式开始。

困难方式

为什么困难?这个方案需要付出很多努力,很多知识,以及很多时间。如果有与机器人垃圾邮件网站相关的问题,需要做的第一件事是找出他们从哪里来。这一切都会变得非常技术化,所以尽量尝试和遵循最好的。如果迷路了,不要担心,简单的方法就在后面。关于更多垃圾邮件的知识,可以阅读:在谷歌分析中如何过滤垃圾邮件的三种方法

要找出机器人的来源并阻止它们,需要机器人发送的IP地址或它们的用户代理字符串。IP地址是一个独特的标识符,通过一串用句号分隔的数字来识别互联网上的每一台计算机。另一方面,用户代理字符串是实际程序的名称。例如,谷歌搜索引擎机器人的名字是Googlebot/2.1。

要找到这些东西中的任何一个,需要访问原始网络日志。在hostgator美国虚拟主机面板上,可以找到原始网络日志。这些文件通常相当大,需要通过存档器解压缩。可以在网络上或通过应用程序商店找到许多版本的存档器。一旦文件被解压,用ASCII文本编辑器(如记事本)打开它,也可以在网上找到。

现在,必须扫描网络文件,试图找到想要阻止的机器人。一些有用的标识符是知道僵尸试图访问网站的时间或它与之交互的页面。有了这些信息中的一个或两个,应该能够追踪到IP地址或用户代理字符串。找到这些信息中任何一条/两条,把它们记下来,为下一步做准备。

记住,这个解决方案可能非常不完善,可能无法得到想要的最终结果。下一步是有关屏蔽找到的IP地址或用户代理字符串,但这可能会对公司产生反作用。仅仅因为机器人来自一个IP地址,并不意味着他们下一次攻击时会来自同一个IP地址。通过屏蔽随机的IP地址,很可能会屏蔽整个互联网服务提供商(ISP)以及所有使用该ISP的客户。屏蔽特定的用户代理字符串也有同样的风险。黑客们很聪明,他们经常会用大家都在使用的浏览器或软件来命名他们的机器人。当试图阻止一个名为 “Safari ”的机器人,并在同一过程中阻止每个使用Safari网络浏览器的人时,这就变得很麻烦。如果不确定自己在做什么,最好使用下面的简单方式。

以上就是hostgator美国空间商为您讲解的知识,想知道更多的知识,请看下次的讲解。