关于wordpress:如何阻止搜索引擎抓取-WordPress-网站

7次阅读

共计 5363 个字符,预计需要花费 14 分钟才能阅读完成。

搜索引擎索引是搜索引擎(例如 Google、Bing 或 Yahoo)发现网页并将其增加到其数据库的过程。而后,当用户在搜索引擎中输出查问时,这些数据库将用于为搜寻后果提供反对。

当搜索引擎抓取网络时,它会跟踪从一个页面到另一个页面的链接,并对它遇到的每个页面上的内容编制索引。当它为页面编制索引时,它会解决内容以理解该页面的内容以及它在搜寻后果中的排名形式。这个过程被称为“索引 ”或“ 匍匐和索引”。

当搜索引擎索引一个页面时,它会思考各种因素,例如页面上的文本、页面上的图像和视频、HTML 代码的构造以及指向该页面的链接。它应用此信息来确定页面的相关性和权威性,以及它在搜寻后果中的排名形式。

搜索引擎索引是一个继续的过程,因为搜索引擎不断更新他们的数据库以确保他们领有最新的信息。这一点很重要,因为网络在一直变动,新页面被创立,旧页面被更新或删除。

进步您的网站在搜索引擎后果中的排名的一个关键因素是通过称为搜索引擎优化(SEO) 的技术针对搜索引擎优化您的页面。通过针对搜索引擎优化您的页面,您能够减少您的页面被编入索引并在搜寻后果中排名更高的可能性。

为什么要阻止搜索引擎抓取 WordPress 网站?

有人想要阻止搜索引擎抓取 WordPress 网站的起因可能有多种。以下是一些可能的起因:

  1. 开发和测试:如果一个网站正在开发或测试中,它可能还没有筹备好供公众应用。在这种状况下,网站所有者可能心愿在网站筹备好启动之前阻止搜索引擎抓取该网站。
  2. 隐衷和平安:某些网站可能蕴含不应公开拜访的敏感信息。在这种状况下,站点所有者可能心愿阻止搜索引擎抓取站点以爱护信息的隐衷和平安。
  3. 流量治理:某些网站的可用资源数量可能无限,例如带宽或服务器容量。在这种状况下,站点所有者可能心愿阻止搜索引擎抓取站点以节俭资源和治理流量。
  4. 反复内容:如果一个网站在多个域上运行,可能会导致反复内容问题,这会对搜索引擎优化产生负面影响。在这种状况下,站点所有者可能心愿阻止搜索引擎抓取反复站点以避免出现此问题。
  5. 保护模式:在对网站进行保护时,网站所有者可能心愿阻止搜索引擎抓取网站以防止向访问者返回 404 谬误。
  6. 暂存站点:如果站点所有者想要在将更改公布到实时站点之前在暂存站点上测试新的更改或更新,他们可能心愿阻止搜索引擎抓取暂存站点以防止其实时站点的搜寻呈现任何混同或问题引擎排名。

值得注意的是,尽管能够阻止搜索引擎抓取 WordPress 网站,但不倡议长期这样做。搜索引擎可见性对于减少网站流量很重要,通过索引放弃更新对于搜索引擎优化至关重要。

阻止搜索引擎抓取 WordPress 网站的办法

有几种办法可用于阻止搜索引擎抓取 WordPress 站点:

  1. 应用插件:有几个 WordPress 插件,例如 Yoast SEO 或 All in One SEO Pack,它们容许您向页面增加“noindex”元标记。这通知搜索引擎不要索引该页面,从而无效地避免它们抓取该网站。
  2. 应用 robots.txt 文件:robots.txt 文件是一个位于网站根目录的文件,它通知搜索引擎他们不应抓取网站的哪些页面或局部。您能够应用 robots.txt 文件来阻止搜索引擎抓取您的整个网站,或仅抓取特定页面或局部。
  3. 应用 .htaccess 文件:.htaccess 文件是 Apache 网络服务器的配置文件,许多托管服务提供商都应用它。您能够应用 .htaccess 文件通过增加几行代码来阻止搜索引擎抓取您的站点。
  4. 密码保护:应用插件或托管服务提供商的内置性能对您的网站进行密码保护也能够避免搜索引擎抓取您的网站,因为它们将无法访问受爱护的页面。
  5. 保护模式:WordPress 具备内置的保护模式性能,能够通过 wp-config.php 文件激活。这将向访问者显示一个保护页面,并避免搜索引擎在保护期间抓取该站点。
  6. 暂存站点:许多托管服务提供商都提供暂存性能,容许您创立实时站点的正本以进行测试和开发。搜索引擎将无奈抓取暂存站点,因为它通常被阻止编入索引。

让咱们看一下所有办法的更多细节。

1 应用插件

应用插件阻止搜索引擎抓取 WordPress 网站是一种风行的办法,因为它绝对容易设置并且不须要任何技术常识。有几个可用的 WordPress 插件容许您将“noindex”元标记增加到您的页面,例如 Yoast SEO 或 All in One SEO Pack。

当您应用插件增加“noindex”元标记时,它会通知搜索引擎不要为该页面编制索引,从而无效地避免它们抓取该网站。这意味着该页面不会呈现在搜索引擎后果中,搜索引擎也不会破费资源来抓取该页面。

要应用插件阻止搜索引擎抓取 WordPress 网站,您首先须要装置并激活插件。激活插件后,您通常能够从 WordPress 仪表板拜访插件的设置。从那里,您能够抉择要阻止搜索引擎抓取的页面或帖子,并向它们增加“noindex”元标记。

值得注意的是,一些插件还容许您增加“nofollow”元标记,通知搜索引擎不要跟踪页面上的链接。如果您想阻止搜索引擎抓取您的站点,但仍心愿容许用户拜访该页面,这将很有用。

此外,一些插件还能够让您通过将“noindex”元标记增加到相应的局部或页面来阻止搜索引擎抓取您网站的某些局部或整个网站。

请务必记住,应用插件阻止搜索引擎抓取 WordPress 网站是一种长期解决方案,不应长期应用,因为它会影响网站的可见性和流量。如果您想对您的网站进行更改,您能够改用保护模式或暂存站点。

2 应用 robots.txt 文件

应用 robots.txt 文件阻止搜索引擎抓取 WordPress 站点是一种基于网络机器人(也称为“爬虫”或“蜘蛛”)规范的办法。robots.txt 文件是一个位于网站根目录的文件,它通知搜索引擎他们不应抓取网站的哪些页面或局部。通过创立 robots.txt 文件并将其上传到您的网站,您能够避免搜索引擎抓取您网站的某些页面或局部。

要创立 robots.txt 文件,您能够应用简略的文本编辑器,如记事本或 TextEdit。该文件应以用户代理行结尾,该行通知搜索引擎应阻止哪个爬虫。例如,要阻止所有搜索引擎,您能够应用“User-agent: *”。

接下来,您能够指定要阻止的网站页面或局部。这是通过应用“Disallow”指令,后跟要阻止的页面或局部的 URL 来实现的。例如,要阻止特定页面,您能够应用“Disallow: /page-to-block/”。要阻止整个目录,您能够应用“Disallow: /directory-to-block/”。

创立 robots.txt 文件后,您须要将其上传到网站的根目录。根目录的地位取决于您的托管服务提供商,但通常与您的主页位于同一目录。

值得注意的是,尽管 robots.txt 文件能够阻止搜索引擎抓取您的网站,但这并不是十拿九稳的办法,因为某些抓取工具可能会疏忽该文件。此外,请务必记住,robots.txt 文件不会阻止搜索引擎发现网站的存在。

此外,请记住,如果您应用 robots.txt 阻止整个网站,它将阻止您的网站被编入索引并呈现在搜索引擎后果中,因而您的网站将不会从搜索引擎取得任何流量。

另外值得注意的是,您能够通过拜访 URL“https://www.example.com/robots.txt”并将“example.com”替换为任何网站的域名来查看任何网站的 robots.txt 文件。

3 应用 .htaccess 文件

应用 .htaccess 文件阻止搜索引擎抓取 WordPress 网站是一种波及编辑服务器上的 .htaccess 文件以增加特定规定的办法,这些规定将阻止搜索引擎抓取您网站的某些页面或局部。.htaccess 文件是一个配置文件,位于您网站的根目录中,管制网站行为的各个方面,包含重定向、安全性和访问控制。

上面是一个示例,阐明如何应用 .htaccess 文件来阻止搜索引擎抓取 WordPress 网站上的特定页面:

  1. 通过 FTP 或虚拟主机控制面板中的文件管理器拜访您网站的根目录。
  2. 查找 .htaccess 文件,如果不存在,您能够创立一个同名的新文件。
  3. 在记事本或 TextEdit 等文本编辑器中关上 .htaccess 文件。
  4. 在文件开端增加以下代码:
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|yahoo) [NC]
RewriteRule ^page-to-block/$ - [R=404,L]
</IfModule>

此代码将阻止所有次要搜索引擎抓取带有“page-to-block”URL 的页面。您能够更改 URL 以匹配您要阻止的特定页面。

  1. 保留 .htaccess 文件并将其上传回您的服务器。

值得注意的是,该办法会阻止搜索引擎抓取指定的页面,但不会阻止搜索引擎晓得该页面的存在。此外,此办法基于以下假如:搜索引擎爬虫将恪守 .htaccess 文件中指定的规定,但状况可能并非总是如此。

此外,编辑 .htaccess 文件时肯定要小心,因为代码中的谬误可能会导致您的网站无法访问。倡议在进行任何更改之前保留原始 .htaccess 文件的备份。

4 密码保护

应用密码保护来阻止搜索引擎抓取 WordPress 网站是一种波及向网站的某些页面或局部增加明码的办法。这意味着只有晓得明码的用户能力拜访受爱护的页面,而搜索引擎将无奈抓取它们。

有几种密码保护 WordPress 网站页面或局部的办法:

  1. 应用插件:有几个可用的 WordPress 插件容许您应用密码保护页面或网站局部,例如密码保护或密码保护类别。这些插件容许您为特定页面或帖子或整个类别设置明码。
  2. 应用 .htaccess 文件:您能够应用 .htaccess 文件对您网站上的特定目录进行密码保护。此办法更具技术性,因为它须要编辑服务器上的 .htaccess 文件,但如果您想用密码保护整个目录,而不仅仅是单个页面或帖子,它会很有用。
  3. 应用 cPanel:一些网络托管服务提供商还提供了一种在 cPanel 中应用密码保护目录的办法。如果您想用密码保护整个目录并且您不相熟 .htaccess 文件编辑,此办法会很有用。

一旦您用密码保护了网站的页面或局部,搜索引擎将无奈抓取它。然而,值得注意的是,此办法不会阻止搜索引擎晓得该页面的存在。此外,重要的是要记住,用密码保护您网站的页面或局部也会阻止用户拜访它,因而它应该只用于对您网站的可见性或流量不重要的页面或局部。

此外,应用密码保护不是一个长期的解决方案,只有在长期须要阻止拜访您的站点或站点的特定局部时才应应用此办法,例如在保护或测试期间。

5 保护模式

WordPress 有一个内置的保护模式性能,容许您在执行更新、保护或进行更改时临时使站点离线。此性能通常用于向访问者显示“行将推出”或“保护模式”页面,同时仍容许您和其余登录用户拜访该站点。

要激活 WordPress 中的内置保护模式,您能够依照以下步骤操作:

  1. 转到 WordPress 仪表板并导航到“设置”菜单。
  2. 抉择“保护模式”选项。
  3. 选中“启用保护模式”复选框。
  4. 单击“保留更改”按钮。

启用保护模式后,访问者将看到“行将推出”或“保护模式”页面,而您和其余登录用户将能够齐全拜访该站点。这也将阻止搜索引擎在网站处于保护模式时抓取该网站。

您还能够装置一个插件,如“由 SeedProd 提供的行将推出的页面和保护模式”,它容许您自定义行将推出的页面,还容许您阻止搜索引擎在网站处于保护模式时抓取该网站。

6 暂存站点

登台站点是用于测试和开发目标的实时网站的正本或复制品。它容许您在不影响实时版本的状况下在您的网站上进行更改和测试新性能。当您想要更新您的网站或进行重大更改,但不心愿访问者或搜索引擎在网站运行时看到该网站时,这将十分有用。

许多托管服务提供商提供暂存性能,让您只需点击几下即可创立实时网站的正本。这通常波及在您的主域上创立一个独自的子域或子目录,您能够在其中拜访暂存站点。创立暂存站点的过程可能因托管服务提供商而异,但通常波及几个简略的步骤,例如:

  1. 登录到您的托管帐户。
  2. 转到托管控制面板或 cPanel
  3. 查找“暂存”或“开发”局部。
  4. 从您的托管账户的网站列表中抉择您的网站。
  5. 单击“创立暂存站点”按钮。

创立暂存站点后,您将可能应用与理论站点不同的 URL 拜访它,例如“staging.yourdomain.com”。而后,您能够在暂存站点上进行更改和测试新性能,而不会影响实时版本。

请务必留神,搜索引擎将无奈抓取暂存站点,因为它通常会被阻止编入索引。这意味着暂存站点对搜索引擎不可见,也不会影响实时站点的 SEO。您还能够阻止搜索引擎应用 robots.txt 文件或应用插件来治理对您网站的拜访,例如“由 SeedProd 提供的行将推出的页面和保护模式”或“由 Yoast 提供的 WordPress SEO”,以便搜索引擎无法访问正在开发中的站点。

在暂存站点上实现更改和测试后,您能够将更改推送到实时站点。这能够通过应用您用于创立暂存站点的雷同插件或通过手动将更改上传到实时站点来实现。

登台站点是实时站点的复制品,用于在平安环境中测试和开发更改,可用于阻止搜索引擎抓取站点,并容许您在更改上线之前对其进行测试。许多托管服务提供商将此性能作为内置服务提供。

正文完
 0