SEO蜘蛛常见问题解答

What do Indexable & Non-Indexable mean?

在抓取发现的每个URL被归类为“可转位”或“不可索引”。

“可转位”是指能够被抓取的URL,具有“200”状态代码进行响应,并允许被编入索引。

“非转位”是不能被抓取的URL,不与“200”的状态代码做出响应,或者不具有要被索引的指令。

每一个非可转位的网址包含与之相关的“可转位状态”,从而迅速解释了为什么它不是可转位。

不可索引可以包括如下网址 -

  • robots.txt阻止的。
  • 没有反应。
  • 重定向(3XX,元刷新,或JavaScript重定向)。
  • 客户端错误(4XX)。
  • 服务器错误(5XX)。
  • NOINDEX(或 '无')。
  • canonicalised。
  • nofollow的。
正规澳门赌场蜘蛛会考虑元机器人,X机器人标签,规范链接元件和相对=“规范” HTTP标头用于指示和礼服信息。 这是很常见的部位有一个自我引用以各种理由元刷新,通常这并不影响网页的索引。然而,应作进一步调查,因为它重定向到自身,这就是为什么它被标记为“不可索引”。

To stop self referencing meta refresh URLs being considered as 'non-indexable', untick the 'Respect Self Referencing Meta Refresh' 组态 under 'Configuration > Spider > Advanced'.

回到顶部

你有一个API?

总之,没有。正规澳门赌场蜘蛛您下载,安装和运行在本地的桌面应用程序。所以没有API。

有一个 命令行界面 以编程方式使用该工具。还有一个 调度 功能内置到SEO蜘蛛。

回到顶部

为什么是GUI文本乱码?

这是由本地字体问题引发的,通常是由于安装重复的Arial字体的字体引起的。

To investigate open the "FontBook" application. Go to "Edit->Look for Enabled Duplicates..." to remove any duplicates. After resolving these try restarting the SEO Spider. If you still have an issue, go back to FontBook and take a look at your Arial fonts, are t这里 any messages about them needing repairing? If so, repair them and restart the SEO蜘蛛. If you still have an issue go to "File->Rest要么e St和ard Fonts...". 该 fonts that are removed by this will got into a separate folder in Font Book so you'll be able to add them back in as needed.

回到顶部

我如何保持在列表模式出口订单?

如果您希望将数据以列表模式导出它被上传相同的顺序,然后用它旁边的“上传”和“开始”按钮,出现在用户界面顶部的“导出”按钮。 maintain list order on exp要么t

在出口数据将会以相同的顺序,并包括所有的原始上传相关的确切网址,包括重复或进行任何修复起坐。

回到顶部

为什么允许用户访问我的谷歌帐户时,我收到一个错误?

让你的谷歌账户的SEO蜘蛛的访问后,你应该被重定向到看起来像这样的画面: 但是,如果您收到类似这样的错误: 有几件事情要检查:

  • 有你的机器上运行防止SEO蜘蛛听了URL中指定的端口上的任何安全软件?端口为localhost后的数字:在地址栏中,63212在上面的屏幕截图。
  • 在您的浏览器发送请求,用于本地主机,一个代理呢?你有时可以告诉这个如果失败屏幕中提到的代理服务器的名称,如鱿鱼为例。

回到顶部

为什么蜘蛛显示在任务栏,但不是在屏幕上?

蜘蛛正在打开关闭屏幕,可能是由于其最近已改变的多监视器设置。对移动蜘蛛活动监视器使用Alt + Tab选择蜘蛛,然后保持在窗口键,并使用箭头键将蜘蛛窗口移动到视图中。

回到顶部

请问SEO蜘蛛使用的IP地址和端口?

正规澳门赌场蜘蛛从它被安装在机器上运行,所以IP地址很简单,就是本机/网络。你可以找出这是通过键入“IP地址”成什么样 谷歌.

用于连接本地端口将从短暂的范围。端口被连接到通常为80端口,则默认http端口或端口443,默认HTTPS端口。其他端口将被连接到如果网站被抓取或任何其链接指定不同的端口。例如:http://www.example.com:8080/home.html

回到顶部

有多少用户被允许使用一个许可证?

许可证是按用户个人。单个许可密钥是单个分配的用户。如果你从你的团队五人希望使用的搜索引擎蜘蛛,你将需要5个用户许可证。

折扣可用于5个或更多用户,如图 我们的定价.

请参阅第3节我们 条款和条件 完整的细节。

回到顶部

为什么我的许可证密钥说它是无效的?

如果搜索引擎蜘蛛说,你的“许可密钥无效”,那么请检查下面的许可证密钥我们提供总是工作。

许可证密钥显示在屏幕上,当你看看,与一封主题为“正规澳门赌场SEO蜘蛛许可证详细信息”发送,可随时通过登录到您的 帐户.

  • 确保您使用的是我们为您的许可证密钥提供的用户名,因为这并不总是与您的帐户的用户名,这不是您的电子邮件地址。这是迄今为止我们所看到的最常见的问题。
  • 复制和粘贴的用户名和许可密钥,他们没有设计手动输入。
  • 也请您仔细检查你已经插在“用户名”字段中所提供的“用户名”和提供“许可证密钥”,在“许可证密钥”字段。
  • 确保你没有进入 日志文件分析仪 许可进入 SEO蜘蛛.
  • 确保你没有进入 SEO蜘蛛 许可进入 日志文件分析仪.
如果您的许可证密钥仍然不能正常工作,那么请联系 支持 与细节。

回到顶部

我已经失去了我的许可或发票,如何获得一个又一个?

如果你已经失去了您的许可证密钥或发票从2014年9月起的22日,请 登录到您的帐户 检索细节。

如果你失去了你的帐号密码,然后 只需申请一个新密码 通过形式。

如果你2014年9月22日之前购买的许可证,那么请联系支持@screamingfrog.co.uk与您的用户名或您用于支付高级版电子邮件。

回到顶部

我如何购买许可证?

只需在搜索引擎蜘蛛点击“购买许可证”选项“许可证”菜单或访问我们的 购买许可证页面 直。

You can then create an 帐户 & make payment. When this is complete, you will be provided with your licence key to open up tool & remove the crawl limit. If you have just purchased a licence and have not received your licence, please check your spam / junk folder. 您可以 also view your licence(s) details 和 invoice(s) by 登录到您的帐户.

请注意,该账户登录也不过才从2014年9月22日活动的,如果你在此日期之前购买的,也将无法使用,你可以 联系我们 对于任何信息。

回到顶部

将在日志文件分析器的SEO蜘蛛许可工作?

没有, 尖叫 青蛙 SEO蜘蛛是一个单独的产品到日志文件分析器。 他们有不同的许可证,这将需要单独购买。你可以购买一个 日志文件分析仪许可证 这里。

回到顶部

你们提供批量许可采购的折扣?

是的,请参阅我们的 SEO蜘蛛许可证 关于折扣更多详细信息页面。

回到顶部

我已经购买了许可证,为什么我还没有收到呢?

如果你刚刚购买了许可证,但尚未收到您的授权,请检查您的垃圾邮件/垃圾邮件文件夹。许可证是在购买时立即发送。您还可以通过查看您的许可证的详细资料和发票(S) 登录到您的帐户。

回到顶部

为什么我的信用卡付款被拒绝?

有这个可能发生的几个原因:

  • 不正确的卡细节:仔细检查您正确填写您的信用卡资料。
  • 不正确帐单地址:请检查您所提供的支付卡的地址相匹配的帐单地址。
  • 阻止支付服务提供商:请联系您的发卡银行。正规澳门赌场没有访问失败的原因。这是很常见的发卡机构以阻止国际采购。

回到顶部

你与转销商合作?

经销商可以代表客户端的在线购买SEO蜘蛛许可证。请注意,许可的用户名自动从结账时输入的帐号名称生成。如果你需要自定义的用户名,那么请提前要求一个PayPal发票。

对于零售商来说谁是无法通过PayPal或信用卡在线购买,并与管理,如供应商的形式妨碍我们,我们将保留收取£50的管理费的权利。

回到顶部

什么是产品编号?

没有任何型号或SKU。

回到顶部

我在哪里可以得到公司的信息?

在我们的 联系方式页面.

回到顶部

我在哪里可以得到W-9​​表格信息?

正规澳门赌场是一家总部位于英国的公司,所以这是不适用的。

回到顶部

为什么不会在正规澳门赌场蜘蛛抓取我的网站?

这可能是多种原因:

  • 看的第一件事是状态码和状态在内部标签。该网站应以200状态码和“OK”响应状态。但是,如果没有,请阅读我们的指南 爬行时常见的HTTP状态代码,他们的意思,以及如何解决任何问题。
  • 该网站robots.txt封锁。在内部标签上的“状态代码”列将是一个“0”和“状态”的URL会说“robots.txt阻止的”列。您可以配置SEO蜘蛛 忽略的robots.txt under 'Configuration > Robots.txt > Settings'.
  • 该网站行为有所取决于用户代理。尝试改变 用户代理 under Configuration->HTTP Header->User Agent.
  • 该网站需要JavaScript。尝试在禁用了javascript浏览器查看的网站清除缓存后。 seo的蜘蛛不执行默认的JavaScript,但它确实有 JavaScript的渲染 functionality in the paid version of the tool. If the site is built in a JavaScript framework, 要么 has dynamic content, adjust the rendering 组态 to 'JavaScript' under 'Configuration > Spider > Rendering tab > JavaScript' to crawl it. Remember to ensure JS 和 CSS files are not blocked by robots.txt. 请参阅我们的指南 如何抓取JavaScript网站.
  • 该 site requires Cookies. Can you view the site with cookies disabled in your browser after clearing your cache? Licenced users can enable cookies by going to Configuration->Spider 和 ticking “允许Cookie” in the “Advanced” tab.
  • 在“nofollow’ attribute is present on links not being crawled. 有一个n option in Configuration->Spider under the “Basic” tab to follow ‘nofollow’ links.
  • 该页面有一个页面级“nofollow的”属性。在既可以由一个机器人元标记或设置 X机器人标签 in the HTTP header. 该se can be seen in the “Directives” tab in the “Nofollow” filter. To ign要么e the NoFollow directive go to Configuration -> Spider -> and tick "Follow Internal 'No Follow'" 和 recrawl.
  • 该网站使用框架。正规澳门赌场蜘蛛不抓取帧src属性。
  • 该 website requires an Accept-Language header (Configuration->HTTP Header add a header call 'Accept Language' with a value of 'en-gb')。
  • 内容类型头部没有指示页面是HTML。这被示出在内容列和应该是 text / html的 要么 应用/ XHTML + xml的。 JavaScript的 渲染模式 另外将检查页面内容,看是否自行指定它,例如:

回到顶部

为什么正规澳门赌场蜘蛛冻结?

这通常是由于搜索引擎蜘蛛达到其内存限制。请阅读 如何提高记忆力.

回到顶部

为什么我得到一个“连接错误”的回应?

连接错误,或连接超时是一个消息时存在如下问题:在接收到响应的。 这通常是由于网络问题或 代理服务器设置. 请检查您可以连接到互联网。如果你已经改变了搜索引擎蜘蛛的代理服务器设置(下配置,代理),请确保这些都是正确的(或者被关闭)。

回到顶部

为什么我得到一个“403禁止”错误响应?

当Web服务器拒绝访问搜索引擎蜘蛛的出于某种原因请求时发生的403个禁止状态代码。

如果发生这种情况持续,您可以看到该网站在浏览器中,它可能是Web服务器行为有所取决于用户代理。在高级版本尝试 调整所述用户代理设置 under Configuration->HTTP Header->User Agent. For example, try crawling as a bot, such as ‘谷歌bot Regular’, 要么 as a browser, such as ‘Chrome’.

如果爬网过程中出现这种情况间歇性,它可以在速度蜘蛛请求急剧的服务器页面到期。在SEO蜘蛛的高级版本,你可以 降低速度 的请求。如果你正在运行的“精简版”的版本可能会发现右键点击链接并选择重新蜘蛛会有所帮助。

回到顶部

为什么我遇到的浏览器不同的反应?

正规澳门赌场蜘蛛HTTP请求往往是一个传统的浏览器和其他工具不同,所以你有时可以体验,如果您访问的页面或使用不同的工具来检查响应比不同的反应。

seo的蜘蛛时,它发出请求,这将不会是不正确的,但可以从什么可以在别的地方经历不同,由服务器给它的响应只是报告。 一些常见的因素会导致服务器以得到不同的响应,这是在SEO蜘蛛配置是 -

  • 用户代理 - 正规澳门赌场蜘蛛使用它自己的用户代理为默认,所以做浏览器。你可以找到 用户代理配置 under ‘Configuration > HTTP Header > 用户代理’. If you adjust this to a browser user-agent (Chrome etc), you may experience a different response.
  • 饼干 - 默认正规澳门赌场蜘蛛不接受cookies(类似于谷歌)。然而,浏览器做。如果您在您的浏览器禁用cookie,你可能会看到页面没有加载了,发出会话ID到URL,或重定向到本身。您可以 '允许Cookie' under 'Configuration > Spider > Advanced'.
  • JavaScript - Browsers will execute JavaScript, and by default the SEO Spider does not. So you may experience small changes in page content, to much larger differences if the site is built 运用 a JavaScript framework, 要么 be redirected to a new location completely in a browser. Similar to 谷歌, the SEO蜘蛛 can render web pages, and crawl them after JavaScript has come into play. 您可以 turn this on, by navigating to 'Configuration > Spider > Rendering' 和 choosing 'JavaScript的渲染”。在底部的“呈现的页面”选项卡将帮助调试之间什么SEO蜘蛛可以看到,相比于浏览器的任何差异。如果您的网站使用了JavaScript框架构建,那么请阅读我们的“如何抓取JavaScript网站“指南。
  • 接受语言头 - 您的浏览器将提供一个接受语言头用你的语言。类似的谷歌bot,SEO的蜘蛛 不提供的接受语言头 在默认情况下请求。但是,您可以调整 接受语言组态 under 'Configuration > HTTP Header > Accept-Language'.
  • 速度 - 服务器可以在压力下和负载时有不同的反应。他们的回答可能是不太稳定。我们推荐 降低爬行速度 并查看是否响应,然后改变, 使用Wireshark的独立核实反应.

回到顶部

为什么字符编码不正确的?

正规澳门赌场蜘蛛通过在HTTP内容类型报头,例如,“字符集=”参数决定一个网页的字符编码:

“text / html的;字符集= UTF-8”

你可以在搜索引擎蜘蛛的界面中的“内容”栏看到这个(在各种选项卡)。如果这是不存在于HTTP报头中,SEO蜘蛛然后将读取的第一个2048个字节的HTML页面的,看是否有是HTML内的字符集。

例如 -

“META HTTP-当量=”内容类型” CONTENT =” text / html的;字符集=窗户-1255“

如果不是这种情况下,我们继续假设页面是UTF-8。

蜘蛛不会记录任何字符编码问题。如果有,是造成问题的特定页面,通过设置的URL的最大数目抓取为1,然后抓取网址只执行该页面的抓取。您可能会看到在trace.txt日志文件中的行(该位置是 - C:usersyourprofile.screamingfrogseospidertrace.txt):

20-06-12 20时32分50秒的信息seo.spider.net.inputstreamwrapper:logunsupp要么tedcharset不支持的编码“Windows的”恢复到“UTF-8”页上的“http://www.example.com” java.io. un支持edencodingexception:视窗的”。这可能是该网站上的错误,或者您可能需要安装额外的语言包。

解决这一问题的解决方案是通过任一所附的HTTP报头的内容类型字段或确保在源代码中的字符集参数是第一2048个字节头元件中的HTML的内指定数据的格式。

回到顶部

为什么正规澳门赌场蜘蛛没有找到图片?

一般有两个原因:

  • The images are loaded 运用 JavaScript. Try viewing the page in your browser with JavaScript disabled to see if this is the case. 该 SEO蜘蛛 does not execute JavaScript by default. If the site is built in a JavaScript framework, 要么 has dynamic content, adjust the rendering 组态 to 'JavaScript' under 'Configuration > Spider > Rendering tab > JavaScript' to crawl it. Remember to ensure JS 和 CSS files are not blocked.
  • 图像由robots.txt封锁。您可以 忽略的robots.txt 要么 定制的robots.txt 要允许抓取。

回到顶部

为什么我得到一个试图打开一个保存的爬行时,“项目打开失败java.io.EOFException的”?

这意味着爬网并没有完全保存,这就是为什么它不能打开。 EOF代表“文件结束”,这意味着搜索引擎蜘蛛无法读取该文件的预期结束。 Java end of file err要么 这可能是由于保存时的SEO蜘蛛崩溃,这通常是由于运行内存。如果您保存,或者你的机器崩溃例如在退出SEO蜘蛛也会发生这种情况。 遗憾的是没有办法打开或检索抓取数据,因为它是不完整的,因此丢失。也请考虑增加 内存分配,这将有助于降低任何储蓄在未来抓取问题。

回到顶部

为什么我的包含/排除功能工作?

请注意:包含/排除是大小写敏感的,所以任何功能需要的URL完全匹配,因为它出现。

功能将只适用于尚未被蜘蛛发现的URL。已发现并排队等待爬行意志的任何URL受到影响,因此建议抓取被更新,以确保结果准确之间重新启动。

功能将不会被应用到在列表模式下的爬行或网址的起始URL。

*。 是一个正则表达式通配符

回到顶部

为什么在安装时,我得到“写入错误打开文件”?

请重新启动计算机,然后重新启动安装过程。

回到顶部

Do you 支持 Macs below 苹果系统 Version 10.7.3 (& 32-Bit 苹果电脑s)?

2.50版 正规澳门赌场蜘蛛需要Java的版本不支持此版本的MacOS的支持。这意味着旧的32位MAC(其中我们明白了8-9年前的最后一次)将不能够使用最新版本的搜索引擎蜘蛛。尚未更新他们的苹果电脑OS版本较新的64位MAC需要安装Java之前更新他们的操作系统。

我们仍然支持版本 2.40以下10.7.3(和32位)的Mac的苹果电脑OS版本,其可以从这里下载。这个版本比当前版本功能相当少,如在我们的 发布历史.

回到顶部

蜘蛛GUI没有在优胜美地使用了最新的平板方式

不幸的是,我们在甲骨文的怜悯更新其MAC的外观和感觉更加紧密地匹配苹果电脑OS的优山美地推出新的款式。还有,在与此相关的一个Java漏洞 JDK-8052173。这将在未来的Java版本进行更新。  

回到顶部

如何提供反馈?

欢迎反馈,请只需按照以下步骤: 支持页面 提交反馈。请注意,我们将尝试读取所有消息,但可能无法答复他们。我们收到的其他问题和反馈,我们将更新此常见问题解答。

回到顶部

我如何使用配置选项?

你不能在工具的精简版的版本使用的配置选项。您需要 购买许可证 打开此菜单,您可以通过点击蜘蛛的界面下的“许可”的“购买许可证”选项做到这一点。

回到顶部

什么每个配置选项吗?

请阅读我们的 用户指南,特别是 配置选项 部分。

回到顶部

我如何批量出口失踪替代文字的所有图像?

您可以通过在顶层导航菜单中的“批量导出”选项批量出口数据。只需选择“失踪替代文字图像”选项导出图像的所有引用没有替代文字。请查看更多关于 出口 在我们的用户指南。

回到顶部

响应时间是如何计算的?

它是从它需要发出一个HTTP请求,并获得完整的HTTP响应从服务器返回的时间来计算。正规澳门赌场蜘蛛界面上显示的数字是秒。注意这个数字可能不是100%可重复的,因为它取决于服务器负载和客户端的网络活动非常多,在提出请求的时间。这个数字不包括在JavaScript渲染模式时下载额外的资源所花费的时间。每个资源在自己的个人响应时间的用户界面单独出现。

回到顶部

我如何提高记忆力?

请参阅 如何提高记忆力 在我们的节 用户指南。

回到顶部

我在哪里可以看到robots.txt所封锁的网页?

You can simply view URLs blocked via robots.txt in the UI (within the ‘Internal’ and ‘Response Codes’ tabs f要么 example)。 Ensure you have the ‘Show internal URLs blocked by robots.txt’ configuration ticked under 'Configuration > Robots.txt > Settings'. 您可以 view external URLs blocked by robots.txt within the 'External' 和 'Response Codes' tabs by ticking the ‘Show External URLs blocked by robots.txt’ 组态 under 'Configuration > Robots.txt > Settings'.

不允许的网址,将出现一个“状态”为“robots.txt阻止的”,有一个与“响应代码”标签,其中这些可被视为下“robots.txt阻止的”过滤器。

该“robots.txt阻止的”过滤器还显示一个“匹配的robots.txt线”列,它提供了行号和禁止用户真实排除每个URL的robots.txt条目的路径。如果多条线路中的robots.txt封锁网址,正规澳门赌场蜘蛛只会在第一次遇到,类似搜索控制台内的谷歌报告。 Blocked by robots.txt

请参阅使用SEO蜘蛛作为我们的指导 robots.txt测试.

如果您使用的搜索引擎蜘蛛的老2.40 MAC版本,你可以在概述选项卡的“总结”部分查看用户界面的右侧抓取的“robots.txt所封锁的总” 。这个计数包括内部和外部的网址。目前,还没有看问题的方法哪些网址已被禁止在用户界面中。但是,它有可能获得来自搜索引擎蜘蛛日志文件的信息,抓取后。每一个网址robots.txt封锁的时候,它会报告如下:

2015年2月18日08:56:09652 [robotsmain 1]信息 - robots.txt文件防止 'http://www.example.com/page.html' 已被第2行,原因”蜘蛛:禁止:HTTP ://www.example.com/”。你可以选择忽略蜘蛛配置的robots.txt文件。

您可以 view the log file(s) by either going to the location shown for ‘Log File’ under Help->Debug, 要么 下载ing 和 unzipping the log files from Help->De窃听器->Save Logs.

回到顶部

可以在搜索引擎蜘蛛爬行分期或开发网站的密码保护或登录落后?

正规澳门赌场蜘蛛支持两种形式的认证,基于其包括基本标准和摘要认证,和web表单的身份验证。

Basic & 摘要式身份验证

有基本和摘要式身份验证,无需设置,它是一个需要登录的网页的抓取过程中自动检测。如果您访问的网站和浏览器给你一个弹出要求用户名和密码,这将是基本或摘要式身份验证。如果登录屏幕包含在页面本身,这将是一个Web表单的认证,这是在下一节讨论。

经常在开发用地将也可通过robots.txt封锁的为好,所以一定要确保这不是这种情况,或者使用“忽略robot.txt的配置”。然后只需插入升级网站的网址,抓取和弹出框会出现,就像它在Web浏览器,要求输入用户名和密码。 authentication 输入您的凭据,并抓取将继续正常。你不能预先输入登录凭证 - 当需要身份验证的抓取网址时,他们被输入。该功能不需要许可证密钥。 尝试以下网页,看看验证您的浏览器是如何工作的,或者在SEO蜘蛛。

Web表单认证

还有其他的网络形式以及需要你的cookies登录进行身份验证,以便能够查看或抓取区域。正规澳门赌场蜘蛛允许用户登录到内建在Chromium浏览器的搜索引擎蜘蛛的这些网页表单,然后抓取。此功能需要一个许可证才能使用它。

To log in, simply navigate to ‘Configuration > Authentication’ then switch to the ‘Forms Based’ tab, click the ‘Add’ button, enter the URL f要么 the site you want to crawl, 和 a browser will pop up allowing you to log in.

请阅读 爬行网页表单密码保护的网站 在我们的用户指南,之前使用此功能。一些网站也可能需要 JavaScript的渲染 登录时,才能够抓取启用。

请注意 - 这是一个非常强大的功能,因此应负责任地使用。正规澳门赌场蜘蛛点击页面上的每一个环节;当您在已经登录可能包括链接到您注销,创造职位,安装插件,甚至删除数据。

回到顶部

我如何阻止抓取我的网站正规澳门赌场蜘蛛?

蜘蛛遵循robots.txt协议。它的用户代理“正规澳门赌场SEO蜘蛛”,让您可以在您的robots.txt以下,如果你希望蜘蛛不要抓取你的网站 - 用户代理:尖叫蛙蜘蛛徐 不允许: / 请注意 - 那里是“忽略”的robots.txt和改变用户代理,这是下降到完全是用户的责任的选项。

回到顶部

为什么网址数量爬不匹配的谷歌搜索控制台中报道谷歌或错误索引结果的数量?

有许多原因会导致抓取找到的网址的数量可能不会在谷歌索引结果的数量相匹配:在搜索引擎蜘蛛的比赛报道的在谷歌搜索控制台或错误(通过网站查询)。

首先,抓取和索引都相当独立的,所以总是会有一些差距。网址会被抓取,但它并不总是意味着他们实际上在谷歌索引。这是要考虑,有可能是在你不知道的,或者不再希望编入索引,例如谷歌的索引中的内容的一个重要领域。同样,你可能会发现在爬行比在谷歌的索引多个URL,由于使用的指令(NOINDEX,canonicalisation),甚至重复的内容,网站的低信誉等。

其次,搜索引擎蜘蛛抓取只有在抓取的那个时刻一个网站的内部链接。谷歌(更具体的谷歌bot)抓取整个网页,所以不只是发现一个网站的内部链接,而且还指向一个网站的外部链接。

谷歌bot的抓取也没有时间上的快照,它是在一个网站的生命周期内从当它第一次发现。因此,你可以(从停产的产品或服务还是一个200“OK”响应网站上的老款也许)未链接到了即或内容找到旧网址 只要 通过在其指数仍外部源链接。正规澳门赌场蜘蛛将无法发现这些不挂在内部,像孤儿的网页或网址只能通过外部链接访问的URL。

还有其他原因还有,这些可能包括 -

  • 在设置了SEO蜘蛛抓取。为默认搜索引擎蜘蛛 尊重的robots.txt,尊重 内部和外部URL的“nofollow的” & 爬行礼服 但无法执行JavaScript。因此,请检查您的 组态。请记住,谷歌可能已经能够访问以前这些URL现在被封锁,nofollow的等等。
  • 该 SEO蜘蛛 does not execute JavaScript by default. If the site is built in a JavaScript framework, 要么 has dynamic content, adjust the rendering 组态 to 'JavaScript' under 'Configuration > Spider > Rendering tab > JavaScript' to crawl it. Remember to ensure JS 和 CSS files are not blocked.
  • 谷歌包括经由robots.txt阻止在其搜索结果数的URL。不要忘了,刚刚的robots.txt被抓取停止一个URL,它不被索引并显示在谷歌停止URL。
  • 谷歌抓取XML的站点地图。 seo的蜘蛛目前不爬默认XML网站地图,你目前有 上传到列表模式。我们决定不通过默认爬XML的Sitemaps的原因是,它不应该弥补了网站的架构。如果在该网站的内部链接结构的网页没有联系,只有在一个XML站点地图,这将有助于它被发现并索引,但机会也不会表现非常好有机。这显然是因为它不会通过任何实际的PageRank,像一个真正的内部链接。因此,我们认为,它通过分析自然抓取和内部链接的索引过程的网站,了解网站的设置了一个更好的主意是非常有用的。也有一些场景中它确实是有意义的,虽然抓取XML的站点地图,我们可以作为一个选项,使这成为可能的未来。
  • 谷歌的结果通过网站数:查询可以非常不可靠的!
  • 谷歌的错误报告可能会非常缓慢和过时!

回到顶部

我可以抓取多个网站在同一时间?

是。有两种方法可以做到这一点:

1)开拓SEO蜘蛛,一个是要爬网的每个域的多个实例。 苹果电脑用户检查 这里.

2) Use list mode (Mode->List)。 Remove the search depth limit (Configuration->Spider->Limits 和 untick “Limit Search Depth”, untick “忽略的robots.txt” (Configuration->Robots.txt->Settings) then upload your list of domains to crawl.

回到顶部

为什么我的站点地图缺少一些的URI?

canonicalised,robots.txt封锁,加入noindex和分页URI是不包括在默认情况下的站点地图。您可以选择通过勾选的“页”选项卡中相应的复选框(S),包括这些在你的站点地图,当你导出站点地图。

请阅读我们的用户指南 XML网站地图制作.

回到顶部

为什么我的正则表达式提取超过预期?

如果您使用的是像一个正则表达式 *。 包含贪婪量词,你最终可能会匹配比你想要的。该解决方案是使用正则表达式像 。*?.

例如,如果你正在试图从以下JSON的ID:

“代理”: { “ID”: “007”, “名”:“詹姆斯·邦德” }

运用 “ID”:”(。*)” 你会得到:

007" ,‘名’:“詹姆斯·邦德

如果你使用 “ID”:”(。*?)” 你将解压:

007

回到顶部

为什么不GA数据填充对我的网址?

在您选择谷歌分析的网址查看要匹配在搜索引擎蜘蛛爬行发现完全网址,为要匹配,准确地填写数据。如果它们不匹配,那么GA数据将无法匹配,将不填充。这是一个最常见的原因。

If 谷歌 Analytics data does not get pulled into the SEO蜘蛛 as you expected, then analyse the URLs under ‘Behaviour > Site Content > Landing Pages’ 和 ‘Behaviour > Site Content > All Pages’ depending on which dimension you choose in your query. Try clicking on the URLs to open them in a browser to see if they load c要么rectly.

您还可以导出 “孤儿页面”报告 which shows a list of URLs returned from the Google Analytics & Search Analytics (from Search Console) API’s for your query, that didn’t match URLs in the crawl. Check the URLs with source as ‘GA’ for Google Analytics specifically (those marked as ‘GSC’ are Google Search Analytics, from 谷歌 Search Console)。 该 URLs 这里 need to match those in the crawl, f要么 the data to be matched accurately.

如果它们不匹配,那么搜索引擎蜘蛛将无法将数据精确地匹配起来。我们建议您检查默认谷歌分析查看设置(如“默认页”)和过滤器,如“扩展的URL”的黑客,这都会影响如何网址显示,因此对抓取匹配。如果您希望网址投其所好,你可以经常进行必要的赔偿谷歌分析中,或使用“原始”未经编辑视图(你应该始终有其中的一个理想情况下)。

请注意 - 有一些很常见的情况,其中在谷歌分析网址可能无法在爬行匹配的网址,让我们通过(URL中大写和小写字符)匹配的拖尾和非尾随斜线的网址和大小写覆盖这些。谷歌不通过它们的API通过协议(http或https),所以我们也匹配这个数据自动地为好。  

回到顶部

为什么我正在运行的磁盘空间不足?

在使用数据库存储模式的SEO蜘蛛显示器多少磁盘空间,你有,如果你有少于5GB的剩余会自动暂停。如果你收到这样的警告,你可以释放一些磁盘空间来继续进行抓取。

If you are unable to free up any disk space you can either configure the SEO蜘蛛 to use another drive with more space by going to Configuration->System->Storage and selecting a folder on another disk, or switch to Memory Storage by going to Configuration->System->Storage and selecting Memory St要么age. Changing either of these settings requires a restart, so if you'd like to continue the current crawl you will have to save it 和 reload it in after restarting.

回到顶部

你有一个伙伴计划?

没有,我们没有在这个时候正规澳门赌场蜘蛛软件联盟计划。

回到顶部

我可以使用外部SSD?

如果你没有内部SSD和你想 抓取大型网站 运用 数据库存储模式,那么外部SSD可以提供帮助。

有几件事情有这种设置记住。重要的是要确保你的机器具有USB 3.0和您的系统支持UASP模式。大多数新系统自动执行,如果你已经有了USB 3.0硬件。当您连接外部SSD,确保您连接到USB 3.0端口,否则阅读和写作将是缓慢的。

USB 3.0端口通常具有蓝色内部(如在其说明书中推荐),但并非总是如此;你通常需要一个蓝色端的USB电缆连接到蓝色的USB 3.0端口。简单!

After that, you need to switch to 数据库存储模式 ('Configuration > System > St要么age'), 和n select the database location on the external SSD (the 'D' drive in the example below)。 数据库存储模式 那么你将需要重新启动搜索引擎蜘蛛,开始爬行之前。

回到顶部

W这里 can I find your EULA (terms & conditions)?

你可以阅读我们的 这里EULA.

回到顶部

为什么我得到错误的启动初始化嵌入式浏览器?

这通常是通过一些第三方软件触发,如防火墙或杀毒软件。请尝试禁用此或添加一个例外。你需要添加例外,这取决于你使用的是什么操作系统而异:

视窗:
C:\用户\ your_user_name \ .screamingfrogseospider \铬\ browsercore-的version_number \ browserc要么e32.exe

苹果系统:
〜/ .screamingfrogseospider /铬/ browsercore-的version_number / browserc要么e.app

你仍然可以使用蜘蛛,但启用JavaScript渲染模式将是不可能的。

您可以 prevent this initialisation happening by going to Configuration->System->Embedded Browser.

回到顶部

为什么我得到一个空白的屏幕?

如果搜索引擎蜘蛛的用户界面是不是渲染你那么很可能你已经运行到这个Java 窃听器。我们的经验,这似乎是与英特尔HD 5XX系列显卡的问题。我们有以下的这些最近,所以它可能是一个驱动程序的更新将有助于解决这一问题。

如果没有,请关闭SEO蜘蛛,然后打开一个文本编辑器下列文件:

C:\ Program Files文件(x86)的\正规澳门赌场SEO蜘蛛\ screamingfrogseospider.l4j.ini

然后添加-Xmx线下以下几点:

-dprism.要么der = SW

(你可以有一个权限问题在这里,所以复制你的桌面,编辑,然后复制回可能更容易)。

没有当您启动SEO蜘蛛的用户界面应正确显示。

回到顶部

我如何抓取网站维克斯?

总之,你不应该做任何特殊抓取威克斯网站了。威克斯使用动态渲染,以显示他们的网站的服务器端渲染(SSR)版本的搜索机器人,浏览器和正规澳门赌场SEO蜘蛛用户代理。

威克斯网站在历史上建立使用谷歌的现在已经过时 AJAX抓取方案与逃脱片段的URL。谷歌宣布,他们将 停止使用旧的AJAX抓取方案 在2018年Q2(和将呈现#!网址和内容来代替)。

If you experience any problems crawling Wix websites, double check your user-agent is either 谷歌bot 要么 正规澳门赌场 SEO蜘蛛 (Config > 用户代理)。

回到顶部

为什么结果抓取之间的变化呢?

这种情况的最常见的原因有:

  • 爬网设置是不同的,这可能会导致不同的页面被抓取或被赋予不同的反应,从而导致不同的结果。
  • 该网站已经改变了,这意味着抓取的不同元素被不同地报告。
  • 正规澳门赌场蜘蛛接收不同的响应,特定URL 超时 或给予 服务器错误. This could mean less pages are discovered overall as well as these being inconsistent between crawls. Remember to double check under 'Response Codes > No Responses' and right click on URLs 和 click to 're-spider' on URLs that might have intermittent issues (such as 超时 要么 服务器错误)。
另一点可能影响抓取结果,是在哪些页面被发现的顺序。如果 让饼干,一个页面,下降,导致某些URL正在接受治疗的不同(如重定向到被使用的语言选择后一个不同的语言版本)一个cookie可能会导致这取决于Cookie的抓取过程中拾取完全不同的结果。在这些情况下,多爬网可能需要进行, 排除 特定部分,以便只有一个cookie的行为被设置在同一时间。

回到顶部

为什么我连接到谷歌 Analytics失败?

如果您收到以下错误当试图连接到谷歌 Analytics(分析)或搜索控制台: 请阅读 我们的向导 在解决这个。

回到顶部

为什么正规澳门赌场蜘蛛没有找到一个特定网页或一组网页?

正规澳门赌场蜘蛛通过扫描输入的起点网站的HTML代码,找到页面 链接,它会又爬找到更多的链接。因此,找到一个网页,必须有来自于正规澳门赌场蜘蛛跟随爬行的起点明确链接路径。 如果有一个清晰的路径,那么这些链接或链接页面上必须存在的方式SEO蜘蛛或者不能“看”或抓取。

因此,请确保以下几点:

  • 该 link is an HTML anchor tag, the SEO蜘蛛 does not execute JavaScript in the st和ard configuration, so links that exist 只要 in JavaScript will not be ‘seen’ or crawled. If the site is built in a JavaScript framework, 要么 has dynamic content, adjust the rendering 组态 to 'JavaScript' under 'Configuration > Spider > Rendering tab > JavaScript' to crawl the website.
  • 如果任何链接或链接页面有“nofollow的”属性或指令防止SEO蜘蛛从以下这些链接。默认情况下,搜索引擎蜘蛛服从,除非“nofollow的”指令的'遵循内部nofollow的'配置被选中。
  • 预期的网页都在同一子域中起始网页。默认情况下,链接到不同的子域被视为外部,除非 抓取所有子域名 选项被选中。
  • 如果预期的网页在不同的子文件夹到爬行的起点 抓取外启动文件夹 选项被选中。
  • 链接网页未被阻止被robots.txt。默认情况下的robots.txt服从所以阻止网页上的任何链接将不可见,除非 忽略的robots.txt 选项被选中。如果该网站使用JavaScript和渲染配置被设置为“的javascript”,确保JS和CSS未被阻止被robots.txt。
  • 你没有一个 包括 要么 排除 功能设置是限制了爬行。
  • 确保类别页面(或类似)在爬行过程中没有暂时无法访问,给人一种连接超时,服务器错误等防止被发现链接的网页。
  • 默认情况下,正规澳门赌场蜘蛛不会抓取网站的XML网站地图,以发现新的URL。但是,您可以选择“抓取链接的XML的站点地图'中的配置。

回到顶部

当许可证到期时会发生什么?

当许可证到期时,正规澳门赌场蜘蛛返回到受限制的自由精简版的版本。蜘蛛的配置选项不可用,有500 URI最大抓取的限制和先前保存的爬网无法打开。

删除的抓取限制,使用所有的功能和配置选项,开辟保存抓取,只需 购买许可证 在到期。

回到顶部

没有许可证提供什么附加功能?

许可证删除500 URI爬行限制,允许你 保存并上传抓取,打开了所有的 配置选项自定义的源代码搜索, 自定义抽取, 谷歌分析整合, 谷歌搜索整合控制台JavaScript的渲染 特征。我们还提供了相关的搜索引擎蜘蛛的授权用户的技术问题提供支持。

在相同的方式免费“精简版”的版本,也有对的,你可以使用许可证抓取网站的数量没有限制。许可证然而, 个人用户每。如果你想使用行货版本谁是球队的五名成员,您将需要五个许可证。

回到顶部

我可以用我的驾照多台设备上?

是。该许可证允许您在多台计算机上安装SEO蜘蛛。然而, 许可证是按用户个人.

请参阅第3节我们 条款和条件 完整的细节。

回到顶部

为什么不能我的许可证密钥保存(无法更新许可文件)?

该 SEO蜘蛛 stores the licence in a file called licence.txt in the users home direct要么y in a ‘.正规澳门赌场SEOSpider’ folder. 您可以 see this location by going to Help->De窃听器 和 looking at the line labeled “Licence File”. 请检查下面来解决这个问题:

  • 确保您能够在正确的位置创建许可证文件。
  • 如果您使用的是苹果电脑,看到这个问题的答案 计算器问题.
  • 如果您使用的是视窗的可能是默认 的user.home 供给到Java值不正确。理想情况下您的IT团队应该解决这个问题。作为一个工作,你身边可以添加:
    -d的user.home =驱动器盘符:\路径\到\新\目录\
    到控制screamingfrogseospider.l4j.ini文件 内存设置。

回到顶部

是可以将我的许可证转移到新的电脑吗?

是的,请大家记下您的许可密钥(你可以找到在这个软件中的“许可”和“输入许可证......”),然后卸载旧计算机上的搜索引擎蜘蛛,安装并在输入您的许可证之前新机。如果这一招时遇到任何问题,请联系我们 支持.

回到顶部

如何更新我的许可证?

登录 现有帐户和 另购证 在到期。许可证不会自动更新 - 所以,如果你不想续订许可,您将不会被收取,需要采取任何行动。

回到顶部

有多大?正规澳门赌场SEO蜘蛛成本是多少?

作为标准你下载的工具,它是免费的精简版的版本。然而,无牌照的SEO蜘蛛被限制为最大值500点的URI每个抓取爬行。蜘蛛和自定义源代码搜索功能的配置选项也只在行货版本。

对于每年可以149£ 购买许可证 这带来了蜘蛛的配置选项,并消除了对500 URI最大抓取的限制。许可使用工具每个个体需要。当许可证到期时,正规澳门赌场蜘蛛返回到受限制的自由精简版的版本。

回到顶部

What payment methods do you accept & from which countries?

我们接受PayPal和大多数信用卡和借记卡。正规澳门赌场蜘蛛的价格是在英镑(GBP)。如果你是在英国以外,请看看当前的汇率来计算出的成本。 (自动货币转换将取决于当前的汇率,也许您的发卡银行)。 我们不接受支票(或支票!)

回到顶部

我是一个企业在欧盟,我可以不交增值税?

是的,如果你不是在英国。要做到这一点,你必须有一个有效的增值税号,结账时账单页面上输入此。选择企业,并输入您的增值税号码如下图所示: enter_vat_number 您的增值税号将反对删除,如果它是有效的抢答系统和增值税进行检查。在抢答系统并从时间下井的时间,所以以后如果出现这种情况,请重试。 不幸的是,一旦购买已取得不能退还的增值税.

回到顶部

你有退款政策?

绝对!如果你不完全满意,你从这个网站购买的SEO蜘蛛,你可以,如果你内购买软件后的14天内与我们联系获得全额退款。获得退款,请按以下步骤操作。

通过支持@screamingfrog.co.uk与我们联系或 支持 并提供以下信息:

  • 您的联系信息(姓,名和电子邮件地址)。
  • 您的订单号。
  • 你的理由退款!如果有问题,我们大致可以帮忙。
  • 对于下载的项目,请提供证明该软件已经从所有计算机卸载,将永远不会被安装或使用任何更多的(截屏就足够了)。
如果你用信用卡购买的商品退款重新计入与用于订单的信用卡关联的帐户。

如果您已经通过贝宝购买的商品退款重新计入用于购买软件相同的PayPal帐户。

如果你使用任何其他付款方式购买的商品,我们将发布BACS,一旦被我们的财务部门批准的退款。

对于有关本政策有任何疑问,请与我们联系: 支持.

回到顶部

该软件是如何传递?

该软件需要从我们的网站下载,许可证密钥是通过电子邮件电子方式提供。

回到顶部

什么是经销商的价格?

我们不提供为经销商提供折扣优惠。价钱是 GBP每年149£每个用户。

回到顶部

我在哪里可以得到许可条款?

许可的细节可以发现 这里.

回到顶部

我可以得到一个货币比其它英镑报价?

没有,我们只卖出英镑。

回到顶部

Why am I experiencing slow down or hanging upon exp要么ts & saving crawls?

这通常是由于搜索引擎蜘蛛达到其内存限制。请阅读 如何提高记忆力.

回到顶部

为什么我得到一个“连接被拒绝”的反应?

当SEO蜘蛛连接尝试已在本地计算机和网站之间的某一点被拒绝拒绝连接显示在状态栏。 如果发生这种情况对所有站点始终那么它与本地计算机/网络的问题。请检查以下内容:

  • 你可以在浏览器中查看网站。
  • 请确保您有最新版本的 安装SEO蜘蛛.
  • 该软件如ZoneAlarm,防病毒(如防病毒查杀的高级版本,卡巴斯基)或防火墙保护软件不会从发出请求阻止你的机器/ SEO蜘蛛。正规澳门赌场蜘蛛需要信任/接受。我们建议您的IT团队是在什么可能是在办公环境事业咨询。
  • 代理 is not accidentally ‘on’, under Configuration->Proxy. 确保 box is not ticked, or the 代理 details are accurate 和 w要么king.
  • 如果你想抓取一个安全的网站(https://开头),而不是使用版本8.0或以上版本,请参阅 这里。
如果这是防止你在所有在特定网站上抓取,请尝试以下方法:
  • Changing the User Agent under Configuration->HTTP Header->User Agent.
如果这是一个爬行过程中间歇性发生,那么请尝试以下方法:
  • 调整 爬行速度 / number of threads under Configuration->Speed.
  • 在“精简版”的版本,你无法控制的速度,请尝试在网址并选择重新蜘蛛右击。

回到顶部

为什么我得到一个“连接超时”的反应?

当SEO蜘蛛斗争为接收所有的请求超时的HTTP响应并发生连接超时。它往往是由于响应缓慢的网站或服务器负载下时,也可以是由于网络问题。我们建议如下 -

  • 确保您可以在浏览器中查看网站(或任何网站),并检查他们的加载时间的任何问题。硬刷新浏览器,以确保您没有看到缓存版本。
  • 增加默认 响应超时 的10秒,至多20秒或30秒,如果网站是缓慢响应的配置。
  • 降低 爬行的速度 在SEO蜘蛛配置,以减少奋力应对任何服务器的负载。尝试每秒1个网址,例如
  • 确保 代理服务器设置 是不小心启用,如果启用了细节是准确的。
  • 确保ZoneAlarm的,反病毒或防火墙保护软件(如防病毒查杀的高级版本)没有从发出请求阻止你的机器。正规澳门赌场蜘蛛需要信任/接受。我们一般建议您的IT团队,谁知道你的系统是什么的原因可能协商。

回到顶部

为什么我得到一个“503 Service Unavailable”错误反应?

当Web服务器拒绝访问搜索引擎蜘蛛的出于某种原因请求时发生的503服务不可用状态代码。

如果发生这种情况持续,您可以看到该网站在浏览器中,它可能是Web服务器行为有所取决于用户代理。在高级版本尝试 调整所述用户代理设置 under Configuration->HTTP Header->User Agent. For example, try crawling as a bot, such as ‘谷歌bot’, 要么 as a browser, such as ‘Chrome’.

如果爬网过程中出现这种情况间歇性,它可以在速度蜘蛛请求急剧的服务器页面到期。在SEO蜘蛛的高级版本,你可以 降低速度 的请求。如果你正在运行的“精简版”的版本可能会发现右键点击链接并选择重新蜘蛛会有所帮助。

回到顶部

为什么网址重定向到自己?

当网站需要使用Cookie,这是如果起始URL重定向到自身或到另一个URL,然后回到自己经常出现在搜索引擎的蜘蛛(任何必要的饼干都有可能被沿途丢弃)。在用禁用的cookie浏览器中查看时,这也可以看出:

redirect_warning

解决这一问题的最简单方法是使用先加载页面 基于表单的身份验证.

‘Configuration > Authentication > F要么ms Based’

选择“添加”,然后输入一个重定向的URL,等待页面点击“OK”之前加载。

因此,搜索引擎蜘蛛的内置浏览器铬已经接受饼干,你现在应该可以正常抓取网站。

绕过这种重定向的次级方法是确保“允许Cookie”配置设置:

'Configuration > Spider > Advanced > 允许Cookie'

绕过重定向行为,作为SEO蜘蛛抓取只有每个URL一次,参数必须被添加的起始URL:

http://www.example.com/?rewrite-me

​ 一 URL重写 然后必须添加规则,删除当蜘蛛被重定向回到起始URL此参数:

Configuration > URL Rewriting > Remove Parameters​

那么搜索引擎蜘蛛应该能够抓取通常从起始页现在有任何所需的cookie。

回到顶部

Why are page titles &/or meta descriptions not being displayed/displayed inc要么rectly?

(!或两者),如果有问题的网站或网址具有页面标题和meta描述,而是一个在SEO蜘蛛没有显示这通常是由于以下原因 -

1)SEO蜘蛛读取最多的20元标记。所以,如果有超过20 meta标签和meta描述是20元标签之后,它会被忽略。

2) 该 SEO Spider does not execute JavaScript by default. Modifications to any HTML elements via JavaScript will not be seen by the SEO蜘蛛. If the site uses JavaScript, amend the rendering 组态 to 'JavaScript' under 'Configuration > Spider > Rendering tab > JavaScript' to crawl it. Remember to ensure JS 和 CSS files are not blocked.

回到顶部

做SEO的蜘蛛抓取PDF?

正规澳门赌场蜘蛛将检查链接的PDF文档。这些网址可以在内部和外部突出部的PDF滤波器下观察到。 它不解析PDF文档找到链接抓取。

回到顶部

为什么我的爬行完成?

首先保证蜘蛛仍继续抓取该网站,若然网址已发现的样子。根据蜘蛛已经发现将解释为什么抓取比例不增加的网址:

  • 网址似乎正常 - 蜘蛛不断上一个非常大的网站寻找新的URL。考虑了分裂爬进部分。
  • Many similar URLs parameters – 该 Spider keeps finding the same URLs with different parameters, possibly from faceted navigation. Try setting the query string limit to 0 (Configuration->Spider, “Limit Number of Query Strings” in the “Limits” tab)。
  • 有与零件是重复自己多长的URL - 存在这样的情况蜘蛛不断发现,导致永无止境的循环URL的链接相对误差。使用 排除 功能,排除违规的网址。

回到顶部

为什么安装程序需要一段时间才能开始?

因为视窗 Defender的运行就可以了安全扫描,这可能需要长达几分钟的时间。不幸的是下载使用谷歌Chrome浏览器中的文件时,它提供没有迹象表明它正在运行的扫描。 InternetExpl要么er不给这样的一个指示,而Firefox不会在所有扫描。如果你直接去下载文件夹,并运行从那里安装你不必等待安全扫描运行。

回到顶部

我可以做一个静默安装?

是的,通过发出以下命令:

screamingfrogseospider-version.exe / s的

默认情况下,这将安装SEO蜘蛛:
C:\ Program Files文件(x86)的\正规澳门赌场SEO蜘蛛

您可以通过以下命令选择一个替代的位置:

screamingfrogseospider-version.exe / S / d = C:\我的文件夹

回到顶部

我怎么能打开搜索引擎蜘蛛的多个实例?

打开附加实例的SEO蜘蛛的打开终端,键入以下内容: 开-n /应用/尖叫\青蛙\ SEO \ spider.app/

回到顶部

如何提交一个窃听器 /获得支持?

请按照该步骤 支持页面 因此,我们可以帮助你尽快。请注意,我们只提供该工具的高级用户的全力支持,虽然我们一般会尝试并解决任何问题。

回到顶部

什么操作系统的SEO蜘蛛上运行?

正规澳门赌场蜘蛛在视窗,苹果电脑和Linux上运行。这是一个Java应用程序,需要Java 8运行环境或以后要运行。你可以检查 这里 看到系统要求运行Java。您可以 下载 正规澳门赌场蜘蛛自由和尝试。

苹果电脑: 如果您使用的苹果电脑OS 10.7.2或降低请参见本 常问问题.

Linux的: 我们提供了一个Ubuntu的软件包为Linux。如果你想在非基于Debian发行运行搜索引擎蜘蛛请提取从.deb文件的jar文件和手动运行它。

视窗: 正规澳门赌场蜘蛛也可以在服务器上的变体和从9.0版本起窗口10运行,正规澳门赌场蜘蛛不能在视窗 XP上运行。

请注意 渲染功能 不可用的旧版操作系统。

回到顶部

如何批量导出所有图像ALT文字?

您可以通过在顶层导航菜单中的“批量导出”选项批量出口数据。只需选择“所有图像”选项导出在我们的抓取索引中的所有图像和相关替代文字。请查看更多关于 出口 在我们的用户指南。

回到顶部

如何蜘蛛治疗的robots.txt?

正规澳门赌场 SEO蜘蛛的robots.txt标准。它检查 robots.txt的以同样的方式为谷歌。所以它会检查(子)域的robots.txt并遵守所有的机器人和任何专门为Googlebot指令。该工具还支持文件中的值(通配符* / $)(例如谷歌bot)的URL匹配。请参阅上述文件以了解更多信息或我们的 在用户指南中的robots.txt部。您可以在高级版本关闭此功能。

回到顶部

多少URI可以蜘蛛爬行?

正规澳门赌场蜘蛛使用可配置的混合存储引擎,这使得它抓取百万网址。然而,它确实需要配置(下面说明)和 正确的硬件.

默认情况下,搜索引擎蜘蛛会抓取使用RAM,而不是保存到磁盘。这方面具有优势,但它不能在规模爬行,没有大量的RAM的分配。

在标准的存储器存储模式没有它可以抓取的网页一组数字,这取决于网站的复杂性和用户的机器规格。正规澳门赌场蜘蛛设置1GB的用于32位和2GB的64位机器,这使得它的一个网站5K-100K URL之间抓取的最大存储器。

您可以 增加SEO蜘蛛的记忆 分配,并爬进成千上万的纯粹使用RAM的URL。与RAM 8GB的64位机一般会允许你抓取几十万的URL,如果内存分配增加。

正规澳门赌场蜘蛛可以被配置为抓取数据保存到磁盘,这使它能够抓取百万网址。然而,我们建议使用固态驱动器(SSD)这个选项,如硬盘驱动器显著的写入和读取数据慢。这可以通过选择被配置“数据库存储’ mode (under ‘Configuration > System > St要么age’)。

作为粗略导中,SSD和在数据库存储模式的RAM 8GB,应允许SEO蜘蛛至约爬行。 500万页的URL。

请参阅我们的指南 爬行大型网站 欲获得更多信息。

回到顶部

为什么已完成,总的URI不匹配什么我出口?

在“完成” URI总数超过SEO蜘蛛遇到的URI的数量。这是总的URI抓取,加robots.txt阻止的任何“内部”和“外部” URI。

Depending on the settings in the robots.txt section of the ‘Configuration > Spider >Basic’ menu, these blocked URI may not be visible in the SEO蜘蛛 interface.

If the ‘Respect Canonical’ 要么 ‘Respect Noindex’ options in the ‘Configuration > Spider > Advanced’ tab are checked, then these URI will count towards the ‘Total Encountered’ (Completed Total) 和 ‘Crawled’, but will not be visible within the SEO蜘蛛 interface.

在“响应代码”选项卡,出口将呈现由蜘蛛遇到的除了那些上面详细的设置隐藏的所有URL。

回到顶部

Do you collect data & can you see the websites I am crawling?

我们看不出你是什么爬行网站或数据已抓取。所有抓取的数据存储在您的计算机上。

谷歌的API使用OAuth 2.0协议进行身份验证和授权,显然,通过谷歌分析和其他API提供的数据仅在本地访问你的机器上。

我们如何收集有关许可证使用情况的数据,崩溃和调试报告中详细介绍了我们 隐私政策.

该软件不包含任何间谍软件,恶意软件或广告软件(由softpedia如验证 视窗苹果系统)。

回到顶部

为什么抓取的网址数量(或发现错误)不匹配另一个履带?

首先,在 免费的“精简版”的版本被限制为500个网址抓取限制 明明一个网站可能是显著更大。如果你有一个许可证,主要的原因一个SEO蜘蛛爬行可能会发现或多或少的联系(实际上是断开链接等),比另一个履带简直是下到不同的默认 组态 调校每个。

为默认搜索引擎蜘蛛 尊重的robots.txt,尊重 内部和外部URL的“nofollow的” & 爬行礼服。但其他抓取工具有时不尊重这些为默认,因此为什么可能有差异。显然,这些都可以调整到内的自己的喜好 组态.

而爬行更多的URL可能看起来是一个很好的事情,实际上它可能是完全没有必要的和时间和精力的浪费。请您谨慎选择您要爬网的内容。

我们认为SEO蜘蛛是目前最先进的履带,它经常会发现更多的URL比其他抓取,因为它 爬行礼服阿贾克斯类似的谷歌bot 其中其他抓取工具可能没有标准,或在他们目前的能力。 还有其他原因还有,这些可能包括 -

  • 抓取的用户代理,速度或时间可以发挥作用。
  • 其他一些爬虫可以使用XML的站点地图用于发现和爬行。 seo的蜘蛛目前不爬默认XML网站地图,你目前有 上传到列表模式。我们决定不通过默认爬XML的Sitemaps的原因是,它不应该弥补了网站的架构。如果在网站的内部链接结构,只有在一个XML站点地图页面没有链接到,这将有助于它被发现并索引,但机会也不会表现非常好有机。这显然是因为它不会通过任何实际的PageRank,像一个真正的内部链接。因此,我们相信,它通过内部链接的自然检索和索引程序来分析网站获得的网站建立一个更好的想法是非常有用的。也有一些场景中它确实是有意义的,虽然抓取XML的站点地图,我们可以作为一个选项,使这成为可能的未来。
  • 其他一些爬虫抓取可能分析着陆页,或者在谷歌搜索工具控制台顶部的网页的URL。再次,这是不自然的抓取和索引的过程,但可能是我们在未来考虑的东西。

回到顶部

如何创建一个XML站点地图?

请阅读我们的“如何创建一个XML站点地图“教程,这也解释了如何生成一个XML站点地图,包含或通过所有可用的配置设置排除页面或图像并运行。

回到顶部

我怎么能提取匹配的XPath我的所有标签?

从6.0版本,默认情况下搜索引擎蜘蛛会收集所有的XPath值,而不需要使用多个提取和索引选择。 请阅读我们的网站 刮指南 更多细节和XPath例子。

回到顶部

我如何提取一个正则表达式的多个匹配?

如果你希望所有从下面的HTML的H1S​​:


2个H1S


H1-1


H1-2





然后我们可以使用:

(。*?)

回到顶部

为什么我遇到减速?

有许多的原因,你可能会遇到缓慢爬行速度还是慢的SEO蜘蛛下来。这些包括 -

  • 如果你正在执行一个大型爬行,你可能会达到SEO蜘蛛的内存容量。学习如何 增加SEO蜘蛛的记忆 和阅读我们的指南 爬行大型网站.
  • 该网站或服务器(或打他们太难了具体的指示)的响应速度慢。
  • 网络连接。
  • 问题要爬网的网站。
  • 大型网页或文件。
  • 爬行或观看大量的URI。

回到顶部

为什么没有出现在搜索引擎的蜘蛛GA API数据匹配什么在GA接口报道?

有许多原因通过谷歌API到SEO蜘蛛获取的数据,可能是在谷歌分析界面中报告的数据不同。首先,我们建议您查看的同一帐号三重检查,物业,查看,段,日期范围,指标和维度。 l和ingpagepath和PAGEPATH当然会提供例如非常不同的结果! 如果数据仍然不匹配,则有一些共同的原因 -

  • 谷歌的API可以只返回略有不同的指标 - 我们测试过这一点,有时从API中的数据,可以只是以什么在接口报道略有不同。
  • 我们用 默认采样和你在谷歌分析设置可能会有所不同。
  • 我们使用GA:主机名维和GA:主机名== www.yourdomain.co.uk过滤,以除去可能使用相同的GA跟踪代码为您的核心域以外的域。谷歌并没有默认的界面做到这一点,那么你的主页的着陆页的会议,可能被夸大了的例子。
实际上我们建议使用 谷歌分析API查询资源管理器 和查看回来的数据,与我们为默认(显然是在利用该帐户,资源和资料检视你正在测试的网站),使用下面的查询参数 - 谷歌 API Expl要么er new 你应该看到,通过API返回的数据非常紧密地匹配到什么是SEO蜘蛛内报告。

回到顶部

可以在搜索引擎蜘蛛在Chromebook上运作?

我们没有SEO蜘蛛的Chromebook的版本。但是,您可以 安装crouton,设置Ubuntu 下载并安装SEO蜘蛛的Ubuntu的版本。

请注意,Chromebook的都不是很强大的,一般限于4GB内存的。这将意味着存储器被限制,以及可以抓取的网址的数量也将受到限制。你可以阅读更多关于SEO蜘蛛 记忆在我们的用户指南.

回到顶部

为什么我不能生成图像列表的图像地图?

图像站点地图协议所需要的HTML页面图像上,以被包括在站点地图中引用。图像列表只没有这个信息,因此无法生成一个网站地图。

在谷歌的图像的站点地图要求详情可看到 - //支持.google.com/webmasters/answer/178636.

回到顶部