SEO蜘蛛常见问题解答

许可
为什么我的许可证密钥无效?

If the SEO蜘蛛 says your ‘licence key is invalid’, then it's because it has been entered inc要么rectly. This can be seen under 'Licence > Enter Licence Key' in the interface. Invalid Licence Key

许可证密钥显示当您签,在电子邮件中发送的主题为“现金赌钱游戏SEO蜘蛛许可范围”,都可以随时通过登录到您的 帐户 和查看在该“许可证密钥”部分。

联系我们之前,请查看您的许可证信息,然后复制并粘贴到正确的领域 - 他们没有设计手动输入。请按照以下上遇到的常见问题的提示。

  • 确保您使用为您的许可密钥的用户名,因为这并不总是像您的账户的用户名'一样,它不是准确的电子邮件地址。这是迄今为止我们所看到的最常见的问题。
  • 也请您仔细检查你已经插在“用户名”字段中所提供的“用户名”和提供“许可证密钥”,在“许可证密钥”字段。
  • 确保你没有进入 日志文件分析仪 许可进入 SEO蜘蛛.
  • 确保你没有进入 SEO蜘蛛 许可进入 日志文件分析仪.

如果您的许可证密钥仍然不能正常工作,那么请联系 支持 与细节。

有多少用户被允许使用一个许可证?

每个许可证密钥是由一个指定的用户(个人)使用。许可费用为单个用户。

如果你有五人从你的团队要使用的现金赌钱游戏的蜘蛛,你将需要5个许可证。

折扣可用于5个或更多用户,如图 我们的定价.

请参阅第3节我们 条款和条件 完整的细节。

它可以使用的许可证多台设备上?

是。使您可以在多个设备上安装SEO蜘蛛许可证。

然而, 许可证是按用户个人,因此,它必须为每个设备的相同用户。

请参阅第3节我们 条款和条件 完整的细节。

当许可证到期时会发生什么?

许可证是一年。现金赌钱游戏蜘蛛返回到在许可证有效期届满的限制免费版本。

这意味着搜索引擎蜘蛛的配置选项不可用,有500最大抓取URL限制,无法恢复先前保存的爬开。

删除的抓取限制,访问配置,使所有功能,开辟保存抓取,只需 购买新的许可 在到期。

哪些功能的许可证提供?

许可证删除500网址抓取的限制,允许你 保存和打开抓取,访问 配置选项自定义的源代码搜索, 自定义抽取, 谷歌分析整合, 谷歌搜索整合控制台JavaScript的渲染 特征。我们还提供了相关的搜索引擎蜘蛛的授权用户的技术问题提供支持。

的付费和免费版本之间的功能全面的比较可以在找到 定价页.

在相同的方式免费“精简版”的版本,也有对的,你可以使用许可证抓取网站的数量没有限制。许可证然而, 个人用户每。如果你想使用行货版本谁是球队的五名成员,您将需要五个许可证。

我已经失去了我的许可或发票,如何获得一个又一个?

如果你已经失去了您的许可证密钥或发票从2014年9月起的22日,请 登录到您的帐户 检索细节。

如果你失去了你的帐号密码,然后 只需申请一个新密码 通过形式。

如果你2014年9月22日之前购买的许可证,那么请联系支持@screamingfrog.co.uk与您的用户名或您用于支付高级版电子邮件。

是可以将我的许可证转移到新的电脑吗?

许可证可用于上 多个设备 由同一用户。许可证 个人用户每.

这意味着许可证单个用户,可以使用在多个设备上的软件。它不能由多个用户使用,各用户将需要一个单独的许可。

If you wish to transfer the licence away from an existing machine, please take a note of your licence key (you can find this under 'Licence > Enter Licence Key' in the software), uninstall the SEO蜘蛛 on the old device, bef要么e installing 和 entering your licence on the new machine.

如果您遇到任何问题,在ESTA的举动,请联系我们 支持.

为什么不能我的许可证密钥保存(无法更新许可文件)?

该 SEO蜘蛛 stores the licence in a file called licence.txt in the users home direct要么y in a ‘.ScreamingFrogSEOSpider’ folder. 您可以 see this location by going to Help->De窃听器 和 looking at the line labeled “Licence File”. 请检查下面来解决这个问题:

  • 确保您能够在正确的位置创建许可证文件。
  • 如果您使用的是苹果电脑,看到这个问题的答案 计算器问题.
  • 如果您使用的是视窗的可能是默认 的user.home 供给到Java值不正确。如果你的团队是最好解决这个问题。作为一种变通方法,您可以添加:
    -d的user.home =驱动器盘符:\路径\到\新\目录\
    到控制screamingfrogseospider.l4j.ini文件 内存设置。

我已经购买了许可证,为什么我还没有收到呢?

如果您已经购买了许可证,并收到一封电子邮件,还没有和细节,请检查您的垃圾邮件/垃圾邮件文件夹。许可证通过电子邮件后,立即购买发送。

许可证显示在屏幕上能够在结帐时,你可以同时查看您的许可证的详细资料和发票(S) 登录到您的帐户,在任何时候。

W这里 can I find your EULA (terms & conditions)?

你可以阅读我们的 这里EULA.

计费
我如何购买许可证?

只需在搜索引擎蜘蛛点击“购买许可证”选项“许可证”菜单或访问我们的 购买许可证页面 直。

You can then create an 帐户 & make payment. When this is complete, you will be provided with your licence key to open up tool & remove the crawl limit. If you have just purchased a licence and have not received your licence, please check your spam / junk folder. 您可以 also view your licence(s) details 和 invoice(s) by 登录到您的帐户.

请注意,如果您通过银行转帐或PayPal购买发票,你不会有一个帐户。当你检出网上购买系统中的帐户只能通过我们的创造。你如果你的任何细节丢失,你可以 联系我们 此信息。

如何更新我的许可证?

你只需 登录 现有帐户和 另购证 在到期。

请不要购买许可证到期前,因为它不会扩展现有的许可到期。细节将被更新,在购买时提供继续使用该工具的许可。

许可证不会自动更新目前,因此,如果您不想续订许可,您需要采取任何行动,你将不会被自动充电。

有多大?现金赌钱游戏SEO蜘蛛成本是多少?

现金赌钱游戏蜘蛛是免费的 下载 并使用。然而,无牌照的SEO蜘蛛抓取被限制为最大500个网址每个抓取,爬不能保存,和先进的功能和配置受到限制。

对于每年可以149£ 购买许可证 这带来了蜘蛛的配置选项,并在500 URL最大抓取移除了限制。请参阅我们的 价钱 这页显示免费和付费之间的比较。

个人许可费用为工具的用户。当许可证过期,现金赌钱游戏蜘蛛返回到受限制的自由精简版的版本。

你们提供折扣许可证?

我们只在批量采购的折扣在时间许可计划提供的5个或更多。我们做提供折扣在其他任何时间。

我们简单地把价格尽可能的竞争给大家。

请参阅 SEO蜘蛛许可证 关于折扣更多详细信息页面。

What payment methods do you accept & from which countries?

我们接受主要的信用卡和借记卡MOST和PayPal。

现金赌钱游戏蜘蛛的价格在英镑(GBP),但它可以全球购买。

如果你是在英国以外,请看看当前的汇率来计算出的成本。自动货币转换将取决于当前外汇汇率和您的发卡银行或许,所以我们无法给出一个确切的费用(比其它英镑)。

我们不接受支票(或支票!)付款。

我是一个企业在欧盟,我可以不交增值税?

是的,如果你不是在英国。要做到这一点,你必须有一个有效的增值税号,结账时账单页面上输入此。选择企业,并输入您的增值税号码如下图所示: enter_vat_number 您的增值税号将反对删除,如果它是有效的抢答系统和增值税进行检查。在抢答系统并从时间下井的时间,所以以后如果出现这种情况,请重试。 不幸的是,一旦购买已取得不能退还的增值税.

为什么我的信用卡付款被拒绝?

遗憾的是我们没有能看到为什么付款遭到拒绝。有几个原因可能发生这种情况:

  • 不正确的信用卡资料:仔细检查你有没有正确填写您的信用卡资料。
  • 不正确帐单地址:请检查您所提供匹配的支付卡的地址,账单地址。
  • 通过支付服务提供商阻止:请联系您的发卡银行。青蛙不尖叫可以访问失败的原因。这是很常见的发卡机构自动阻止国际采购。

上述的最常见的是国际支付给英国。所以,请联系您的发卡银行,并问他们为什么,直接被拒绝支付,他们往往可以授权国际收支。


或者,你可以尝试不同的卡,贝宝,或者您也可以通过以下方式联系我们 支持 并通过银行转账支付。

你有退款政策?

绝对!如果你不完全满意,你从这个网站购买的SEO蜘蛛,你可以,如果你内购买软件后的14天内与我们联系获得全额退款。获得退款,请按以下步骤操作。

通过支持@screamingfrog.co.uk与我们联系或 支持 并提供以下信息:

  • 您的联系信息(姓,名和电子邮件地址)。
  • 您的订单号。
  • 你的理由退款!如果有问题,我们大致可以帮忙。
  • 对于下载的项目,请提供证明该软件已经从所有计算机卸载,将永远不会被安装或使用任何更多的(截屏就足够了)。

如果你用信用卡购买的商品退款重新计入与用于订单的信用卡关联的帐户。


如果您已经通过贝宝购买的商品退款重新计入用于购买软件相同的PayPal帐户。


如果你使用任何其他付款方式购买的商品,我们将发布BACS,一旦被我们的财务部门批准的退款。


对于有关本政策有任何疑问,请与我们联系: 支持.

经销商
你与转销商合作?

经销商可以代表客户端的在线购买SEO蜘蛛许可证。请注意,许可的用户名自动从结账时输入的帐号名称生成。如果你需要自定义的用户名,那么请提前要求一个PayPal发票。

对于零售商来说谁是无法通过PayPal或信用卡在线购买,并与管理,如供应商的形式妨碍我们,我们将保留收取£50的管理费的权利。

该软件是如何传递?

该软件需要从我们的网站下载,许可证密钥是通过电子邮件电子方式提供。

什么是产品编号?

没有任何型号或SKU。

什么是经销商的价格?

我们不提供为经销商提供折扣优惠。价钱是 GBP每年149£每个用户。

我在哪里可以得到公司的信息?

在我们的 联系方式页面.

我在哪里可以得到许可条款?

许可的细节可以发现 这里.

我在哪里可以得到W-9​​表格信息?

现金赌钱游戏是一家总部位于英国的公司,所以这是不适用的。

我可以得到一个货币比其它英镑报价?

没有,我们只卖出英镑。

安装
为什么安装程序需要一段时间才能开始?

通常这是由于视窗 Defender的运行就可以了安全扫描,这可能需要长达几分钟的时间。当下载文件遗憾的是使用谷歌Chrome浏览器不会给出指示它正在运行的扫描。

Internet Expl要么er中确实给了这样一个指示,而Firefox不会在所有的扫描。

如果你去你直接下载文件夹,运行从那里安装你不必等待安全扫描运行。

为什么在安装时,我得到“写入错误打开文件”?

请重新启动计算机,然后重新启动安装过程。

我可以做一个静默安装?

是的,通过发出以下命令:

screamingfrogseospider-version.exe / s的

默认情况下,这将安装SEO蜘蛛:
C:\ Program Files文件(x86)的\现金赌钱游戏SEO蜘蛛

您可以通过以下命令选择一个替代的位置:

screamingfrogseospider-version.exe / S / d = C:\我的文件夹

设定
建议采取什么硬件?
什么操作系统的SEO蜘蛛上运行?

现金赌钱游戏蜘蛛在视窗,苹果电脑和Linux上运行。这是一个Java应用程序,需要Java运行时环境8或更高版本。你可以检查 这里 看到系统要求运行Java。你不并不需要单独安装java,它来包装的seo的蜘蛛。你可以 下载 现金赌钱游戏蜘蛛自由和尝试。

苹果电脑: 如果您使用的苹果电脑OS 10.7.2或降低请参见本 常问问题.

Linux的: 我们提供了一个Ubuntu的软件包为Linux。如果你想在非基于Debian发行运行搜索引擎蜘蛛请提取从.deb文件的jar文件和手动运行它。

视窗: 现金赌钱游戏蜘蛛也可以在服务器上的变体和从9.0版本起窗口10运行,现金赌钱游戏蜘蛛不能在视窗 XP上运行。

请注意 渲染功能 不可用的旧版操作系统。

为什么我得到错误的启动初始化嵌入式浏览器?

这通常是通过一些第三方软件触发,如防火墙或杀毒软件。请尝试禁用或添加ESTA例外。

你需要异常的添加根据什么变化,你正在使用的操作系统:

视窗:
C:\用户\ your_user_name \ .screamingfrogseospider \铬\ browsercore-的version_number \ browserc要么e32.exe

苹果系统:
〜/ .screamingfrogseospider /铬/ browsercore-的version_number / browserc要么e.app

你仍然能够使用搜索引擎的蜘蛛,但使 JavaScript的渲染 模式将是不可能的。

您可以 prevent this initialisation happening by going to '组态 > System > Embedded Browser”。

我如何提高记忆力?

请参阅 如何提高记忆力 在我们的节 用户指南。

为什么我正在运行的磁盘空间不足?

当使用 数据库存储 SEO蜘蛛模式下,你多少磁盘空间有,如果你有少于5GB的剩余会自动暂停监视器。如果您收到警告ESTA可以释放一些磁盘空间,以继续进行抓取。

If you are unable to free up any disk space, you can either configure the SEO蜘蛛 to use another drive with more space by going to 'Configuration > System > Storage' and selecting a folder on another disk, or switch to '存储器' by going to '组态 > System > Storage' 和 selecting '记忆 St要么age”。

这些改变设置或者需要重新启动,因此,如果您想继续当前的爬行,你将不得不 导出 并重新加载它在重启后。

可以在搜索引擎蜘蛛在Chromebook上运作?

我们没有SEO蜘蛛的Chromebook的版本。但是,您可以 安装crouton,设置Ubuntu 下载并安装SEO蜘蛛的Ubuntu的版本。

请注意,Chromebook的都不是很强大的,一般限于4GB内存的。这将意味着存储器被限制,以及可以抓取的网址的数量也将受到限制。你可以阅读更多关于SEO蜘蛛 记忆在我们的用户指南.

我可以使用外部SSD?

如果你没有内部SSD和你想 抓取大型网站 运用 数据库存储模式,那么外部SSD可以提供帮助。

有几件事情有这种设置记住。重要的是要确保你的机器具有USB 3.0和您的系统支持UASP模式。大多数新系统自动执行,如果你已经有了USB 3.0硬件。当您连接外部SSD,确保您连接到USB 3.0端口,否则阅读和写作将是缓慢的。

USB 3.0端口通常具有蓝色内部(如在其说明书中推荐),但并非总是如此;你通常需要一个蓝色端的USB电缆连接到蓝色的USB 3.0端口。简单!

After that, you need to switch to 数据库存储模式 ('组态 > System > St要么age'), 和n select the database location on the external SSD (the 'D' drive in the example below)。 数据库存储模式 那么你将需要重新启动搜索引擎蜘蛛,开始爬行之前。

接口问题
为什么我得到一个空白的屏幕?

SEO蜘蛛如果用户界面没有渲染你的机会are've那么你将遇到的java ESTA 窃听器。在我们的经验,这似乎是与英特尔HD 5XX系列显卡的问题。我们有这些最近较少,因此驱动程序更新可能有助于解决这个问题。

如果没有,请关闭SEO蜘蛛,然后打开一个文本编辑器下列文件:

C:\ Program Files文件(x86)的\现金赌钱游戏SEO蜘蛛\ screamingfrogseospider.l4j.ini

然后添加-Xmx线下以下几点:

-dprism.要么der = SW

(你可以有一个权限问题在这里,所以复制你的桌面,编辑,然后复制回可能更容易)。

现在,当您启动SEO蜘蛛如果用户界面正确呈现。

为什么GUI文本/字体乱码?

这是关系到机器上的字体。请阅读苹果电脑或视窗的相关部分取决于你的操作系统下面。


苹果电脑:

这是由本地字体问题引发的,通常是由于安装重复的Arial字体的字体引起的。


To investigate open the "FontBook" application. Go to "Edit > Look f要么 Enabled Duplicates..." to remove any duplicates. After resolving these try restarting the SEO蜘蛛.


如果你仍然有一个问题,我回去FontBook,并看看你的宋体字体,是否有任何消息关于孤男寡女修复呢?如果是这样,他们修复并重新启动搜索引擎蜘蛛。


If you still have an issue go to "File > Rest要么e St和ard Fonts...". 该 fonts that are removed by this will go into a separate folder in Font Book so you'll be able to add them back in as needed.


视窗:

这种类型的问题可能发生在添加自定义字体嵌入视窗,一些特别的Arial字体那编辑。


To restore default fonts open 'Control Panel > Appearance 和 Personalization > Fonts > Font settings”。 该n select the 'Rest要么e default font settings' option.

为什么任务栏上的蜘蛛展,但在屏幕上不?

SEO蜘蛛正在打开屏幕关闭,这可能是由于多显示器设置即最近已改变。

移动SEO蜘蛛的活性监视器使用Alt + Tab上以选择它,然后在窗口键的保持和使用箭头键将其移动到视图窗口。

为什么现金赌钱游戏蜘蛛冻结?

这通常是由于搜索引擎蜘蛛达到其内存限制。请阅读 如何提高记忆力.

为什么我遇到减速?

有许多的原因,你可能会遇到缓慢爬行速度还是慢的SEO蜘蛛下来。这些包括 -

  • 如果你正在执行一个大型爬行,你可能会达到SEO蜘蛛的内存容量。学习如何 增加SEO蜘蛛的记忆 和阅读我们的指南 爬行大型网站.
  • 该网站或服务器(或打他们太难了具体的指示)的响应速度慢。
  • 网络连接。
  • 问题要爬网的网站。
  • 大型网页或文件。
  • 爬行或观看大量网址。

抓取问题
为什么不会在现金赌钱游戏蜘蛛抓取我的网站?

这可能是下面列出了一些原因的:

  • 看的第一件事是状态码和状态在内部标签。该网站应以200状态码和“OK”响应状态。但是,如果没有,请阅读我们的指南 爬行时常见的HTTP状态代码,他们的意思,以及如何解决任何问题。
  • 该网站robots.txt封锁。在内部标签上的“状态代码”列将是一个“0”和“状态”的URL会说“robots.txt阻止的”列。您可以配置SEO蜘蛛 忽略的robots.txt under '组态 > Robots.txt > Settings”。
  • 该网站行为有所取决于用户代理。尝试改变 用户代理 under 组态->HTTP Header->User Agent.
  • 该网站需要JavaScript。尝试在禁用了javascript浏览器查看的网站清除缓存后。 seo的蜘蛛不执行默认的JavaScript,但它确实有 JavaScript的渲染 functionality in the paid version of the tool. If the site is built in a JavaScript framework, 要么 has dynamic content, adjust the rendering 组态 to 'JavaScript' under '组态 > Spider > Rendering tab > JavaScript' to crawl it. Remember to ensure JS 和 CSS files are not blocked by robots.txt. 请参阅我们的指南 如何抓取JavaScript网站.
  • 该 site requires Cookies. Can you view the site with cookies disabled in your browser after clearing your cache? Licenced users can enable cookies by going to 组态->Spider 和 ticking “允许Cookie” in the “Advanced” tab.
  • 在“nofollow’ attribute is present on links not being crawled. 有一个n option in '组态 > Spider' under the 'Crawl' tab to follow ‘nofollow’ links.
  • The page has a page level ‘nofollow’ attribute. The could be set by either a meta robots tag or an X-Robots-Tag in the HTTP header. 该se can be seen in the 'Directives' tab in the 'Nofollow' filter. To ign要么e the nofollow directive go to '组态 > Spider > Crawl' and tick 'Follow Internal nofollow' under the 'crawl behaviour section' 和 recrawl.
  • 该网站使用框架。现金赌钱游戏蜘蛛不抓取帧src属性。
  • 该 website requires an Accept-Language header (Go to '组态 > HTTP Header' 和 add a header called 'Accept Language' with a value of 'en-gb')。
  • 内容类型头部没有指示页面是HTML。这被示出在内容列和应该是 text / html的 要么 应用/ XHTML + xml的。 JavaScript的 渲染模式 另外将检查页面内容,看是否自行指定它,例如:

如果上述不帮助,请尽快与本网站,您是通过经历的状况和状态代码的细节 支持.

为什么我得到一个“连接被拒绝”的反应?

拒绝连接显示在“状态”列在搜索引擎蜘蛛的连接尝试,已在本地计算机和网站之间的某一点拒绝。
如果发生这种情况对所有站点始终那么它与本地计算机/网络的问题。请检查以下内容:

  • 你可以在浏览器中查看网站。
  • 请确保您有最新版本的 安装SEO蜘蛛.
  • 该软件如ZoneAlarm,防病毒(如防病毒查杀的高级版本,卡巴斯基)或防火墙保护软件不会从发出请求阻止你的机器/ SEO蜘蛛。现金赌钱游戏蜘蛛需要信任/接受。我们建议您的IT团队是在什么可能是在办公环境事业咨询。
  • 代理 is not accidentally ‘on’, under 组态->Proxy. 确保 box is not ticked, or the 代理 details are accurate 和 w要么king.
  • 如果你想抓取一个安全的网站(https://开头),而不是使用版本8.0或以上版本,请参阅 这里。

如果这是防止你抓取网站所有者,那么这是由于通常拒绝对用户代理要么连接,或使用防僵尸保护软件的服务器。请尝试以下方法 -

  • Changing the User Agent under '组态 > User Agent”。 Try switching to 'Chrome' 要么 '谷歌bot', the server might be ref运用 requests made from particular user-agents.
  • Use Forms Based Authentication under '组态 > Authentication > F要么ms Based”。 Add the website into our inbuilt browser, and view the site to see if a captcha needs to be completed. Click 'OK' and 'OK' to accept any cookies 和 see if you're able to crawl.

如果这是一个爬行过程中间歇性发生,那么请尝试以下方法:

  • 调整 爬行速度 / number of threads under '组态 > Speed”。
  • 在“精简版”的版本,你无法控制的速度,请尝试在网址并选择重新蜘蛛右击。

为什么我得到一个“连接错误”的回应?

错误连接超时或连接是一个消息当存在一个问题,在接收在所有的HTTP响应。

这通常是由于网络问题或 代理服务器设置。请检查您“可以连接到互联网。

If you have changed the SEO蜘蛛 代理服务器设置 (under '组态 > Proxy'), please ensure that these are correct (要么 they are disabled)。

为什么我得到一个“连接超时”的反应?

时发生连接超时SEO蜘蛛斗争为接收所有的请求超时的HTTP响应和。

通常,它可能是由于响应缓慢的网站或服务器负载下时,也可以是由于网络问题。我们建议如下 -

  • 确保您可以在浏览器中查看网站(或任何网站),并检查他们的加载时间的任何问题。硬刷新浏览器,以确保您没有看到缓存版本。
  • 降低 爬行的速度 在SEO蜘蛛配置,以减少奋力应对任何服务器的负载。尝试每秒1个网址,例如
  • 增加默认 响应超时 的10秒,至多20秒或30秒,如果网站是缓慢响应的配置。

如果您遇到这个问题对于每一个网站,请尝试以下方法 -

  • 确保 代理服务器设置 是不小心启用,如果启用了细节是准确的。
  • 确保ZoneAlarm的,反病毒或防火墙保护软件(如防病毒查杀的高级版本)没有从发出请求阻止你的机器。现金赌钱游戏蜘蛛需要信任/接受。我们一般建议您的IT团队,谁知道你的系统是什么的原因可能协商。

为什么我得到一个“403禁止”错误响应?

当Web服务器拒绝访问搜索引擎蜘蛛的出于某种原因请求时发生的403个禁止状态代码。

如果发生这种情况持续,您可以看到该网站在浏览器中,它可能是Web服务器行为有所取决于用户代理。在高级版本尝试 调整所述用户代理设置 under 组态->User Agent. For example, try crawling as a bot, such as ‘谷歌bot Regular’, 要么 as a browser, such as ‘Chrome’.

如果爬网过程中出现这种情况间歇性,它可以在速度蜘蛛请求急剧的服务器页面到期。在SEO蜘蛛的高级版本,你可以 降低速度 的请求。如果你正在运行的“精简版”的版本可能会发现右键点击链接并选择重新蜘蛛会有所帮助。

为什么我得到一个“503 Service Unavailable”错误反应?

当Web服务器拒绝访问搜索引擎蜘蛛的出于某种原因请求时发生的503服务不可用状态代码。

如果发生这种情况持续,您可以看到该网站在浏览器中,它可能是Web服务器行为有所取决于用户代理。在高级版本尝试 调整所述用户代理设置 under 组态->HTTP Header->User Agent. For example, try crawling as a bot, such as ‘谷歌bot’, 要么 as a browser, such as ‘Chrome’.

如果爬网过程中出现这种情况间歇性,它可以在速度蜘蛛请求急剧的服务器页面到期。在SEO蜘蛛的高级版本,你可以 降低速度 的请求。如果你正在运行的“精简版”的版本可能会发现右键点击链接并选择重新蜘蛛会有所帮助。

为什么网址重定向到自己?

当网站需要使用Cookie,这是如果起始URL重定向到自身或到另一个URL,然后回到自己经常出现在搜索引擎的蜘蛛(任何必要的饼干都有可能被沿途丢弃)。在用禁用的cookie浏览器中查看时,这也可以看出:

redirect_warning

解决这一问题的最简单方法是使用先加载页面 基于表单的身份验证.

‘组态 > Authentication > F要么ms Based’

选择“添加”,然后输入一个重定向的URL,等待页面点击“OK”之前加载。

因此,搜索引擎蜘蛛的内置浏览器铬已经接受饼干,你现在应该可以正常抓取网站。

绕过这种重定向的次级方法是确保“允许Cookie”配置设置:

'组态 > Spider > Advanced > 允许Cookie'

绕过重定向行为,作为现金赌钱游戏蜘蛛抓取的每个网址只有一次,必须添加一个参数到起始URL:

//www.example.com/?rewrite-me

​ 一 URL重写 然后必须添加规则,删除当蜘蛛被重定向回到起始URL此参数:

组态 > URL Rewriting > Remove Parameters​

那么搜索引擎蜘蛛应该能够抓取通常从起始页现在有任何所需的cookie。

为什么我的爬行完成?

我们建议您查看搜索引擎蜘蛛爬行网站仍然是(通过查看抓取速度和总量在GUI的底部),和审查的URL,它已经爬行。 根据搜索引擎蜘蛛,一直在抓取发现的网址,它会爬解释为什么比例不增加:

  • 网址似乎正常 - 蜘蛛不断上一个非常大的网站寻找新的URL。考虑了分裂爬进部分。
  • Many similar URL parameters – 该 Spider keeps finding the same URLs with different parameters, possibly from faceted navigation. Try setting the query string limit to 0 ('组态 > Spider', “Limit Number of Query Strings” in the “Limits” tab, use the 排除 要么 定制的robots.txt 功能)。
  • 有与零件是重复自己多长的URL - 存在这样的情况蜘蛛不断发现,导致永无止境的循环URL的链接相对误差。使用 排除 功能,排除违规的网址。

这是可能的,查看网址仍处于通过出口下的顶级菜单“批量出口”的“排队网址”报告中的抓取队列。此外,我们建议您阅读我们的指南 如何抓取大型网站,其中有大量的实用技巧。

为什么我得到一个试图打开一个保存的爬行时,“项目打开失败java.io.EOFException的”?

这意味着爬网并没有完全保存,这就是为什么它不能打开。 EOF代表“文件结束”,这意味着搜索引擎蜘蛛无法读取该文件的预期结束。 Java end of file err要么 这可能是由于搜索引擎蜘蛛崩溃期间保存,通常是由于内存不多了。如果退出搜索引擎蜘蛛在保存,或者你的机器重新启动,或者您蒙受powercut这也可以发生。 不幸的是没有办法打开或检索数据的抓取,因为它是不完整的,因此丢失。

请考虑改用 数据库存储模式 在哪里爬网会自动存储(你 不需要“拯救”),或者增加增加你的 内存分配 在存储器存储模式,这将有助于降低任何保存到爬行在未来的问题。

组态
蜘蛛可以多少网址抓取?

现金赌钱游戏蜘蛛使用可配置的混合存储引擎,这使得它抓取百万网址。然而,它确实需要配置(下面说明)和 正确的硬件.

默认情况下,搜索引擎蜘蛛会抓取使用RAM,而不是保存到磁盘。 ESTA方面具有优势,但它无法抓取的规模,没有充足的RAM中分配的。

在标准模式存储器没有它可以抓取的网页一组数字,这取决于网站的复杂性和用户的机器规格。现金赌钱游戏蜘蛛设置1 GB的32位和2GB的64位机器,这使它能够大约抓取的最大存储器。 10K-100K URL的网站。

您可以 增加SEO蜘蛛的记忆 分配,并爬进数十万纯粹使用RAM的URL的。在64位机的RAM 8GB可以让你一般大约爬行。 200-500k网址,如果存储器分配增加。

现金赌钱游戏蜘蛛可以被配置为抓取数据保存到磁盘,这使它能够抓取百万网址。然而,我们建议使用固态驱动器(SSD)这个选项,如硬盘驱动器显著的写入和读取数据慢。这可以通过选择被配置“数据库存储’ mode (under ‘组态 > System > St要么age’)。

作为粗略导中,SSD和在数据库存储模式的RAM 8GB,应允许SEO蜘蛛至约爬行。 500万页的URL。

请参阅我们的指南 爬行大型网站 欲获得更多信息。

我如何使用配置选项?

现金赌钱游戏蜘蛛配置在该工具的免费版本的限制。

您需要 购买许可证 访问配置,您可以通过点击蜘蛛的界面下的“许可”的“购买许可证”选项做到这一点。

什么每个配置选项吗?

请阅读我们的 用户指南,特别是 配置选项 部分。

我如何抓取网站维克斯?

总之,你不应该做任何特殊抓取威克斯网站了。威克斯使用动态渲染,以显示他们的网站的服务器端渲染(SSR)版本的搜索机器人,浏览器和现金赌钱游戏SEO蜘蛛用户代理。

威克斯网站在历史上建立使用谷歌的现在已经过时 AJAX抓取方案与逃脱片段的URL。谷歌宣布,他们将 停止使用旧的AJAX抓取方案 在2018年Q2(和将呈现#!网址和内容来代替)。

If you experience any problems crawling Wix websites, double check your user-agent is either 谷歌bot 要么 Screaming Frog SEO蜘蛛 (Config > 用户代理)。

请问SEO蜘蛛使用的IP地址和端口?

现金赌钱游戏蜘蛛从它被安装在机器上运行,所以IP地址很简单,就是本机/网络。你可以找出这是通过键入“IP地址”成什么样 谷歌.

用于连接本地端口将从短暂的范围。端口被连接到通常为80端口,则默认http端口或端口443,默认HTTPS端口。其他端口将被连接到如果网站被抓取或任何其链接指定不同的端口。例如://www.example.com:8080/home.html

做SEO的蜘蛛抓取PDF?

现金赌钱游戏蜘蛛将检查链接的PDF文档。这些网址可以在内部和外部突出部的PDF滤波器下观察到。

它不解析PDF文档目前发现链接抓取到。

为什么我的包含/排除功能工作?

包括排除 是大小写敏感的,所以任何功能需要的URL完全匹配,因为它出现。请阅读更多信息这两个指南。

功能将被应用到的网址还没有被搜索引擎蜘蛛爬行尚未发现或在队列中进行处理。哪些URL正在由目前的SEO蜘蛛处理将不会受到影响。

功能将不会在蜘蛛模式被应用到一个抓取的起始URL。然而,也适用于所有他们的URL列表模式。

*。 是正则表达式通配符。

What’s the difference between ‘抓取开始文件夹之外’ & ‘Check links outside folder’?
如何蜘蛛治疗的robots.txt?

该robots.txt的SEO蜘蛛兼容。它检查 robots.txt的以同样的方式为谷歌.

它将检查(子)域的robots.txt的,并按照对谷歌bot指令具体地说任何或所有用户代理。您可以调整用户代理,它会跟随基于配置的具体指示。

此外该工具支持文件的URL值匹配(通配符* / $)(例如谷歌bot)。请参阅上述文件以了解更多信息或我们的 在用户指南中的robots.txt部。您可以在高级版本关闭此功能。

可以在搜索引擎蜘蛛爬行分期或开发网站的密码保护或登录落后?

现金赌钱游戏蜘蛛支持两种形式的认证,基于其包括基本标准和摘要认证,和web表单的身份验证。


Basic & 摘要式身份验证

有基本和摘要式身份验证,无需设置,它是一个需要登录的网页的抓取过程中自动检测。如果您访问的网站和浏览器给你一个弹出要求用户名和密码,这将是基本或摘要式身份验证。如果登录屏幕包含在页面本身,这将是一个Web表单的认证,这是在下一节讨论。

经常在开发用地将也可通过robots.txt封锁的为好,所以一定要确保这不是这种情况,或者使用“忽略robot.txt的配置”。然后只需插入升级网站的网址,抓取和弹出框会出现,就像它在Web浏览器,要求输入用户名和密码。 authentication 输入您的凭据,并抓取将继续正常。你不能预先输入登录凭证 - 当需要身份验证的抓取网址时,他们被输入。该功能不需要许可证密钥。 尝试以下网页,看看验证您的浏览器是如何工作的,或者在SEO蜘蛛。

Web表单认证

还有其他的网络形式以及需要你的cookies登录进行身份验证,以便能够查看或抓取区域。现金赌钱游戏蜘蛛允许用户登录到内建在Chromium浏览器的搜索引擎蜘蛛的这些网页表单,然后抓取。此功能需要一个许可证才能使用它。

To log in, simply navigate to ‘组态 > Authentication’ then switch to the ‘Forms Based’ tab, click the ‘Add’ button, enter the URL f要么 the site you want to crawl, 和 a browser will pop up allowing you to log in.

请阅读 爬行网页表单密码保护的网站 在我们的用户指南,之前使用此功能。一些网站也可能需要 JavaScript的渲染 登录时,才能够抓取启用。

请注意 - 这是一个非常强大的功能,因此应负责任地使用。现金赌钱游戏蜘蛛点击页面上的每一个环节;当您在已经登录可能包括链接到您注销,创造职位,安装插件,甚至删除数据。

我可以抓取多个网站在同一时间?

是。有两种方法可以做到这一点:

1)开拓SEO蜘蛛,一个是要爬每个域的多个实例。 苹果电脑用户检查 这里.

2) Use list mode (Mode->List)。 Remove the search depth limit (Configuration->Spider->Limits 和 untick “Limit Search Depth”, untick “忽略的robots.txt” (组态->Robots.txt->Settings) then upload your list of domains to crawl.

爬行结果
为什么现金赌钱游戏蜘蛛没有找到一个特定网页或一组网页?

现金赌钱游戏蜘蛛通过扫描输入的起点网站的HTML代码,找到页面 链接,它会又爬找到更多的链接。因此,找到一个网页,必须有来自于现金赌钱游戏蜘蛛跟随爬行的起点明确链接路径。 如果有一个清晰的路径,那么这些链接或链接页面上必须存在的方式SEO蜘蛛或者不能“看”或抓取。

因此,请确保以下几点:

  • 该 link is an HTML anchor tag, the SEO蜘蛛 does not execute JavaScript in the st和ard configuration, so links that exist 只要 in JavaScript will not be ‘seen’ or crawled. If the site is built in a JavaScript framework, 要么 has dynamic content, adjust the rendering 组态 to 'JavaScript' under '组态 > Spider > Rendering tab > JavaScript' to crawl the website.
  • 如果任何链接或链接页面有“nofollow的”属性或指令防止SEO蜘蛛从以下这些链接。默认情况下,搜索引擎蜘蛛服从,除非“nofollow的”指令的'遵循内部nofollow的'配置被选中。
  • 预期的网页都在同一子域中起始网页。默认情况下,链接到不同的子域被视为外部,除非 抓取所有子域名 选项被选中。
  • 如果预期的网页在不同的子文件夹到爬行的起点 抓取外启动文件夹 选项被选中。
  • 链接网页未被阻止被robots.txt。默认情况下的robots.txt服从所以阻止网页上的任何链接将不可见,除非 忽略的robots.txt 选项被选中。如果该网站使用JavaScript和渲染配置被设置为“的javascript”,确保JS和CSS未被阻止被robots.txt。
  • 你没有一个 包括 要么 排除 功能设置是限制了爬行。
  • 确保类别页面(或类似)在爬行过程中没有暂时无法访问,给人一种连接超时,服务器错误等防止被发现链接的网页。
  • 默认情况下,现金赌钱游戏蜘蛛不会抓取网站的XML网站地图,以发现新的URL。但是,您可以选择“抓取链接的XML的Sitemaps'中的配置。

为什么结果抓取之间的变化呢?

这种情况的最常见的原因有:

  • 爬网设置是不同的,这可能会导致不同的页面被抓取或被赋予不同的反应,从而导致不同的结果。
  • 该网站已经改变了,这意味着抓取的不同元素被不同地报告。
  • 现金赌钱游戏蜘蛛接收不同的响应,特定URL 超时 或给予 服务器错误. This could mean less pages are discovered overall as well as these being inconsistent between crawls. Remember to double check under 'Response Codes > No Responses' and right click on URLs 和 click to 're-spider' on URLs that might have intermittent issues (such as 超时 要么 服务器错误)。

另一点可能影响抓取结果,是在哪些页面被发现的顺序。如果 让饼干,一个页面,下降,导致某些URL正在接受治疗的不同(如重定向到被使用的语言选择后一个不同的语言版本)一个cookie可能会导致这取决于Cookie的抓取过程中拾取完全不同的结果。在这些情况下,多爬网可能需要进行, 排除 特定部分,以便只有一个cookie的行为被设置在同一时间。

为什么现金赌钱游戏蜘蛛没有找到图片?

一般有两个原因:

  • The images are loaded 运用 JavaScript. Try viewing the page in your browser with JavaScript disabled to see if this is the case. 该 SEO蜘蛛 does not execute JavaScript by default. If the site is built in a JavaScript framework, 要么 has dynamic content, adjust the rendering 组态 to 'JavaScript' under '组态 > Spider > Rendering tab > JavaScript' to crawl it. Remember to ensure JS 和 CSS files are not blocked.
  • 图像由robots.txt封锁。您可以 忽略的robots.txt 要么 定制的robots.txt 要允许抓取。

为什么我遇到的浏览器不同的反应?

现金赌钱游戏蜘蛛的HTTP请求是一个传统的浏览器经常和其他工具不同,所以有时你可以体验,如果您访问的页面或使用不同的工具来检查响应比不同的反应。

蜘蛛SEO的响应报告简单地通过服务器发送给它时,它发出请求,这将不会是不正确的,但可以从什么可以在别的地方经历不同。 一些常见的因素会导致服务器以得到不同的响应,这是在SEO蜘蛛配置是 -

  • 用户代理 - 利用搜索引擎蜘蛛它作为默认的用户代理自己,所以做浏览器。你可以找到 用户代理配置 under ‘组态 > HTTP Header > 用户代理’. If you adjust this to a browser user-agent (Chrome etc), you may experience a different response.
  • 饼干 - 默认现金赌钱游戏蜘蛛不接受cookies(类似于谷歌)。然而,浏览器做。如果您在您的浏览器禁用cookie,你可能会看到页面没有加载了,发出会话ID到URL,或重定向到本身。您可以 '允许Cookie' under '组态 > Spider > Advanced”。
  • JavaScript - Browsers will execute JavaScript, and by default the SEO Spider does not. So you may experience small changes in page content, to much larger differences if the site is built 运用 a JavaScript framework, 要么 be redirected to a new location completely in a browser. Similar to 谷歌, the SEO蜘蛛 can render web pages, and crawl them after JavaScript has come into play. 您可以 turn this on, by navigating to '组态 > Spider > Rendering' 和 choosing 'JavaScript的渲染”。在底部的“呈现的页面”选项卡将帮助调试之间什么SEO蜘蛛可以看到,相比于浏览器的任何差异。如果您的网站使用了JavaScript框架构建,那么请阅读我们的“如何抓取JavaScript网站“指南。
  • 接受语言头 - 您的浏览器将提供一个接受语言头用你的语言。类似的谷歌bot,SEO的蜘蛛 不提供的接受语言头 在默认情况下请求。但是,您可以调整 接受语言组态 under '组态 > HTTP Header > Accept-Language”。
  • 速度 - 服务器可以在压力下和负载时有不同的反应。他们的回答可能是不太稳定。我们推荐 降低爬行速度 并查看是否响应,然后改变, 使用Wireshark的独立核实反应.

总为何“已完成”的网址不匹配什么我出口?

在“完成”全网址是网址,现金赌钱游戏蜘蛛遇到的数量。这是完整的网址抓取,加上任何“内部”和“外部”的网址robots.txt阻止的。

Depending on the settings in the robots.txt section of the ‘组态 > Spider >Basic’ menu, these blocked URLs may not be visible in the SEO蜘蛛 interface.

If the ‘Respect Canonical’ 要么 ‘Respect Noindex’ options in the ‘组态 > Spider > Advanced’ tab are checked, then these URLs will count towards the ‘Total Encountered’ (Completed Total) 和 ‘Crawled’, but will not be visible within the SEO蜘蛛 interface.

在“响应代码”选项卡,出口将呈现由蜘蛛遇到的除了那些上面详细的设置隐藏的所有URL。

响应时间是如何计算的?

它是从它需要发出一个HTTP请求,并从服务器的完整的HTTP响应返回的时间来计算。在接口SEO蜘蛛显示的数字是秒。

请注意,ESTA数字可能不是100%可重复的,因为它在服务器负载和客户端的网络活动很大程度上取决于在提出请求的时间。

ESTA数字不包括当在JavaScript渲染模式下载额外的资源所花费的时间。单独显示每个资源在用户界面中凭借自身的响应时间分别。

What do Indexable & Non-Indexable mean?

在抓取发现的每个URL被归类为“可转位”或“不可索引”。

“可转位”是指能够被抓取的URL,具有“200”状态代码进行响应,并允许被编入索引。

“非转位”是不能被抓取的URL,不与“200”的状态代码做出响应,或者不具有要被索引的指令。

每一个非可转位的网址包含与之相关的“可转位状态”,从而迅速解释了为什么它不是可转位。

不可索引可以包括如下网址 -

  • robots.txt阻止的。
  • 没有反应。
  • 重定向(3XX,元刷新,或JavaScript重定向)。
  • 客户端错误(4XX)。
  • 服务器错误(5XX)。
  • NOINDEX(或 '无')。
  • canonicalised。
  • nofollow的。

现金赌钱游戏蜘蛛会考虑元机器人,X机器人标签,规范链接元件和相对=“规范” HTTP标头用于指示和礼服信息。 这是很常见的部位有一个自我引用以各种理由元刷新,通常这并不影响网页的索引。然而,应作进一步调查,因为它重定向到自身,这就是为什么它被标记为“不可索引”。

To stop self referencing meta refresh URLs being considered as 'non-indexable', untick the 'Respect Self Referencing Meta Refresh' 组态 under '组态 > Spider > Advanced”。

Why are page titles &/or meta descriptions not being displayed/displayed inc要么rectly?

(!或两者),如果有问题的网站或网址具有页面标题和meta描述,而是一个在SEO蜘蛛没有显示这通常是由于以下原因 -

1)SEO蜘蛛读取最多的20元标记。所以,如果有超过20 meta标签和meta描述是20元标签之后,它会被忽略。

2) 该 SEO Spider does not execute JavaScript by default. Modifications to any HTML elements via JavaScript will not be seen by the SEO蜘蛛. If the site uses JavaScript, amend the rendering 组态 to 'JavaScript' under '组态 > Spider > Rendering' to crawl it. Remember to ensure JS 和 CSS files are not blocked.

为什么网址数量爬不匹配的谷歌搜索控制台中报道谷歌或错误索引结果的数量?

有许多原因会导致抓取找到的网址的数量可能不会在谷歌索引结果的数量相匹配:在搜索引擎蜘蛛的比赛报道的在谷歌搜索控制台或错误(通过网站查询)。

首先,抓取和索引都相当独立的,所以总是会有一些差距。网址会被抓取,但它并不总是意味着他们实际上在谷歌索引。这是要考虑,有可能是在你不知道的,或者不再希望编入索引,例如谷歌的索引中的内容的一个重要领域。同样,你可能会发现在爬行比在谷歌的索引多个URL,由于使用的指令(NOINDEX,canonicalisation),甚至重复的内容,网站的低信誉等。

其次,搜索引擎蜘蛛抓取只有在抓取的那个时刻一个网站的内部链接。谷歌(更具体的谷歌bot)抓取整个网页,所以不只是发现一个网站的内部链接,而且还指向一个网站的外部链接。

谷歌bot的抓取也没有时间上的快照,它是在一个网站的生命周期内从当它第一次发现。因此,你可以(从停产的产品或服务还是一个200“OK”响应网站上的老款也许)未链接到了即或内容找到旧网址 只要 通过在其指数仍外部源链接。现金赌钱游戏蜘蛛将无法发现这些不挂在内部,像孤儿的网页或网址只能通过外部链接访问的URL。

还有其他原因还有,这些可能包括 -

  • 在设置了SEO蜘蛛抓取。为默认搜索引擎蜘蛛 尊重的robots.txt,尊重 内部和外部URL的“nofollow的” & 爬行礼服 但无法执行JavaScript。因此,请检查您的 组态。请记住,谷歌可能已经能够访问以前这些URL现在被封锁,nofollow的等等。
  • 该 SEO蜘蛛 does not execute JavaScript by default. If the site is built in a JavaScript framework, 要么 has dynamic content, adjust the rendering 组态 to 'JavaScript' under '组态 > Spider > Rendering tab > JavaScript' to crawl it. Remember to ensure JS 和 CSS files are not blocked.
  • 谷歌包括经由robots.txt阻止在其搜索结果数的URL。不要忘了,刚刚的robots.txt被抓取停止一个URL,它不被索引并显示在谷歌停止URL。
  • 谷歌抓取XML的Sitemaps。 seo的蜘蛛目前不爬默认XML网站地图,你目前有 上传到列表模式。我们决定不通过默认爬XML的Sitemaps的原因是,它不应该弥补了网站的架构。如果在该网站的内部链接结构的网页没有联系,只有在一个XML站点地图,这将有助于它被发现并索引,但机会也不会表现非常好有机。这显然是因为它不会通过任何实际的PageRank,像一个真正的内部链接。因此,我们认为,它通过分析自然抓取和内部链接的索引过程的网站,了解网站的设置了一个更好的主意是非常有用的。也有一些场景中它确实是有意义的,虽然抓取XML的Sitemaps,我们可以作为一个选项,使这成为可能的未来。
  • 谷歌的结果通过网站数:查询可以非常不可靠的!
  • 谷歌的错误报告可能会非常缓慢和过时!

为什么抓取的网址数量(或发现错误)不匹配另一个履带?

首先,在 免费的“精简版”的版本被限制为500个网址抓取限制 明明一个网站可能是显著更大。如果你有一个许可证,主要的原因一个SEO蜘蛛爬行可能会发现或多或少的联系(实际上是断开链接等),比另一个履带简直是下到不同的默认 组态 调校每个。

为默认搜索引擎蜘蛛 尊重的robots.txt,尊重 内部和外部URL的“nofollow的” & 爬行礼服。但其他抓取工具有时不尊重这些为默认,因此为什么可能有差异。显然,这些都可以调整到内的自己的喜好 组态.

而爬行更多的URL可能看起来是一个很好的事情,实际上它可能是完全没有必要的和时间和精力的浪费。请您谨慎选择您要爬网的内容。

我们认为SEO蜘蛛是目前最先进的履带,它经常会发现更多的URL比其他抓取,因为它 爬行礼服阿贾克斯类似的谷歌bot 其中其他抓取工具可能没有标准,或在他们目前的能力。 还有其他原因还有,这些可能包括 -

  • 抓取的用户代理,速度或时间可以发挥作用。
  • 其他一些爬虫可以使用XML的Sitemaps用于发现和爬行。 seo的蜘蛛目前不爬默认XML网站地图,你目前有 上传到列表模式。我们决定不通过默认爬XML的Sitemaps的原因是,它不应该弥补了网站的架构。如果在网站的内部链接结构,只有在一个XML站点地图页面没有链接到,这将有助于它被发现并索引,但机会也不会表现非常好有机。这显然是因为它不会通过任何实际的PageRank,像一个真正的内部链接。因此,我们相信,它通过内部链接的自然检索和索引程序来分析网站获得的网站建立一个更好的想法是非常有用的。也有一些场景中它确实是有意义的,虽然抓取XML的Sitemaps,我们可以作为一个选项,使这成为可能的未来。
  • 其他一些爬虫抓取可能分析着陆页,或者在谷歌搜索工具控制台顶部的网页的URL。再次,这是不自然的抓取和索引的过程,但可能是我们在未来考虑的东西。

报告
我如何保持在列表模式出口订单?

如果您希望将数据以列表模式导出它被上传相同的顺序,然后用它旁边的“上传”和“开始”按钮,出现在用户界面顶部的“导出”按钮。 maintain list order on exp要么t

在出口数据将会以相同的顺序,并包括所有的原始上传相关的确切网址,包括重复或进行任何修复起坐。

为什么字符编码不正确的?

现金赌钱游戏蜘蛛通过在HTTP内容类型报头,例如,“字符集=”参数决定一个网页的字符编码:

“text / html的;字符集= UTF-8”

你可以在搜索引擎蜘蛛的界面中的“内容”栏看到这个(在各种选项卡)。如果这是不存在于HTTP报头中,SEO蜘蛛然后将读取的第一个2048个字节的HTML页面的,看是否有是HTML内的字符集。

例如 -

“META HTTP-当量=”内容类型” CONTENT =” text / html的;字符集=窗户-1255“

如果不是这种情况下,我们继续假设页面是UTF-8。

蜘蛛不会记录任何字符编码问题。如果有,是造成问题的特定页面,通过设置的URL的最大数目抓取为1,然后抓取网址只执行该页面的抓取。您可能会看到在trace.txt日志文件中的行(该位置是 - C:usersyourprofile.screamingfrogseospidertrace.txt):

20-06-12 20时32分50秒的信息seo.spider.net.inputstreamwrapper:logunsupp要么tedcharset不支持的编码“Windows的”恢复到“UTF-8”页上的“//www.example.com” java.io. un支持edencodingexception:视窗的”。这可能是该网站上的错误,或者您可能需要安装额外的语言包。

解决这一问题的解决方案是通过任一所附的HTTP报头的内容类型字段或确保在源代码中的字符集参数是第一2048个字节头元件中的HTML的内指定数据的格式。

如何检查链接是否损坏(404错误)?
如何批量出口的所有反向链接至3XX,4XX(404错误等),或者5XX页?
我如何批量出口失踪替代文字的所有图像?

您可以通过在顶层导航菜单中的“批量导出”选项批量出口数据。

Simply select 'Bulk Export > Images > Images Missing Alt Text Inlinks’ option to export all references of images without alt text. Please see m要么e in 我们的向导 '如何找到丢失的图像替代文本”。

如何批量导出所有图像ALT文字?

您可以通过在顶层导航菜单中的“批量导出”选项批量出口数据。只需选择“所有图像”选项导出在我们的抓取索引中的所有图像和相关替代文字。请查看更多关于 出口 在我们的用户指南。

我在哪里可以看到robots.txt所封锁的网页?

You can simply view URLs blocked via robots.txt in the UI (within the ‘Internal’ and ‘Response Codes’ tabs f要么 example)。 Ensure you have the ‘Show internal URLs blocked by robots.txt’ configuration ticked under 'Configuration > Robots.txt > Settings'. 您可以 view external URLs blocked by robots.txt within the 'External' 和 'Response Codes' tabs by ticking the ‘Show External URLs blocked by robots.txt’ 组态 under '组态 > Robots.txt > Settings”。

不允许的网址,将出现一个“状态”为“robots.txt阻止的”,有一个与“响应代码”标签,其中这些可被视为下“robots.txt阻止的”过滤器。

该“robots.txt阻止的”过滤器还显示一个“匹配的robots.txt线”列,它提供了行号和禁止用户真实排除每个URL的robots.txt条目的路径。如果多条线路中的robots.txt封锁网址,现金赌钱游戏蜘蛛只会在第一次遇到,类似搜索控制台内的谷歌报告。 Blocked by robots.txt

请参阅使用SEO蜘蛛作为我们的指导 robots.txt测试.

如果您使用的搜索引擎蜘蛛的老2.40 MAC版本,你可以在概述选项卡的“总结”部分查看用户界面的右侧抓取的“robots.txt所封锁的总” 。这个计数包括内部和外部的网址。目前,还没有看问题的方法哪些网址已被禁止在用户界面中。但是,它有可能获得来自搜索引擎蜘蛛日志文件的信息,抓取后。每一个网址robots.txt封锁的时候,它会报告如下:

2015年2月18日08:56:09652 [robotsmain 1]信息 - robots.txt文件防止 '//www.example.com/page.html' 已被第2行,原因”蜘蛛:禁止:HTTP ://www.example.com/”。你可以选择忽略蜘蛛配置的robots.txt文件。

您可以 view the log file(s) by either going to the location shown for ‘Log File’ under Help->Debug, 要么 下载ing 和 unzipping the log files from Help->De窃听器->Save Logs.

XML的Sitemaps
如何创建一个XML站点地图?

请阅读我们的“如何创建一个XML站点地图“教程,这也解释了如何生成一个XML站点地图,包含或通过所有可用的配置设置排除页面或图像并运行。

为什么我的导出网站地图缺少一些网址吗?

canonicalised,封端的robots.txt,加入noindex和分页网址不包括在默认情况下的站点地图。

愿您选择当您导出网站地图滴答作响的“页”选项卡中的复选框合适的(S)您的站点地图包含这些。

请阅读我们的用户指南 XML网站地图制作.

为什么我不能生成图像列表的图像地图?

图像站点地图协议所需要的HTML页面图像上,以被包括在站点地图中引用。图像列表只没有这个信息,因此无法生成一个网站地图。

在谷歌的图像的Sitemaps要求详情可看到 - //支持.google.com/webmasters/answer/178636.

自定义抽取
我怎么能提取匹配的XPath我的所有标签?

从6.0版本,默认情况下搜索引擎蜘蛛会收集所有的XPath值,而不需要使用多个提取和索引选择。 请阅读我们的网站 刮指南 更多细节和XPath例子。

为什么我的正则表达式提取超过预期?

如果您使用的是像一个正则表达式 *。 包含贪婪量词,你最终可能会匹配比你想要的。该解决方案是使用正则表达式像 。*?.

例如,如果你正在试图从以下JSON的ID:

“代理”: { “ID”: “007”, “名”:“詹姆斯·邦德” }

运用 “ID”:”(。*)” 你会得到:

007" ,‘名’:“詹姆斯·邦德

如果你使用 “ID”:”(。*?)” 你将解压:

007

我如何提取一个正则表达式的多个匹配?

如果你希望所有从下面的HTML的H1S​​:


2个H1S


H1-1


H1-2





然后我们可以使用:

(。*?)

谷歌分析整合
为什么允许用户访问我的谷歌帐户时,我收到一个错误?

让你的谷歌账户的SEO蜘蛛的访问后,你应该被重定向到看起来像这样的画面: 但是,如果您收到类似这样的错误: 有几件事情要检查:

  • 有你的机器上运行防止SEO蜘蛛听了URL中指定的端口上的任何安全软件?端口为localhost后的数字:在地址栏中,63212在上面的屏幕截图。
  • 在您的浏览器发送请求,用于本地主机,一个代理呢?你有时可以告诉这个如果失败屏幕中提到的代理服务器的名称,如鱿鱼为例。

为什么我连接到谷歌 Analytics失败?

如果您收到以下错误当试图连接到谷歌 Analytics(分析)或搜索控制台: 请阅读 我们的向导 在解决这个。

为什么不GA数据填充对我的网址?

在您选择谷歌分析的网址查看要匹配在搜索引擎蜘蛛爬行发现完全网址,为要匹配,准确地填写数据。如果它们不匹配,那么GA数据将无法匹配,将不填充。这是一个最常见的原因。

If 谷歌 Analytics data does not get pulled into the SEO蜘蛛 as you expected, then analyse the URLs under ‘Behaviour > Site Content > Landing Pages’ 和 ‘Behaviour > Site Content > All Pages’ depending on which dimension you choose in your query. Try clicking on the URLs to open them in a browser to see if they load c要么rectly.

您还可以导出 “孤儿页面”报告 which shows a list of URLs returned from the Google Analytics & Search Analytics (from Search Console) API’s for your query, that didn’t match URLs in the crawl. Check the URLs with source as ‘GA’ for Google Analytics specifically (those marked as ‘GSC’ are Google Search Analytics, from 谷歌 Search Console)。 该 URLs 这里 need to match those in the crawl, f要么 the data to be matched accurately.

如果它们不匹配,那么搜索引擎蜘蛛将无法将数据精确地匹配起来。我们建议您检查默认谷歌分析查看设置(如“默认页”)和过滤器,如“扩展的URL”的黑客,这都会影响如何网址显示,因此对抓取匹配。如果您希望网址投其所好,你可以经常进行必要的赔偿谷歌分析中,或使用“原始”未经编辑视图(你应该始终有其中的一个理想情况下)。

请注意 - 有一些很常见的情况,其中在谷歌分析网址可能无法在爬行匹配的网址,让我们通过(URL中大写和小写字符)匹配的拖尾和非尾随斜线的网址和大小写覆盖这些。谷歌不通过它们的API通过协议(http或https),所以我们也匹配这个数据自动地为好。  

为什么没有出现在搜索引擎的蜘蛛GA API数据匹配什么在GA接口报道?

有许多原因通过谷歌API到SEO蜘蛛获取的数据,可能是在谷歌分析界面中报告的数据不同。首先,我们建议您查看的同一帐号三重检查,物业,查看,段,日期范围,指标和维度。 l和ingpagepath和PAGEPATH当然会提供例如非常不同的结果! 如果数据仍然不匹配,则有一些共同的原因 -

  • 谷歌的API可以只返回略有不同的指标 - 我们测试过这一点,有时从API中的数据,可以只是以什么在接口报道略有不同。
  • 我们用 默认采样和你在谷歌分析设置可能会有所不同。
  • 我们使用GA:主机名维和GA:主机名== www.yourdomain.co.uk过滤,以除去可能使用相同的GA跟踪代码为您的核心域以外的域。谷歌并没有默认的界面做到这一点,那么你的主页的着陆页的会议,可能被夸大了的例子。

实际上我们建议使用 谷歌分析API查询资源管理器 和查看回来的数据,与我们为默认(显然是在利用该帐户,资源和资料检视你正在测试的网站),使用下面的查询参数 - 谷歌 API Expl要么er new 你应该看到,通过API返回的数据非常紧密地匹配到什么是SEO蜘蛛内报告。

PageSpeed Insights的整合
不使用PageSpeed Insights分析API影响?

至于写作,使用PageSpeed Insights的分析API的出现膨胀的数据。 PSI中呈现网页获取实验室数据对他们的表现。以下的Chrome出现在谷歌分析直接被记录的情况下,即使在视图设置启用“从机器人和蜘蛛已知排除所有命中”。

谷歌是意识到这个问题,我们正在努力了解他们解决这个问题。的PageSpeed停止充气从数据GA的见解,您可以使用以下两种方法,根据您的设置:

  • 包括过滤器,以排除地址已知谷歌IP,或
  • 添加用户代理作为分析的自定义维度,然后流量中排除基于此。 (您需要访问网站或GTM)

方法1 - 下面的IP地址排除从我们自己的测试正则表达式过滤器的工作模式出现。然而,我们建议使用谨慎,设置此功能的视图中对你并不重要,并先进行测试。



^ 66 \ 249 \(6 [4-9] | [7-8] [0-9] | 9 [0-5])\([0-9] |。。[1-9] [O- 9] | 1([0-9] [0-9])| 2([0-4] [0-9] | 5 [0-5]))$ 排除 PSI

方法2 - 的步骤执行本方法的概略低于:

  • Create a custom dimension in Analytics - this can be found under the Admin f要么 the property 和 Custom Definitions > Custom Dimensions
  • 在GTM,在设置中创建一个JavaScript变量,输入的navigat要么.userAgent
  • 在谷歌分析变量设置添加自定义维度的细节在第一步骤与第二步骤变量创建的用户代理创建
  • 排除过滤器现在可以为镀铬灯塔用户代理新创建的自定义维度创建。

此外,我们建议使用谨慎和所有常见的GA / GTM的注意事项,使用最佳实践,如建立工作区中的测试和查看第一。如GTM和GA实现改变我们不是已经进入具体执行这些步骤,但它是有意义的分析是否应利益相关者。

谷歌希望将解决此问题在内部在未来几个月内。

Why is my PageSpeed Insights的API key invalid & displaying 'failed to connect'?

通常这是由于PSI API并没有按我们已启用 PageSpeed Insights的整合 指南。 PSI API Key Err要么 启用API,请从搜索 API凭证页面 使用该搜索栏 PageSpeed Insights的API 在API库(或只需点击此链接可能)。 PageSpeed Insights的API Search 使用PageSpeed Insights的API库页上,单击“启用”按钮。 Enable PageSpeed Insights 现在的API被激活。给它一对夫妇分钟,并尝试重新连接,它应该现在的工作。

为什么我看到的见解,“错误”状态的PageSpeed?

列显示状态PSI无论a've的API请求网址是成功的,或者有过气的错误。一个“错误”通常反映Web界面,你会看到相同的错误和消息。在下面的例子中,有两个错误。 PSI Err要么 Status PSI的错误解释栏“500:灯塔返回的错误:.. err要么ed_document_request灯塔无法被可靠地加载你的要求确保您正在测试正确的URL页面和服务器正确响应所有请求(状态代码:404)。 ”。

如果您搜索的界面的网址,右键单击它,然后选择“见解的PageSpeed”,它会在Web界面磅打开它。对于Netflix的例子上面,你可以 看到相同的错误在Web界面. PSI Web Interface Err要么 Message 一般来说,这是如此的不现金赌钱游戏的问题,或API,它直接关系到通过PSI进行的灯塔审计。 这显示了我们从时间还测试时间的API磅无法处理请求,可能是由于整体产能负荷。显示以下消息。当这种情况发生时。 PSI Unable to process request 再次,这可以在网络界面,会显示同样的信息被复制。我们建议暂停抓取,等待10分钟(直到它再次可用),然后对URL右击并“重新蜘蛛”他们。这将重新请求数据磅。 Re-spider PSI Err要么 URLs 随着谷歌可以提供约你直接体验的任何错误反馈他们的 邮件列表 或问问题通过 堆栈溢出.

错误的总数量可以从PSI在右边窗口“API”标签和“错误”计数中可以看出。 PSI Err要么 count

为什么在浏览器中的分数不同PageSpeed Insights的灯塔?

API PSI使用灯塔从谷歌哪家服务器上运行仿真在移动网络上的一个中间层设备(MOTO G4)页面加载。了解更多信息,可以发现 这里.

当灯塔运行在您的浏览器有许多的变量,可以改变比分。灯塔是由你自己的网络,浏览器设置,在您的机器,不管你在仿真设置上运行目前使用的应用程序节流。谷歌深入地阐述这个在他们 灯塔评分指南.

当即使使用相同的API和条件,分数也可以改变。谷歌说:“在性能测量的变化可以通过很多不同层次的渠道随着影响的介绍。变异的几种常见的来源是公制本地网络的可用性,客户端硬件可用性和客户资源的争夺。”

苹果电脑
为什么我得到的卡塔利娜关于按键弹出?

第一次运行在苹果电脑OS seo的蜘蛛,你会得到卡塔利娜下面的对话框。 因为这是蜘蛛用一个小的shell脚本,使用“庆典”启动现金赌钱游戏。你可以在这里拒绝权限和SEO蜘蛛将正常工作。

Do you 支持 Macs below 苹果系统 Version 10.7.3 (& 32-Bit 苹果电脑s)?

不,我们不支持MacOS的版本10.7.3以下(32位)的苹果电脑电脑。 从 2.50版 在2014年发布,现金赌钱游戏蜘蛛需要Java的版本不是由ESTA版的苹果电脑OS的支持。

这意味着很多旧的32位MAC(其中最后我们被迫明白十几年前)将无法使用搜索引擎的蜘蛛。尚未更新他们的苹果电脑OS版本的64位MAC,将只需要更新自己多年。

我怎么能打开搜索引擎蜘蛛的多个实例?

打开附加实例的SEO蜘蛛的打开终端,键入以下内容: 开-n /应用/尖叫\青蛙\ SEO \ spider.app/

蜘蛛GUI没有在优胜美地使用了最新的平板方式

不幸的是,我们在甲骨文的怜悯更新其MAC的外观和感觉更加紧密地匹配苹果电脑OS的优山美地推出新的款式。还有,在与此相关的一个Java漏洞 JDK-8052173。这将在未来的Java版本进行更新。  

杂项
你有一个API?

总之,没有。现金赌钱游戏蜘蛛您下载,安装和运行在本地的桌面应用程序。所以没有API。

有一个 命令行界面 以编程方式使用该工具。还有一个 调度 功能内置到SEO蜘蛛。

我如何阻止抓取我的网站现金赌钱游戏蜘蛛?

蜘蛛遵循robots.txt协议。它的用户代理“现金赌钱游戏SEO蜘蛛”,让您可以在您的robots.txt以下,如果你希望蜘蛛不要抓取你的网站 -

用户代理:尖叫蛙蜘蛛徐

不允许: /

请注意 - 那里是“忽略”的robots.txt和改变用户代理,这是下降到完全是用户的责任的选项。

Do you collect data & can you see the websites I am crawling?

我们看不出你是什么爬行网站或数据已抓取。所有抓取的数据存储在您的计算机上。

谷歌的API使用OAuth 2.0协议进行身份验证和授权,显然,通过谷歌分析和其他API提供的数据仅在本地访问你的机器上。

我们如何收集有关许可证使用情况的数据,崩溃和调试报告中详细介绍了我们 隐私政策.

该软件不包含任何间谍软件,恶意软件或广告软件(由softpedia如验证 视窗苹果系统)。

你有一个伙伴计划?

没有,我们没有在这个时候现金赌钱游戏蜘蛛软件联盟计划。

联系 & 支持
如何提交一个窃听器 /获得支持?

我们喜欢收到错误报告。请按照个人的步骤 支持页面 因此,我们可以帮助你尽快。

请注意,我们只提供该工具的许可用户的全力支持,虽然我们会尝试修复发现的任何错误一般或问题。

如何提供反馈?

我们欢迎反馈,功能要求和建议,以提高增加SEO蜘蛛。该工具,是建立在从真棒SEO界的反馈。

请只需按照以下步骤: 支持页面 提交反馈。

或者,只是电子邮件支持[在] screamingfrog.co.uk有了您的反馈意见。 (更换[在随着@)。