公布2018年9月19日通过 现金赌钱游戏现金赌钱游戏蜘蛛

现金赌钱游戏现金赌钱游戏蜘蛛更新 - 10.0版本

我们很高兴地宣布释放 尖叫 青蛙 现金赌钱游戏蜘蛛10.0版本,代号为内部作为“狮虎“。

在我们过去的版本中,我们宣布了一个非常强大的混合式存储引擎,并在本次更新中,我们有很多完全由用户请求和反馈驱动非常令人兴奋的新功能。所以,让我们直接给他们。

1)调度

您现在可以 时间表抓取 到现金赌钱游戏蜘蛛内自动运行,作为一个一次性,或在选定的时间间隔。

现金赌钱游戏 Scheduler

你能预先选择 模式 (蜘蛛,或清单),保存 组态,以及API的(谷歌分析, 搜索控制台, 雄伟, ahrefs, MOZ)拉在了预定抓取的任何数据。

schedul在g start options

你还可以自动地 保存抓取 文件和输出任何的 标签, 过滤器, 批量出口, 报告 要么 XML的Sitemaps 到选定位置。

schedul在g exp要么t options

这应该是运行规则爬网,有只允许在一定低于方便客户爬行人超好用“不过,我会在床上!”离峰时间,使用抓取的数据为自己的自动报告,或有需要开发者 断开的链接 报告由早上7点发送给他们每星期二。

你们当中眼尖可能已经注意到了,现金赌钱游戏蜘蛛将运行无头模式预约导出数据时(无接口之意) - 这使我们对我们的下一个点。

2) Full Comm和 L在e Interface & –Headless Mode

您现在可以完全通过操作搜索引擎蜘蛛 命令行。这包括启动,全面的配置,节约和几乎任何数据的导出和报表。

它像一个典型的控制台应用程序,你可以使用-help查看可用的全部参数。

CLI

你可以阅读,可以提供和命令的完整列表,如何使用 命令行 在我们更新 用户指南。这也使运行现金赌钱游戏蜘蛛完全无头,所以你甚至不需要看用户界面,如果这是你的偏好(如何粗鲁!)。

我们认为这可能是一个非常强大的功能,我们很兴奋的新的和独特的方式用户将利用自己的技术堆栈中的这种能力。

3) Indexability & Indexability Status

这是不是在本次发布的第三大特点,但了解的概念是非常重要的 可转位 我们已经引入到现金赌钱游戏的蜘蛛,因为它融入众多新老功能和数据。

每个URL现在分为“可转位' 要么 '不可索引“。

Indexability & Indexability Status

现在这两句话是司空见惯的现金赌钱游戏中,但他们没有一个确切的定义。用于现金赌钱游戏蜘蛛,一个“可转位” URL是指可被抓取的页面时,以“200”状态代码进行响应,并允许被编入索引。

这可能从搜索引擎,这将索引中的网址无法抓取和内容都看不出来(如通过robots.txt封锁),如果他们有指向它们的链接有点不同。这样做的原因是为了简单起见,它有助于桶和组织的网址进入感兴趣两个不同的群体。

每个网址也将与它为快速参考相关的可转位状态。这提供了一个理由,为什么一个网址为“不可索引”,例如,如果它是一个“客户端错误”,“被robots.txt拦截,将‘no在dex’,‘canonicalised’或别的东西(也许还有那些组合) 。

这种引入,使审核更有效。当你从内部选项卡中导出数据,能够快速识别哪些网址canonicalised例如,而不是运行在电子表格中的公式它可以更容易。它使一目了然便于查看审查页面标题的时候,而不是扫描列礼服的URL是否是可转位,指令等,这也让搜索引擎蜘蛛使用单一的过滤器,或两列通信的潜在问题,而六,七。

4)XML网站地图爬行整合

它一直能够在现金赌钱游戏中的蜘蛛抓取直接的XML站点地图(在 列表模式),但是,你现在能够爬行,它们整合为一个网站抓取的一部分。

You can select to crawl XML的Sitemaps under ‘Configuration > Spider’, 和 the 现金赌钱游戏蜘蛛 will auto-discover them from robots.txt entry, 要么 the location can be supplied.

integrated XML Sitemap crawl在g

新的 站点地图选项卡 和过滤器允许您快速分析你的XML网站地图常见的问题,如不能在站点地图网址,孤儿页,非可转位的URL等等。

non-indexable urls 在 sitemap

你现在也可以提供XML网站地图的位置到地址栏上方,而现金赌钱游戏蜘蛛将直接抓取,太(而不是切换到列表模式)。

5)内部链接得分

评估和改进内部链接的有效方法是 计算内部的PageRank 网址,以帮助获得更清晰的认识哪些页面可以被看作是由搜索引擎更具权威性。

seo的蜘蛛已经在许多有用的指标的报告,分析内部链接,如抓取深度,反向链接和出站链接的数量,独特的反向链接和出站链接的数量,并链接到一个特定的URL网址,总体的百分比。为进一步帮助这一点,我们现在已经引进了先进的“链接得分”指标,其计算基于其内部链接的网页的相对价值。

Internal L在k Sc要么e

此使用相对0-100点量表从至少到为了简单起见最大价值,它允许以确定内部连接可能被提高。

链接分数度量算法考虑重定向,礼服,nofollow的等等,我们将进入更详细的另一篇文章。

这是一个相对的数学计算,其可以仅在一个抓取的末尾时的所有URL是已知的来进行。此前,现金赌钱游戏蜘蛛中的每一个计算已经在运行时爬行,这使我们对下一个功能期间执行。

6)交抓取分析

现金赌钱游戏蜘蛛现在能够在爬行(或当它停止)更多的数据和洞察年底进行进一步的分析。这包括新的“链接得分”指标和一些已经推出的其他新的过滤器。

爬行分析 can be automatically performed at the end of a crawl, or it can be run manually by the user. This can be viewed under ‘Crawl Analysis > Configure’ 和 the crawl analysis can be started by selecting ‘Crawl Analysis > Start’. When the analysis is running, the 现金赌钱游戏蜘蛛 can cont在ue to be used as n要么mal.

crawl analysis

当抓取分析已经完成,其标有“需要抓取分析”,空过滤器将数据填充。

这些项目大部分已经获得通过 报告,但这一新功能使他们进入界面,使他们更加明显了。

7)可视化

我们有一个表白。我们总是喜欢爬行可视化的想法,但一直有一个问题 - 他们很少是可行的。他们过于频繁不利于诊断的实际问题,隐藏数据,并且往往没有任何反映爬行的现实世界的看法。虽然,他们一直很期待,和一些现金赌钱游戏能够像一块抽象艺术的阅读。这么说,实际的概念是有趣和令人兴奋的,因为绝大多数大众的需求,我们去了绘图板。

最初预兆 推出的概念 力指向图,以现金赌钱游戏行业,以及一些供应商已经提供各种有用的网站可视化(和荣誉给他们),但我们不相信任何人是完美的,我们想看看我们是否能挑战自己他们的限制假设。

我们想建立的直观理解一个网站,它的结构,内部链接结构和问题的更好的方法。我们想让他们 可扩展性,我们不希望有 隐藏数据 从用户,使他们的工作。

所以,我们已经推出了两种类型的图表,并查看站点两种不同的观点,各有各的好处,我们相信提供更多的可操作的数据,和洞察力。

这包括两个 爬行可视化和两个 目录树可视化.

现金赌钱游戏 visualisations

爬行可视化

该力指向抓取图和抓取图形可视化是用于分析有用 内部链接,因为它们提供的搜索引擎蜘蛛爬网的网站,通过最短路径到一个页面视图。这里是如何我们自己的网站,可以与我们的力指向爬行图中可以看出。

f要么ce directed crawl diagram

可转位页面由绿色节点表示,中间最深,最大的圆是起始URL(网页),以及环绕它是一个新的水平深,他们得到更远,更小,更轻随着爬行深度(像热图)。

与爬行可视化的一个问题是规模。他们是真正的内存密集型和力指向爬行图可视化不因数据量很好地进行缩放。浏览器将开始在什么停顿下来10K以上的网址,除非交互和其他花里胡哨被拆除,这将是一种耻辱,因为这是他们的吸引力的一部分。但是,它需要可视化最,要真正了解他们在更大的规模的网站。

所以,作为网站的架构不启动,并在网页端,我们的可视化可以从任何网址查看。

图表将显示在浏览器的URL 10K,但允许你用鼠标右键单击和“专注”,扩大在网站上的特定区域,以显示该部分更多的URL(最多同时另一10K的URL)。您可以使用浏览器导航,在URL中直接键入和轻松向前和向后移动。

f要么ce directed crawl digram right click focus

在抓取任何网址,你也可以右键单击,并从该点作为可视化网址Expl要么er中打开了一个可视化。

right click visualisations

当一个可视化已经达到了10K URL限制,它可以让你知道当一个特定的节点正在被截断(因大小限制)的儿童,通过着色节点灰色。然后你可以右键点击和“探索”看孩子。这样,在爬行每个URL可以可视化。

right click focus to view truncated children

柔和的红色亮点URL是不可索引,这使得它很容易发现一个网站,有问题的地方。有非可索引页面的正当理由,但其可视化的比例,他们在哪里,都可以在快速识别感兴趣的领域进一步调查有用的。

我们还注意到力指向图几个步骤进一步,以允许用户完全可视地配置它们,在节点的尺寸,重叠,分离,颜色,链路长度,并且当显示文本。

visualisation 组态

毕竟,他们可以说是更像艺术品。

Pretty f要么ce-directed crawl diagram

更显著,您还可以通过扩展其他指标可视化,提供更深入的了解,如独特的反向链接,字数,GA会议,GSC点击,链接得分,MOZ页权力和更多的能力。

节点的大小和颜色会规模根据这些指标,它可以帮助形象化旁边的内部链接很多不同的东西,比如它可能有薄的内容的网站的部分。

low content us在g f要么ce-directed diagram

通过链接分数或最高值。

link score us在g f要么ce-directed diagram

它可能很难很快看到页面的力指向图中,美如他们。所以还可以查看在一个更简单的抓取树图,其可被配置为显示从左向右,或从上到下(或底部到顶部,如果你略微怪异)内部连接。

crawl tree visualisation

你可以右键点击和“专注”在网站上的特定区域。您还可以展开或折叠到一个特定的爬行深度,调整水平和节点间距,得到它恰到好处。

crawl tree visualisation focused

像力指向图中,所有的颜色也可以为了好玩调整(或者,如果你很无聊,用品牌颜色)。

目录树可视化

在现金赌钱游戏蜘蛛“目录树”的观点得到了用户的时间长的最爱,我们想引进我们的可视化这一点。

关键的区别是,它有助于了解一个网站的 网址架构的方式,以及它的 有组织的,而不是在抓取可视化的内部连接。这可能是有用的,因为这些团体常常使用同一个页面模板,和现金赌钱游戏的问题(但不总是)。

力导向目录树图是唯一的现金赌钱游戏蜘蛛,你可以看到这对我们的网站比以前爬图的爬行很不同,更容易显现潜在的问题。

force-directed direct要么y tree diagram

请注意如何建立索引的红色节点组织在一起,因为它们具有相同的模板,而在爬行图他们各地均有分布。这种观点往往使得它更容易看到的模式。

这也可以在一个简单的目录树图格式观看了。这些图表是交互式的,这里是我们网站的一个部分的放大,自上而下的视图。

direct要么y tree graph

而现金赌钱游戏蜘蛛的可视化不解决,在此功能开始时提到的所有问题,他们是在正确的方向,以使他们更深入了一步,一个网站的更真实表现,并最终有用。

我们认为有可能是抓取和目录树可视化之间的甜蜜点的中间地带,但是这是正在进行的工作。如果有你想看到引入到这些可视化任何进一步的规模指标,那么就告诉我们。

Anchor & Body Text W要么d Clouds

由于我们的可视化集成,你也可以想像所有内部锚到一个URL和页面的正文。

inl在k anchor text w要么d cloud

这些选项通过右键单击链接并选择“可视化”是可用的。

8) AMP Crawl在g & Validation

你现在可以自动提取和抓取加速移动网页(AMP),分析和验证它们。

您可以通过新的快速识别各种常见问题放大器 放标签和过滤器如错误,遗漏或礼服与桌面版本的非确认的链接。

I don't like AMP :-)

功放验证 也被集成到搜索引擎的蜘蛛,这样你就可以抓取和规模确定任何验证问题。这包括从安培验证的精确检查,对于所有所需的HTML按照本说明书中,和不允许的HTML。

9) Canonicals & Pag在ation Tabs & Filters

礼服和分页以前包含在指令选项卡下。然而,无论是指令虽然他们查看相互组合使用,我们觉得他们是值得他们自己的标签,用他们自己的一套微调过滤器,以帮助确定问题更快。

所以,两者都有自己的用更新,更精细过滤器的新标签。这也有助于揭露这只是以前的报告中提供的数据,直接进入界面。例如,新的 礼服标签 now 包括s a ‘Non-可转位 Canonical’ filter which could only be seen previously by reviewing response codes, or view在g ‘Rep要么ts > 不可索引 Canonicals’.

礼服标签

分页是什么网站得到错误非常多,它在水平的hreflang近的。所以,现在有一堆有用的方法来过滤下的分页页面 分页标签 确定共同的问题,如不可索引分页页面,循环,或序列错误。

分页标签

更全面的过滤器应该帮助识别和更有效的解决常见分页错误。

10) Improved Redirect & Canonical Cha在 Rep要么ts

该 现金赌钱游戏蜘蛛 now 报告 on canonical chains 和 ‘mixed chains’, which can be found in the renamed ‘Redirect & Canonical Cha在s’ rep要么t.

redirect & canonical cha在s rep要么t

例如,搜索引擎蜘蛛现在必须对混合链场景,如报告,重定向到其canonicalised到另一个URL,其中有一个元刷新到另一个URL,然后JavaScript重定向回到起始URL网址的能力。它会找出这整个链条,并生成报表。

最新报告也已更新,以对开始的URL,并在链最终网址定位柱,并在最后的URL的可转位和可转位状态报告,使审核更高效,看看是否重定向链中结束一的“no在dex”或“错误”页面等等链完整的啤酒花还在报告之前,但后来改变列。

这意味着 审计重定向 是显著更有效,因为你可以快速识别的开始和结尾的URL,并发现链型,重定向的数量和最终目标URL的立即可转位。这里还有标志为链,其中有环路,或有一个临时重定向链中某处。

我们确实没有更好的工具,随时随地审计大规模重定向,虽然像可视化功能可接收所有的炒作,这是在战壕中的每一天技术现金赌钱游戏的显著更加有用。请阅读我们的最新指南 审计重定向在一个站点迁移.

其他更新

10.0版本还包括一些较小的更新和bug修复,下面列出的。

  • You’re now able to automatically load new URLs discovered via 谷歌分析 和 Google 搜索控制台, 在to a crawl. Previously new URLs discovered were only available via the orphan pages rep要么t, this now configurable. This option can be found under ‘API Access > GA/GSC > General’.
  • “非200的hreflang网址”现已下移动到过滤器中的“的hreflang' 标签。
  • 您可以禁用 尊重HSTS政策 下的高级配置(以检索真重定向状态代码变得更容易,而不是内部307)。
  • 该“规范错误”报告已更名为“不可索引礼服”和下可用 报告 在顶层菜单。
  • 该 ‘rel=”next” and rel=”prev” Errors’ rep要么t has been adjusted to ‘Pagination’ > ‘Non-200 Pagination URLs’ 和 ‘Unlinked Pag在ation URLs’ 报告.
  • 硬盘空间已经减少了30%左右用于数据库存储模式抓取。
  • 重新蜘蛛散装在较大的抓取的URL的是更快和更可靠。
  • 有新的“批量出口”的网站地图和你所期望的放大器。
  • 在顶部的主URL地址栏现在更为广阔。
  • 圆环图,右键点击高亮颜色已经被更新。
  • 有一个新的“始终遵循礼服对于列表模式审核“配置项。
  • 自定义提取32K字符的限制已被删除。
  • “的rel =” next”和rel =” PREV”现在可在‘内部’标签。
  • “最大重定向到遵循”配置已在“限制”标签下移动。
  • 现在有一个“资源”下面的窗口选项卡,其中包括(你猜对了),资源。
  • 谷歌搜索整合控制台 网站简档名单现在搜索。
  • 包括排除 配置,现在有一个“测试”标签,以帮助测试你的正则表达式预先抓取。
  • 还有在启动一个新的启动画面。
  • 有一堆新右击选项流行检查与其他工具,如PageSpeed Insights的,移动测试工具等。

这就是一切。如果您做了这么远,而且还在读,谢谢你的关心。谢谢大家的许多功能要求和反馈,这有助于现金赌钱游戏蜘蛛提高了这么多,在过去8年。

如果遇到新的版本有任何问题,那么请不要只是让我们知道通过 支持 我们可以提供帮助。

现在,快去下载的版本10.0 尖叫 青蛙 现金赌钱游戏蜘蛛.

小更新 - 10.1版发布的2018年9月21日

我们刚刚发布了一个小更新到现金赌钱游戏蜘蛛的10.1版本。这个版本主要是bug修复和小改进 -

  • 修正了当的尊重下一个/上'被选中在UI没有网址上显示的问题。
  • 停止可视化在主界面显示弹出式窗口弹出后向前方。
  • 被调整为在较小的屏幕允许用户配置对话框。
  • Update 包括 & 排除 test 标签 to show the encoded URL that the regular expressions are run aga在st.
  • 经由调度UI访问GA / GSC当固定崩溃。
  • 没有结果运行爬分析时,修复崩溃。
  • 使树图和力指向图字体配置。
  • 修复与粗体和斜体按钮不重置为默认设置的图形配置面板的问题。

小更新 - 10.2版发布2018年10月3日

我们刚刚发布了一个小更新到现金赌钱游戏蜘蛛的10.2版本。这个版本主要是bug修复和小改进 -

  • -headless现在可以在Ubuntu在W在dows下运行。
  • Added 组态 option “Respect Self Referencing Meta Refresh” (Configuration > Spider > Advanced). Lots of websites have self-referencing meta refereshes, which can be classed as ‘non-在dexable’, 和 this can now simply be switched off.
  • 网址加入到通过GA / GSC爬行现在通过URL重写了并排除配置。
  • 各种调度修复。
  • 嵌入式浏览器现在运行在沙盒中。
  • 力导向图的目录树现在认为非尾随斜线网址作为潜在的目录,并且不重复在适当情况下。
  • Fix bug with ‘Custom > Extraction’ filter miss在g columns when run headless.
  • 解决问题,防止爬大于32K的自定义抽取数据的保存。
  • 解决问题与“链接得分”不被保存/恢复。
  • 访问基于authentiction形式时修复崩溃。
  • 上传重复的SERP URL时修复崩溃。
  • 修复由更新的MacOS 10.14莫哈韦介绍崩溃。

小更新 - 10.3版发布2018年10月24日

我们刚刚发布了一个小更新到现金赌钱游戏蜘蛛的10.3版本。这个版本主要是bug修复和小改进 -

  • 自定义搜索现在工作多行。
  • 引入了一个“包含的hreflang”过滤,内嵌其他标签和元件(礼服,分页等)。
  • Renamed hreflang ‘Incorrect Language Codes’ filter, to ‘Inc要么rect Language & Region Codes’.
  • 返工GSC账户选择,提高了可用性。
  • 通过站点地图发现的URL现在可以通过URL重写去。
  • 更加宽容的XML网站地图/网站地图索引文件丢失的XML声明(谷歌对其进行处理,所以现金赌钱游戏蜘蛛现在一样,太)。
  • Include the protocol 在 ‘Orphan Pages’ report f要么 GSC & XML的Sitemaps URLs.
  • 在启动时发出警告,如果网络调试上。这减慢爬下来,除非我们的支持要求不应该被启用。
  • 修复“最大调用堆栈大小超过了”与可视化。
  • Fix crash writ在g ‘Rep要么ts > Overview’.
  • 修复错误出口“的hreflang:不一致的语言的确认链接”命令行。
  • 运行爬分析时,修复崩溃。
  • 修复与无效charset名称的网页触发崩溃。
  • 修复与希伯来文的调度问题。
  • 修复崩溃爬行放大器的URL。
  • 修复MacOS的问题,即调度如果launchagents文件夹不存在失败。
  • 在Ubuntu修复抗锯齿问题。

小更新 - 10.4版发布2018年11月6日

我们刚刚发布了一个小更新到现金赌钱游戏蜘蛛的10.4版本。这个版本主要是bug修复和小改进 -

  • 缓慢修复数据库爬下来(抓取和保存时)。
  • 修复SERP产生碰撞。
  • 停止包括URL,而不爬行的深度,在爬行的深度统计。
  • 更新抓取深度图表标签到10+。
  • 修正可转位分类错误。
  • 弄不好自定义搜索是不区分大小写两个“包含”和“不包含”。
  • 修正错字在每个会话GA GA指标页面浏览量。
  • 徘徊在圆环图时修复崩溃。