网页抓取

网页抓取 & Data Extraction Using 该 SEO蜘蛛 Tool

本教程引导您完成您如何使用 尖叫 青蛙 SEO蜘蛛的自定义抽取功能,从网站抽取数据。

自定义提取功能使您可以从网页中使用CSS路径,XPath和正则表达式的HTML刮的任何数据。所述提取从由SEO蜘蛛抓取的网址,这返回200“OK”响应中返回的静态HTML执行。跳转到实例点击以下链接:

XPath的例子
正则表达式的例子

上手,你需要 download & install the SEO蜘蛛 软件和 有驾照 获得必要刮自定义提取功能。您可以通过在右侧栏中的按钮下载。

当你有正规澳门赌场的蜘蛛打开,下一个步骤,开始提取数据如下 -

1) Click ‘Configuration > Custom > Extraction’

这个菜单可以在搜索引擎蜘蛛的顶级菜单中找到。

custom extraction for web scraping

这将打开定制提取配置有10个独立的“提取器”,它被设定为“无效”作为默认值。

custom extraction all extractors

2)选择的CSS路径,XPath或正则表达式刮

尖叫 青蛙 搜索引擎蜘蛛工具提供从网站抄袭数据的三种方法:

  1. 的xpath - XPath是从象文档的XML,HTML等选择节点的查询语言。此选项允许您使用XPath选择,包括属性抽取数据。
  2. CSS路径 - 在CSS中,选择是用来选择元素图案也常常是最快的可用三种方法。这个选项允许你通过使用CSS路径选择抽取数据。可选属性字段也可用。
  3. 正则表达式 - 正则表达式是当然的用于数据匹配模式文本的一种特殊的字符串。这是最好的高级应用,如刮HTML注释或内联的JavaScript。

CSS路径或XPath被推荐为最常见的情况,虽然两者各有优势,你可以简单地挑选您最舒适的使用选项。

使用XPath或CSS路径时,收集的HTML,您可以具体选择使用下拉过滤器提取的东西 -

  • 提取html元素 - 所选元素和所有其内的HTML内容。
  • 提取内部HTML - 所选元件的内HTML内容。如果所选择的元素包含其他HTML元素,它们将被包括在内。
  • 提取文本 - 选定的元素和任何子元素的文本内容的文本内容。

3)输入你的语法

接下来,你需要输入你的语法到相关领域的提取。一个快速简便的方法来找到你要刮的数据相关的CSS路径或XPath,是简单地在Chrome中打开的网页和“检查元素”你想收集,然后用鼠标右键点击复制HTML行有关选择路径上。

例如,您可能希望开始刮博客帖子的作者“,以及每个评论数已经收到了。让我们的 尖叫 青蛙 网站为例。

打开Chrome中的所有博客文章,点击鼠标右键,在位于上每一个岗位,这将打开“元素” HTML窗口作者网名“检查元素”。只需右键再次点击相关的HTML线(与作者的名字),复制有关CSS路径或XPath和它粘贴到SEO蜘蛛相应的提取场。如果你使用Firefox,那么你可以做同样的也有。

CSS Path Scraping author

您可以重命名“提取”,这对应于SEO蜘蛛的列名。在这个例子中,我使用的CSS路径。

custom extraction of authors 和 comments

旁边的每个提取蜱确认使用的语法是有效的。如果你旁边有一个红色的叉,那么你可能需要调整一些,因为它们是无效的。

当你快乐时,只需按下底部的“确定”按钮。如果你想看到更多的例子,然后跳到该指南的底部。

请注意 - 这是不是建立CSS选择器和XPath表达式的最可靠的方法。使用该方法给出的表达式可以是非常具体的代码中的元件的准确位置。这是不能够因检查视图改变为页/ DOM的渲染过的版本,在默认情况下,正规澳门赌场蜘蛛着眼于HTML源代码和HTML清理时,正规澳门赌场蜘蛛处理一个页面,有可能发生是无效的加价。

这些也可以浏览器之间是不同的,例如对于上述“作者”例如以下CSS选择给出 -

铬: body > div.main-blog.clearfix > div > div.main-blog–posts > div.main-blog–posts_single–inside_author.clearfix.drop > div.main-blog–posts_single–inside_author-details.col-13-16 > div.author-details–social > a
火狐: .author-details–social > a:nth-child(1)

Firefox浏览器给出的表述通常比由铬提供的更稳健。即便如此,这不应该被用来作为了解各种提取选项,并能够通过检查HTML源代码手动建立这些完全更换。

W3Schools的指导 CSS选择器 他们 XPath的介绍 对于理解这些表达式的基础很好的资源。

4)抓取网站

接下来,请输入网址在URL字段在顶部,然后单击“开始”抓取的网站,并开始刮。

crawl the site to scrape it

5) View Scraped Data Under 该 Custom Tab & ‘Extraction’ Filter

刮数据开始抓取过程中实时出现,“自定义”选项卡和“提取”过滤器,以及“内部”选项卡允许您导出收集到的所有一起到Excel的一切之下。

在上述的例子中,我们可以看到旁边的每篇博客文章,已经刮了作者姓名和评论数。

custom extraction scraping of authors 和 comments

当进度条达到“100%”,抓取已完成,您可以选择使用“导出”按钮“出口”的数据。

如果你已经拥有你想从中提取数据,而不是抓取网站的URL列表来收集数据,那么你可以上传到使用 列表模式.

而已!希望上面的指导帮助说明了如何使用网页抓取正规澳门赌场蜘蛛软件。

Obviously the possibilities are endless, this feature can be used to collect anything from just plain text, to Google analytics IDs, schema, social meta tags (such as Open Graph Tags & Twitter Cards), mobile annotations, hreflang values, as well as price of products, discount rates, stock availability 等等 I’ve covered some more examples, which are split by the method of extraction.

XPath的例子

SEO的爱的XPath。所以我已经把你不妨来提取,使用XPath元素非常快速列表。正规澳门赌场蜘蛛使用从Java 8,它支持XPath实现 的XPath 1.0版.

标题

因为默认情况下,搜索引擎蜘蛛只收集H1S和H2S,但如果你想收集3H公司中,XPath是 -

// H3

数据提取 -

h3s scraped

但是,您可能希望收集只是第一H3,特别是如果每​​个网页有很多。该XPath是 -

/后代:: H3 [1]

收集页面上的第10个H3年代,XPath的是 -

/descendant::h3[position() >= 0 和 position() <= 10]

算H3标签的数量的网页所需的表达式是 -

计数(// H3)

在这种情况下“内提取HTML”自定义提取窗口的最右边下拉必须改变,以“函数值”这一表达才能正常工作。

任何提取的字符串的长度也可以与使用“函数值”选项的xpath计算。计算H3的长度需要下面的表达式在页面上 -

字符串长度(// H3)

的hreflang

下面的XPath,与提取html元素相结合,将收集的内容全部的hreflang元素 -

//*[@hreflang]

上述将收集整个html元素,与连杆和的hreflang值。结果 -

hreflang extracted

所以,也许你想只的hreflang值(如“EN-GB”),你可以指定使用@hreflang属性。

//*[@hreflang]/@hreflang

数据提取 -

hreflang values extracted

的hreflang分析功能现在已内置到SEO蜘蛛作为标准配置,以获取更多详细信息,请参阅 的hreflang提取的hreflang标签.

模式

你不妨收集类型不同模式的页面上,这样的设立可能是 -

//*[@itemtype]/@itemtype

数据提取 -

schema extracted

对于“itemprop”的规则,你可以使用类似的XPath -

//*[@itemprop]/@itemprop

Social Meta Tags (Open Graph Tags & Twitter Cards)

你不妨提取社会meta标签,如Facebook的Open Graph标签,帐户的详细信息,或Twitter卡。所述XPath是例如 -


//元[开始-与(@property, 'OG:标题')] / @内容
//元[开始-与(@property, 'OG:描述')] / @内容
//元[开始-与(@property, 'OG:类型')] / @内容
//元[开始-与(@property, 'OG:SITE_NAME')] / @内容
//元[开始-与(@property, 'OG:图像')] / @内容
//元[开始-与(@property, 'OG:URL')] / @内容
//元[开始-与(@property, 'FB:PAGE_ID')] / @内容
//元[开始-与(@property, 'FB:管理员')] / @内容


//元[开始-与(@property, 'Twitter的:标题')] / @内容
//元[开始-与(@property, 'Twitter的:描述')] / @内容
//元[开始-与(@property, '叽叽喳喳:ACCOUNT_ID')] / @内容
//元[开始-与(@property, 'Twitter的:卡')] / @内容
//元[开始-与(@property, '叽叽喳喳:图像:SRC')] / @内容
//元[开始-与(@property,'Twitter的:创作者)] / @内容

等等

数据提取 -

social meta tags

移动注释

如果你想从网站拉移动注释,你可能会使用XPath,例如 -

//链接[含有(@media, '640')和@href] / @ HREF

这对于赫芬顿邮报将提取 -

web scraping of mobile annotations

电子邮件地址

也许你想从您的网站或网站中的XPath可能是这样的收集电子邮件地址 -

//一个[开始-与(@href, '的mailto')]

从我们的网站,这将返回我们在每一页的页脚的两个电子邮件地址 -

email extracted

I帧

// IFRAME / @ SRC

数据提取 -

iframe extracted

到YouTube视频嵌入将只提取I帧 -

// iframe中[含有(@src, 'www.youtube.com /嵌入/')]

提取内部框架,但不是一个特定的iframe网址,如谷歌标签管理器的URL会 -

// IFRAME [否(含有(@src,“//www.googletagmanager.com/'))]/@src

仅仅抽取在网页上找到的第一个iframe中的URL会 -

(// IFRAME / @ SRC)[1]

放大器的网址

//头/链路[@相对= 'amphtml'] / @ HREF

数据提取 -

AMP scraped

元新闻关键词

//元[@名称= 'news_keywords'] / @内容

数据提取 -

meta news keyword scraped

体内提取链接仅

下面的XPath只能从//www.tlspodcast.com/annual-screaming-frog-macmillan-morning-bake-off/博客文章的主体,在博客内容包含中提取链接类的主博客-posts_single-内“。

// DIV [@类= “主博客 - posts_single - 内部”] //一个 - 这将获得与“提取内部HTML”锚文本。
// DIV [@类= “主博客 - posts_single - 内部”] // A / @ HREF - 这将获得与“提取内部HTML”的网址。
// DIV [@类= “主博客 - posts_single - 内部”] //一个 - 这将获得与“提取HTML元素”中的完整链接代码。

含锚文本链接提取

提取与锚文本“SEO蜘蛛”的链接:

//a[contains(.,'seo蜘蛛')] / @ HREF

这种匹配是大小写敏感的,所以如果“搜索引擎蜘蛛”有时是“正规澳门赌场蜘蛛”,你就必须做到以下几点:

//一个[含有(平移(。, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'), 'SEO蜘蛛')] / @ HREF

这将降低情况下,所有发现的锚文本,让你把它比对小写的“SEO蜘蛛”。

提取特定内容的div

下面的XPath将提取的具体div的或跨内容,使用他们的类ID。你需要替换成你自己的。

// DIV [@类= “例如”]

//跨度[@类= “例如”]

提取多个匹配元素

一个管可表达与在单一的提取器被用于保持彼此相邻的相关元素中的导出。

下面的表达式匹配博客标题和博客上的存档页面他们有评论数:

// DIV [包含(@class, '主博客 - posts_single - 内 - 文字 - 内部')] // H3 | //一个[@类= “评论链接”]

Multiple Matched XPath Extraction

正则表达式的例子

谷歌分析ID

从页面的表达需要将提取的谷歌分析ID -

[ “'](UA? - *)[”']

GA UA ID extraction

提取的数据是 -

GA UA ID scraping

模式

如果所述结构化数据在JSON-LD格式实现,正则表达式,而不是XPath或CSS选择必须使用:

( “产品”: “*?”)
( “ratingvalue”: “*?”)
( “reviewcount”: “*?”)

提取的JSON-LD脚本标签的一切,你可以使用 -


电子邮件地址

下面将返回任何字母数字字符串,其中包含在中间的@:

[A-ZA-Z0-9 -_。] + @ [A-ZA-Z0-9 - 。] +

下面的表达式将带回更少的假阳性,因为它需要至少在串的第二半个单周期:

[A-ZA-Z0-9 -_] + @ [A-ZA-Z0-9 - ] + \ [A-ZA-Z0-9 - ]。+

这就是它现在,但我会随着时间的推移添加到这个列表举出更多的例子,提取的各种方法。

一如既往,你可以弹出我们通过任何问题或疑问,我们的 支持.

  • Like us on Facebook
  • Connect with us on LinkedIn
  • Follow us on Twitter
  • View our RSS feed

下载。

下载

购买许可证。

采购