小班SEO自学网带来了页面抓取过程的简要描述
url,即统一资源定位符,通过对url通过分析,我们可以更好地理解页面捕获过程。今天,小班seo学网带来了页面抓取过程简述。希望这次seo.cn/tag/seojishu/ target=_blank class=infotextkey>seo技术培训对每个人都有帮助。
一、url这是什么意思?
URL,英文全称uniform resource locator中文译为统一资源定位符。
seo.cn/tag/wangzhanyouhua/ target=_blank class=infotextkey>网站优化要求每个页面都有一个统一的资源定位符,只有一个(URL),但是很多网站的同一页面往往对应很多URL,如果都被搜索引擎收录,没有做,URL转向时,权重不集中,通常称为URL不规范。
二、url的组成
统一资源定位符(URL),由协议方案、主机名和资源名三部分组成。
例如:
https:// www.x**.org /11806
其中https协议方案,www.***.org 为主机名 ,11806是一种资源,但这种资源并不明显。一般资源的后缀是.html,当然也可以.pdf、.php、.word等格式。
三、页面抓取过程简述
无论是我们通常使用的互联网浏览器还是网络爬虫,虽然它们是两个不同的客户端,但获取页面的方式是相同的。页面捕获过程如下:
① 连接DNS域名系统服务器
首先连接到客户端DNS域名服务器,DNS主机名称是服务器( www.***.org )转换为IP并反馈给客户端。
PS:本来我们通过了111.152 . 151.45 访问某个网站的地址,只是为了方便记忆和使用DNS域名系统转换为 www.***.org 。这也就是DNS域名系统的作用。
② 连接IP地址服务器
该IP服务器下可能有很多程序(网站),可以通过端口号来区分。同时,每个程序(网站)都会监控端口是否有新的连接请求。HTTP网站默认为80,HTTPS网站默认为443。
但通常情况下,80和443的端口号是默认的。
举例来讲:
https://www.***.org:443/ = https://www.***.org/
http://www.***.org:80/ = http://www.***.org/
③ 建立连接并发送页面请求
连接到服务器后,通常会发送页面请求get,也可以是post。
get 11806 HTTPS/
获取HTTPS协议下页面11806 返回给客户端。之后如需继续获取更多页面,则发送其他请求,否则将关闭该连接。
PS:通常情况下 ,/seo/ 可能更清楚。也就是发送。 https://www.***.org/ 下的 seo文件夹下的 页面请求。
以上是小班seo自学网带来了页面抓取过程的简要描述。谢谢你的观看。seo.cn/tag/wangluoyingxiao/ target=_blank class=infotextkey>网络营销培训寻找小班!seo小班培训!seo小教程搜索。
以上就是小班SEO自学网带来了页面抓取过程的简要描述的全部内容,