http数据包浅析
抓取数据包
随机抓取了bilibili的一段POST数据包:
发送HTTP请求
一个请求由四个部份组成:请求行、请求头标、空行和请求数据。
每个部分之间用\r\n
来隔开
1.请求行
请求行由三个标记组成:请求方法、请求URL和HTTP版本,它们用空格分隔。
例如:
|
|
HTTP 定义了8种可能的请求方法:
|
|
2.请求头标
由关键字/值对组成,每行一对,关键字和值用冒号分享。请求头标通知服务器腾于客户端的功能和标识。典型的请求头标有:
|
|
3.空行
最后一个请求头标之后是一个空行,发送回车符和退行,通知服务器以下不再有头标。
4.请求数据
使用POST传送数据,最常使用的是Content-Type
和 Content-Length
头标。
服务器接受请求并返回HTTP响应
一个响应由四个部分组成;状态行、响应头标、空行、响应数据。
1.状态行
状态行由三个标记组成:HTTP版本、响应代码和响应描述。
HTTP版本:向客户端指明其可理解的最高版本。
响应代码:3位的数字代码,指出请求的成功或失败,如果失败则指出原因。
响应描述:为响应代码的可读性解释。
例如:
|
|
HTTP响应码:
1xx:信息,请求收到,继续处理
2xx:成功,行为被成功地接受、理解和采纳
3xx:重定向,为了完成请求,必须进一步执行的动作
4xx:客户端错误
5xx:服务器错误
.响应头标
像请求头标一样,它们指出服务器的功能,标识出响应数据的细节。
3.空行
最后一个响应头标之后是一个空行,发送回车符和退行,表明服务器以下不再有头标。
4.响应数据
HTML文档和图像等,也就是HTML本身。
|
|
服务器关闭连接,浏览器解析响应
1.浏览器首先解析状态行,查看表明请求是否成功的状态代码。
2.然后解析每一个响应头标,头标告知以下为若干字节的HTML。
3.读取响应数据HTML,根据HTML的语法和语义对其进行格式化,并在浏览器窗口中显示它。
4.一个HTML文档可能包含其它需要被载入的资源引用,浏览器识别这些引用,对其它的资源再进行额外的请求,此过程循环多次。
HTTP模型是无状态的,表明在处理一个请求时,Web服务器并不记住来自同一客户端的请求。
使用nc模拟http请求
netcact工具用途很多,可以翻看这篇文章:http://www.xpshuai.cn/2020/03/15/%E5%B7%A5%E5%85%B7-netcat%E4%BD%BF%E7%94%A8/
这里只说用nc模拟http请求,以请求百度为例
1.输入要请求的主机和端口号nc www.baidu.com 80
2.手工填写请求方式和请求头等(比如下面我请求百度的robots.txt文件):
|
|
当然也可以用如下形式的一行命令搞定:
|
|
以此类推,当然我们也可以提前把请求写好放到文件中,然后读取文件再通过管道重定向给nc
但是要注意不同系统的换行符是有区别的,如果需要用记得转换一下:
-
Windows系统里,文件每行结尾是"""\r\n"
-
Mac系统里, 文件每行结尾是"",即’\r'
-
Unix系统里, 文件每行结尾是"",即’\n'