|
HTTP请求过程:
输入目标网站,通过http发出GET请求或者POST请求,通过代码找到相应的函数,返回一个相关数据。
什么是GET请求和POST请求:
GET:是从服务器获取原数据,不会更改数据库的数据和状态
POST:携带数据发送到服务器,一般会更改服务器的数据
通过代码说明如何使用GET请求:
image爬虫抓包:
不同服务器之间的数据都是通过网络来进行传输,对那些在网络上传输的数据(发送、请求的数据)进行截获、编辑、转存等操作叫做抓包。抓包可以是抓取服务器请求的数据,通过对网络上传输的数据进行抓取,可以对其进行分析。
GET、POST请求发送的数据包的不同:
GET请求过程中,会出现两种数据包,目标网站会将这两个数据包一起传送出去。状态码返回200,成功返回数据
POST请求过程中,会一步一步想目标网站发出请求,目标网站会先会传送header,装填码返回100后,在传送data,状态码返回200,才能成功返回数据
GET与POST请求方式不同,步骤当然也不可能,可能有些人会觉得POST请求步骤麻烦一些。但是并不是这个根据自己的实际请求而定。
通过代码分析如何数据抓包:
- import java.io.IOException;
- import java.net.Authenticator;
- import java.net.InetSocketAddress;
- import java.net.PasswordAuthentication;
- import java.net.Proxy;
- import org.jsoup.Jsoup;
- import org.jsoup.nodes.Document;
- public class Demo
- {
- // 代理验证信息
- final static String ProxyUser = "username";
- final static String ProxyPass = "password";
- // 代理服务器(产品官网 www.16yun.cn)
- final static String ProxyHost = "t.16yun.cn";
- final static Integer ProxyPort = 31111;
- // 设置IP切换头
- final static String ProxyHeadKey = "Proxy-Tunnel";
- public static String getUrlProxyContent(String url)
- {
- Authenticator.setDefault(new Authenticator() {
- public PasswordAuthentication getPasswordAuthentication()
- {
- return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());
- }
- });
- // 设置Proxy-Tunnel
- Random random = new Random();
- int tunnel = random.nextInt(10000);
- String ProxyHeadVal = String.valueOf(tunnel);
- Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));
- try
- {
- // 处理异常、其他参数
- Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();
- if(doc != null) {
- System.out.println(doc.body().html());
- }
- }
- catch (IOException e)
- {
- e.printStackTrace();
- }
- return null;
- }
- public static void main(String[] args) throws Exception
- {
- // 要访问的目标页面
- String targetUrl = "http://httpbin.org/ip";
- getUrlProxyContent(targetUrl);
- }
- }
复制代码
|
|