网络编程(三)URL爬虫原理

2023-05-16

URL和URI的概念

URI(Uniform resource identifier)统一资源标识符,用来唯一的标识一个资源

URL(Uniform resource Locator)统一资源定位符,他是一种具体的URI

统一资源定位符,由四部分组成:协议、存放资源的主机域名、端口号和资源文件名

URL是指向互联网  资源  的指针

资源可以是简单的目录或文件,也可以是对更为复杂对象的引用,例如对数据库或搜索引擎的查询

 

URL的构建

 常用的为:

URL(String spec)         //绝对路径构建

 

URL(URL context, String spec)  //相对路径构建

一个例子:

public static void main(String[] args) throws MalformedURLException {

/**
* URL组成 协议、存放资源的主机域名、端口号和资源文件名
* http 协议   www.baidu.com:80 主机域名  80端口  index.jsp资源
*/
    //绝对路径创建
    URL url1 = new URL("http://www.baidu.com:80/index.jsp"); 
    System.out.println(url1.toString());

    //相对路径创建
    URL url = new URL("http://www.baidu.com:80");
    URL url2 = new URL(url,"/login.html"); 
    System.out.println(url2.toString());

}

输出:

http://www.baidu.com:80/index.jsp

http://www.baidu.com:80/login.html

 

URL的常用方法

另一个例子:

public static void main(String[] args) throws MalformedURLException {

    //绝对路径创建
    URL url = new URL("http://www.baidu.com:80/index.jsp#aa?dmcId=1"); 

    System.out.println(url.toString());
    System.out.println("协议:" + url.getProtocol());
    System.out.println("主机名:" + url.getHost());
    System.out.println("端口:" + url.getPort());
    System.out.println("资源:" + url.getFile());
    System.out.println("相对路径资源:" + url.getPath());
    System.out.println("锚点:" + url.getRef()); //锚点 #aa
    System.out.println("有锚点时参数:" + url.getQuery()); //存在锚点返回null 不存在锚点返回参数
    url = new URL("http://www.baidu.com:80/index.jsp?dmcId=1");
    System.out.println("无锚点时参数:" + url.getQuery());
}

输出:

http://www.baidu.com:80/index.jsp#aa?dmcId=1
协议:http
主机名:www.baidu.com
端口:80
资源:/index.jsp
相对路径资源:/index.jsp
锚点:aa?dmcId=1
有锚点时参数:null

无锚点时参数:dmcId=1

 

利用URL进行文件读取

​public static void readrUrl() throws Exception{

URL url = new URL("http://www.baidu.com");
InputStream is = url.openStream();

//用UTF-8进行解码
BufferedReader reader = new BufferedReader(
new InputStreamReader(is,"utf-8"));

String msg = null;
while(null != (msg = reader.readLine())){
System.out.println(msg);
}
reader.close();
}

​

​

输出:百度首页的源码

将结果存储到本地

public static void readrUrl() throws Exception{

URL url = new URL("http://www.baidu.com");
InputStream is = url.openStream();
File file = new File("d:\\baidu.html");
FileOutputStream os = new FileOutputStream(file);

//用UTF-8进行解码
BufferedReader reader = new BufferedReader(
new InputStreamReader(is,"utf-8"));
BufferedWriter bw = new BufferedWriter(
new OutputStreamWriter(os,"utf-8"));

String msg = null;
while(null != (msg = reader.readLine())){
bw.append(msg);
bw.newLine();
}
bw.flush();
bw.close();
reader.close();
}

自学笔记,多有不足!!!!

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

网络编程(三)URL爬虫原理 的相关文章

  • Nginx安装及简介

    一 Nginx简介 Nginx是一个高性能的服务器 xff0c 类似于Apache Tomcat Jetty IIS等都是服务器 Nginx的优势 xff1a 1 Tomcat Jetty面向Java语言 xff0c 先天就是重量级的web
  • 数据结构之数组代码实现

    数据结构之数组代码实现 package com algorithm array 64 author xff1a Vimonster 64 date xff1a 2019 12 04 22 58 13 64 slogan 任时间再怎样低头呢喃
  • Invalid VCS root mapping

    idea导入springboot项目后 报错如下 xff1a 这个错误的原因是maven路径配置不对 xff0c 解决方案 file setting 在左上角的搜索框输入maven 配置正确的maven安装目录及seetting xml位置
  • Intger和int做比较的坑

    Integer 缓存 xff08 IntegerCache xff09 是 Java 5 中引入的一个有助于节省内存 提高性能的特性 废话不多说 xff0c 看一个栗子 64 author xff1a Vimonster 64 time 2
  • Springboot打成war包部署到Tomcat

    1 在pom xml中修改打成的包名称 lt build gt lt finalName gt 你的包名称 lt finalName gt lt plugins gt lt plugin gt lt groupId gt org sprin
  • zookeeper节点详解

    一 节点类型 persistent 持久节点 persistent sequential 持久序号节点 ephemeral 临时节点 ephemeral sequential 临时序号节点 1 persistent 持久节点 默认创建的节点
  • Zookeeper客户端详解

    zk常见客户端有三种 zookeeper原生Java APIZkClientApache curator 1 原生ZookeeperAPI lt dependency gt lt groupId gt org apache zookeepe
  • UILabel标签文字过长时的显示方式

    lineBreakMode xff1a 设置标签文字过长时的显示方式 label lineBreakMode 61 NSLineBreakByCharWrapping 以字符为显示单位显示 xff0c 后面部分省略不显示 label lin
  • error launching idea

    报错内容如下 解决方法 xff1a 如下图 idea 右击 gt 属性 gt 兼容性 gt 设置 gt 勾选 以管理员身份运行此程序 gt 应用 gt 确定
  • idea打开vue项目卡死问题解决

    解决方案 xff1a file gt settings gt File Types gt ActionScript gt as gt 给下面添加 node modules 然后 apply gt ok
  • Linux下载并安装rabbitmq-server-3.6.5-1.noarch.rpm

    目录 1 安装rabbitmq所需要的依赖包 2 下载安装包 3 安装服务命令 4 修改配置 5 启动rabbitmq 6 rabbitmq控制台安装 7 访问你的虚拟机 ip 15627 会出现下面的页面 用户名和密码都是 guest 8
  • nacos集群: code:503 msg: server is STARTING now, please try again later!

    在搭建nacos集群的时候 xff0c 集群启动成功的前提下 启动项目报如下错误 xff1a 解决方法 xff1a 1 cd 你nacos的bin目录 2 vim startup sh 3 在 JAVA OPT 61 34 JAVA OPT
  • yum安装rabbitmq的目录

    一般我们yum安装完rabbitmq后 xff0c 不知道安装到什么地方了 xff0c 其实是安装到下面的路径 usr lib rabbitmq lib 如下图所示 xff1a
  • Linux环境安装Redis

    下载地址 xff1a http download redis io releases 安装步骤 xff1a 1 安装gcc yum install gcc 2 把下载好的redis 4 0 14 tar gz xff08 选择你自己的版本
  • Redis主从环境搭建

    首先先搭建一个Redis xff1a 搭建方法 xff1a Linux环境安装redis 1 新建一个目录 xff0c 按照上述链接中的方法再次搭建一个redis 2 搭建完后 xff0c 修改从节点的redis conf文件 2 1 修改
  • Redis集群环境搭建

    一 下载redis xff08 此处我下载的是5 0 3版本 xff09 下载地址 xff1a http download redis io releases Linux命令下载 xff1a wget http download redis
  • Jvisualvm使用及添加Visual GC组件

    只要装了jdk xff0c 就会自带这个工具 xff0c 路径位置如下 xff1a JVisualvm添加Visual GC插件 动态观察各个年代GC情况 访问地址 xff1a https visualvm github io plugin
  • Spring源码编译Java: 找不到符号 InstrumentationSavingAgent

    报错如下 xff1a 解决 xff1a 将spring context gradle文件的 下面这一行 br optional project 34 spring instrument 34 br 修改为 br compile projec
  • RabbitMQ学习(六)——消息确认机制(Confirm模式)

    在上一篇文章中我们讲解了RabbitMQ中的AMQP事务来保证消息发送到Broker端 xff0c 同时我们可以在事务之间发送多条消息 xff08 即在channel txSelect 和channel txCommit 之间发送多条消息
  • zookeeper初识

    一 节点类型 persistent 持久节点 persistent sequential 持久序号节点 ephemeral 临时节点 ephemeral sequential 临时序号节点 1 persistent 持久节点 默认创建的节点

随机推荐

  • xmlns:dubbo=“http://dubbo.apache.org/schema/dubbo“报错

    请先看看你有没有加dubbo的maven依赖 xff0c 官网在做这个demo的时候并没有说要加maven依赖 xff0c 所以会xml中会报红 lt beans xmlns xsi 61 34 http www w3 org 2001 X
  • tomcat 8源码环境编译

    源码下载 下载地址 xff1a https tomcat apache org download 80 cgi 配置 1 解压下载好的源码包 apache tomcat 8 5 57 src zip 2 解压好后 xff0c 在解压后的目录
  • servlet配置文件解析

    1 配置 lt servlet gt xff08 以下代码均是web xml中的 xff09 lt servlet gt lt servlet name gt FirstServlet lt servlet name gt lt servl
  • 线程基础之—线程的创建

    线程创建分三类 1 继承Thread 43 run 启动 xff1a 创建子类对象 43 对象 start 2 实现Runnable 43 run 启动 xff1a 使用静态代理 1 gt 创建真实角色 2 gt 创建代理角色 Thread
  • 死锁

    一个死锁的代码 public class Demo public static void main String args Object g 61 new Object Object m 61 new Object Goods goods
  • 多线程之任务调度

    Timer定时器类 TimerTask任务类 通过java timer timetask xff1a xff08 Spring的任务的任务调度就是通过他们实现的 xff09 在这种实现方式中 xff0c Timer类实现的是类似于闹钟的功能
  • static关键字

    在类中 xff0c 用static声明的成员变量为静态成员变量 xff0c 或者叫做 xff1a 类属性 xff0c 类变量 它为该类的公用变量 xff0c 属于类 xff0c 被该类的所有实例共享 xff0c 在类被载入时被显示初始化对于
  • I/O流读写文件详解

    文件类 文件中路径的写法 xff1a 1 String filePath 61 34 C AAA a txt 34 第一个 表示转义字符 2 filePath 61 34 C 34 43 File pathSeparator 43 34 A
  • 日志工具Log4J

    目前在java编程中 xff0c 日志已经发展出一套成熟的机制 常用的日志控件有Commons logging log4j以及JDK自带的Logging 从最初的System out println 到现在的Log4j xff0c java
  • CAS单点登录(七)——自定义验证码以及自定义错误信息

    在前面我们讲解了CAS单点登录 六 自定义登录界面和表单信息 xff0c 知道了如何去实现页面和表单信息的自定义信息提交 xff0c 就像我们提交表单的信息可能包括手机 邮箱等等 xff0c 这些都能以我们前面的知识点去解决 但平时登录我们
  • Http协议之Request和Response

    协议版本 xff1a Http 1 0 Http 1 1 http1 0协议中 xff0c 客户端与服务器建立连接后 xff0c 只能获得一个 web 资源 http1 1协议中 xff0c 客户端与服务器建立连接后 xff0c 在一个连接
  • Cookie详解

    介绍Cookie xff0c 我们先了解一下什么是会话 会话 xff1a 用户开一个浏览器用于查询相关信息 xff0c 点击多个超链接 xff0c 访问对应的多个web资源 xff08 需要查询的资源 xff09 xff0c 然后关闭浏览器
  • Session浅谈

    在web开发中 xff0c 服务器可以为每个用户浏览器创建一个会话对象 xff08 Session对象 xff09 xff0c 注意 xff0c 一个浏览器独占一个session对象 xff08 默认情况下 xff09 因此 xff0c 在
  • JSP语法(一)

    JSP模板元素 JSP页面中的HTML内容称之为JSP模板元素 JSP模板元素定义了网页的基本骨架 xff0c 即定义了页面的结构和外观 JSP脚本表达式 JSP脚本表达式用于将程序数据输出到客户端的语法 xff1a lt 61 变量或表达
  • ServletConfig对象讲解

    ServletConfig最大的作用就是在一个servlet项目中 xff0c 有些东西不适合在程序中写死 xff0c 这些个东西就可以通过配置的方式添加到servlet的配置文件web xml中 在servlet的配置文件web xml中
  • spring的xml文件不给提示

    解决方法 xff1a 1 window gt preferences gt myeclipse gt Files and Editors gt xml gt xml Files gt Xml Catalog 或者直接到Preferences
  • Navicat 连接 MySQL 1045 错误

    navicat for mysql 连接本地数据库出现1045错误 如下图 xff1a 查了很多资料 xff0c 意思是说mysql没有授权远程连接 xff0c 也就是权限不够 xff1b 解决方法 xff1a 1 首先打开命令行 xff1
  • 网络编程(一)

    本节主要讲网络编程的一些个概念 计算机网络 把分布在不同地理区域的计算机与专门的外部设备用通信线路互相连成一个规模大 功能强的网络系统 xff0c 从而使众多计算机可以方便的互相传递信息 xff0c 共享硬件 xff0c 软件 数据信息等资
  • 网络编程(二)InetAddress和InetSocketAddress

    本节主要讲InetAddress和InetSocketAddress这两个类 InetAddress 封装计算机的IP地址和DNS xff0c 没有端口 1 静态方法获取对象 InetAddress InetAddress getLocal
  • 网络编程(三)URL爬虫原理

    URL和URI的概念 URI xff08 Uniform resource identifier xff09 统一资源标识符 xff0c 用来唯一的标识一个资源 URL xff08 Uniform resource Locator xff0