html转微信公众号,通过htmlparse动态抓取微信公众号的文章

2023-05-16

真的是很久没有更新我的博客了，刚开始，我还真的不知道爬虫是什么东西，但是由于项目需要，老板要我做个简单的爬虫，就是去人家的微信公众号去把里面的文章动态的抓取下来，当听到这个事情的时候，我是激动的，因为要我接触一个未知的领域，这是一个很值得装逼的是！！！！

好了屁话就不多逼逼了。首先呢，我是通过搜狗来找到微信公众号的，因为搜狗那边比较容易入手，可以绕过校验。但是我估计也是时日不长。在这之前，我们需要用到htmlparser这个类来操作，可以在maven里面配置：

也可以通过去下载jar包

我们现在抓取这个公众号：http://weixin.sogou.com/weixin?type=1&query=%E5%B0%9A%E6%B1%87%E5%9F%8E&ie=utf8&_sug_=n&_sug_type_=，然后用浏览器打开打开源代码来产看进入这个公众号文章的那个连接，然后进行分析：

我们可以看到它的onclick事件之后是跳转到一个文章列表，所以我们要首先拿到那个连接，进入连接后是文章列表：

接下来就像上一步一样打开源代码分析：每一篇文章都有一个连接，只要截取到这个连接即可：

接下来就是点击其中一篇文章进去，然后在进行分析,可以看到文章的详情都有一个id = js_content的一个div，接下来就是根据这个id来获取文章内容

所有代码如下：

private List fetchArticles(String url) throws Exception {

List ats = new ArrayList();

String h1 = getHtml(url);

Parser parser = new Parser(h1, null);

NodeList nl = parser.extractAllNodesThatMatch(new NodeFilter() {

@Override

public boolean accept(Node node) {

// TODO Auto-generated method stub

if (node instanceof Div) {

Div shc = (Div) node;

String onclick = shc.getAttribute("onclick");

if (onclick != null && onclick.contains("gotourl(")) {

return true;

}

return false;

}

});

//获取文章列表

if (nl != null && nl.size() > 0) {

Div shc = (Div) nl.elementAt(0);

String urlL1 = shc.getAttribute("href");

if (StringUtil.isNotEmpty(urlL1)) {

urlL1 = decode(urlL1);

System.out.println("goto:" + urlL1);

String html = getHtml(urlL1);

if (StringUtil.isNotEmpty(html)) {

String[] arr = html.split("\\\\/s\\?timestamp=");

if (arr.length > 1) {

for (int i = 1; i < arr.length; i++) {

// for (int i = 1; i < 5; i++) {

String s2 = arr[i];

String[] arr3 = s2.split("","source_url");

if (arr3.length == 2) {

String urlL3 = ("http://mp.weixin.qq.com/s?timestamp=" + decode(arr3[0].trim()));

System.out.println("goto:" + urlL3);

//获取文章的详情

At at = getArticleByUrl(urlL3);

if (at != null) {

ats.add(at);

}

// System.out.println(arr.length);

}

return ats;

}

以下是上面方法调用到的方法：

//获取html源码

public static String getHtml(String url) {

try {

HttpClient httpclient = new HttpClient();

GetMethod method = new GetMethod(url);

httpclient.executeMethod(method);

return method.getResponseBodyAsString();

} catch(Exception ex) {

ex.printStackTrace();

}

return null;

}

获取文章详情方法：

@Override

public At getArticleByUrl(String url) {

// TODO Auto-generated method stub

String s3 = getHtml(url);

try {

Parser parser = new Parser(s3, null);

NodeList titles = parser.extractAllNodesThatMatch(new NodeFilter() {

@Override

public boolean accept(Node node) {

if (node instanceof TitleTag) {

return true;

}

return false;

}

});

if (titles != null && titles.size() > 0) {

String title = titles.elementAt(0).toPlainTextString();

At at = new At();

at.setTitle(title);

parser = new Parser(s3, null);

NodeList contents = parser.extractAllNodesThatMatch(new NodeFilter() {

@Override

public boolean accept(Node node) {

// TODO Auto-generated method stub

if (node instanceof Div && "js_content".equals(((Div) node).getAttribute("id"))) {

return true;

}

return false;

}

});

if (contents != null && contents.size() > 0) {

String body = contents.elementAt(0).toHtml();

at.setContent(body);

}

if(StringUtil.isNotEmpty(at.getContent())) {

parser = new Parser(at.getContent(), null);

NodeList imgs = parser.extractAllNodesThatMatch(new NodeFilter() {

@Override

public boolean accept(Node node) {

// TODO Auto-generated method stub

if (node instanceof ImageTag) {

return true;

}

return false;

}

});

if (imgs != null && imgs.size() > 0) {

int start = 0;

if(imgs.size() > 1) {

start = 1;

}

for(int i=start; i

ImageTag img = ((ImageTag)imgs.elementAt(i));

if(StringUtil.isNotEmpty(img.getAttribute("data-src"))) {

at.setThumb(img.getAttribute("data-src"));

break;

}

return at;

}

} catch(Exception ex) {

log.error(ex.getMessage(), ex);

}

return null;

}

有时候当点击那个公众号进去之后是一个验证页面：

这个不要紧的，点多几次就可以了。

这是调用：

要注意框框的那个代码，如果不要的话好像会不行，应该是因为tomcat里面不能直接翻译中文，所以要进行转码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

html转微信公众号,通过htmlparse动态抓取微信公众号的文章的相关文章

STM32F4的FSMCTFT接口配置

利用安富莱的V5开发板 xff0c 根据原理图配置 xff1b LCD接口原理图如下 xff1a 从原理图看出LCD接的是BANK1 xff0c 片选是NE4 xff0c LCD的RS为A18 xff0c 配置如下然后安富莱的LCD片选是
物联lot是什么意思_什么是IOT物联网技术

展开全部物联网 xff0c 英文名为Internet of things IoT xff0c 顾名思义 xff0c 物联网就是物物相连的32313133353236313431303231363533e78988e69d833133343
每天下午5点执行定时_使用iOS快捷指令执行快捷操作之1——每天早起定时打开蚂蚁森林...

写在前面 iOS快捷指令是新版本iOS所具有的功能 xff0c 图标是下面这个样子 xff1a 如果你的iOS设备找不到这个功能 xff0c 可能这个功能被你屏蔽了 xff0c 或者iOS版本不够 xff0c 请升级你的iOS系统 iOS快
西门子触摸屏脚本程序_西门子触摸屏程序如何上传

有这个功能啊 xff0c 叫回传吧回答者 xff1a hansion 中级技术员 amp nbsp amp nbsp第6级 2009 10 07 07 10 14 菜单上有上载这个标签回答者 xff1a WYY666 高级技术员 amp
php 获取 ip地址_PHP 获取ip地址的六种方法

本篇文章主要介绍PHP 获取ip地址的六种方法 xff0c 感兴趣的朋友参考下 xff0c 希望对大家有所帮助代码一 xff1a function getip static ip 61 39 39 ip 61 SERVER 39 REMO
c语言scanf错误c4996,VS2015怎么解决scanf函数的C4996错误?

Visual Studio简称VS VS是一个基本完整的开发工具集 xff0c 包含了许多与编程有关的工具如果你使用过VC6 0 xff0c 那么对基本输入函数scanf 一定不会陌生但是在VS的环境下scanf直接使用会在生成解决方案
卫生地理信息服务器地址,国家地理信息公共服务平台天地图

URL http MapServer 所属资源描述地图服务提供访问地图和图层的功能地图服务可以分为缓存地图服务和动态地图服务通过高速缓存预先创建切片而不是动态渲染地图的地图服务 xff0c 被称为缓存地图服务动态地图服务则是在每一
djiango网站复制到服务器,在django d中获取服务器URL

我在docker运行Django项目我有3个码头集装箱在Django应用程序博士后对于Nginx 我的docker compose yml文件如下version 34 3 34 services db restart always
STM32 USART库函数介绍2

USART Cmd函数的功能是使能或失能USART串口外设例 xff1a 使能USART1 USART Cmd USART1 ENABLE USART ITConfig函数的功能是使能或者失能指定的USART串口中断 USART IT P
蛮荒搜神记服务器在维护,蛮荒搜神记有什么日常任务蛮荒搜神记日常任务介绍...

前面跟着做主线就可以了 xff0c 做到19级 xff0c 每天的日常就来临了 xff0c 需要提示大家的是 xff0c 下面的大部分任务可以获得活跃值 xff0c 每20点活跃值可获得奖励 xff0c 当活跃值达到80 xff0c 可以去
服务器增加串口,多串口服务器的工作方式及接线示意图

原标题 xff1a 多串口服务器的工作方式及接线示意图串口服务器提供串口转网络功能 xff0c 能够将RS 232 485 422串口转换成TCP IP网络接口 xff0c 实现RS 232 485 422串口与TCP IP网络接口的数据
php getdigest,http digest

HTTP digest 摘要访问认证是一种协议规定的Web服务器用来同网页浏览器进行认证信息协商的方法它在密码发出前 xff0c 先对其应用哈希函数 xff0c 这相对于HTTP基本认证发送明文而言 xff0c 更安全从技术上讲 xff
c语言十进制转十六进制算法,十进制转十六进制算法

最简单的 xff0c 不涉及算法的作法就是用printf的输出格式 x 输出16进制 x 输出小写的a b c d e f X输出大写的A B C D E F include 34 stdio h 34 int main int a pri
css3制作动态进度条有百分数,实现CSS3动态进度条及JQUERY百分比数字显示

在网页设计中 xff0c 想必一个精彩的进度条将会为你的网站增添不少的精彩 xff0c 一个好的网页设计往往体现在一些小的细节上面 xff0c 细节决定了成功与否在此之前也为大家分享了一些关于进度条的设计让人不得不爱的22个UI进度条设
linux文件名的长度不能超过个字符串,文件名的长度可达（）个字符

单选文件名的长度可达个字符 A 1 B 无数 C 255 D 10 文件名的长度可长达255个字符为了方便人们区分计算机中的不同文件 xff0c 而给每个文件设定一个指定的名称由文件主名和扩展名组成为文件指定的名称为了区分不同的
SIP鉴权—摘要式认证

SIP 认证过程源自 HTTP 摘要式认证 HTTP Digest Authentication xff0c 它是一种基于质询的安全机制当服务器收到一个请求 xff0c 将质询请求的发起者 xff0c 要求提供相应的身份信息服务器发出的
多屏动画css3,17个CSS3进度条加载动画效果—H5页面开发第三课

H5移动页面开发 xff0c 目前也越来越热啦 xff0c 无论开发哪一种移动H5页面 xff0c 加载动画是必不可少的除了我们经常看到的那些酷炫的CSS3进度条加载动画效果外 xff0c 也有一些很有创意的H5页面加载演示效果 1 10
c++ 全局对象多线程共用_C++多线程并发---异步编程

线程同步主要是为了解决对共享数据的竞争访问问题 xff0c 所以线程同步主要是对共享数据的访问同步化按照既定的先后次序 xff0c 一个访问需要阻塞等待前一个访问完成后才能开始这篇文章谈到的异步编程主要是针对任务或线程的执行顺序 xff
gpio_typedef_超经典的STM32学习笔记——第一章GPIO口

函数名 GPIO Init 函数原形 void GPIO Init GPIO TypeDef GPIOx GPIO InitTypeDef GPIO InitStruct 功能描述根据 GPIO InitStruct 中指定的参数初始化外
c语言栈结构存放数据类型,数据结构——栈的详解

栈和队列是两种重要的线性结构 xff0c 从数据结构的角度看 xff0c 栈和队列也是线性表 xff0c 其特殊性在于栈和队列的基本操作是线性表的子集他们是操作受限的线性表 xff0c 因此 xff0c 可称为限定性的数据结构但从数据类

随机推荐

自定义串口通信协议（16进制）

1 1 nbsp 串口通信标准通过RS 232接口进行两个设备间的通信异步传输全双工通信接口标准两种接口9pin DB 9 25pin DB 25 通常只有三根线 TXD 发送 RXD 接收 GND 接地传输距离 150pF m
51单片机c语言定义寄存器r,c51特殊功能寄存器定义及作用

单片机C51语言是由C语言继承而来的和C语言不同的是 xff0c C51语言运行于单片机平台 xff0c 而C语言则运行于普通的桌面平台 C51语言具有C语言结构清晰的优点 xff0c 便于学习 xff0c 同时具有汇编语言的硬件操作能力
c语言带符号位的二进制数组,二进制数据的表示与运算(有符号、无符号数数学运算以及Q格式定点精度问题）...

本文介绍了二进制binary数据在存储器的表示方式 xff0c C语言的位运算符号 xff0c 有符号和无符号混合运算的规则 xff0c 主要是乘法和除法规则不同最后以IIR滤波器定点实现的例子来说明如何提高计算精度二进制数据与补码原
c 语言udp方式连接代码,C语言实现UDP连接的参考代码

C语言实现UDP连接的参考代码 xff0c Client连接上Server后将自己所在目录下的 34 liu 34 文件中的前三行文字发送到Server端去 xff0c 然后Server负责接收和显示 server c include in
mysql查询两个表相同字段的值_SQL查询两个表相同的两个字段里不同的数据有哪些...

展开全部 select from A inner join B on A Name 61 B Name and A ID 61 B ID where A Name 61 39 张三 39 and A ID 61 39 008 39 内连接即
mac上能装python么,mac需要装python吗

Mac不需要安装Python xff0c Mac上自带了python2 7 xff0c 如果想要使用Python3 xff0c 则需要安装python3 接下来手把手教你如何安装Python3 xff01 有两种方法 xff1a 推荐使用h
荣耀九x什么时候升级鸿蒙系统,好消息！荣耀9X年内将全部升级华为鸿蒙操作系统...

华为鸿蒙HarmonyOS操作系统应用在手机上的日期越来越近了根据此前MateX2发布会的消息 xff0c 四月起MateX2等麒麟9000平台机型将率先升级一款操作系统除了稳定性和易用性之外 xff0c 生态应用的支持程度也决定着他的
winxp计算机如何连接win7计算机,xp连接win7共享打印机的步骤,xp连接win7共享打印机教程...

winxp系统在使用的过程中如果需要连接win7共享打印机该怎么设置 xff1f 也就是xp连接win7共享打印机的步骤很多小伙伴对其中的设置步骤还不是很清楚 xff0c 且看以下的教程 xp连接win7共享打印机教程 xff1a 解决方
服务器稳定对页面的排名很重要,网站关键词排名的影响因素

影响网站关键词排名的因素有哪些 xff1f 在SEO优化中 xff0c 优化师非常关心网站关键词在百度主页上的排名就让我们一起来了解一下影响网站关键词排名的因素吧 xff01 1 网站服务器稳定性网站服务器的稳定性和速度直接影响到网站关
swoole怎么提升服务器性能,tp5.1 使用swoole做服务器简单的接口性能测试

官方测试地址 xff1a 官方测试最近在看tp5 1的think swoole支持 xff0c 作为替代php fpm的一种方案 xff0c 现在简单的用swoole做为http服务器和用传统的php fpm分别测试下接口的性能测试机器
米联客 ZYNQ/SOC 精品教程 S02-CH25 利用OSD实现双目摄像头字幕叠加

软件版本 xff1a VIVADO2017 4 操作系统 xff1a WIN10 64bit 硬件平台 xff1a 适用米联客 ZYNQ系列开发板米联客 MSXBO 论坛 xff1a www osrc cn答疑解惑专栏开通 xff0c 欢
基于STM32的LoRa无线通信（AS32—TTL-1W)

目录无线串口简介项目简介发送端代码接收端代码项目总结前些天接触到一个小项目 xff0c 需要使用无线传输的功能 xff0c 不仅如此还需要远距离的通信 xff0c 搜索资料后最终选择了泽耀科技的LoRa xff08 AS32 T
rodc 访问文件服务器,Win2008 RODC管理攻略之常见问题解答

IT168 专稿前文我们介绍了RODC的基本安装点击 xff0c 与可写域控制器相比 RODC 需要较少的管理 xff0c 这也是它在Windows Server2008中的一个重要优势它仅需要入站复制 xff0c 并且不能将错误信息
java byte 反转_Java-byte-到-long-int类型转换，反转

在java中 xff0c 任何的计算如果没有没有显式的数据类型转换 xff0c 计算结果都会变成int类型如下byte的计算 64 Test public void test6 byte b 61 2 System out println
linux c char数组传回函数,软件素材---linux C语言：拼接字符串函数 strcat的用例(与char数组联合使用挺好)...

头文件 include 原型 1 char strcat char dest const char src 参数 xff1a dest 为目标字符串指针 xff0c src 为源字符串指针 strcat 会将参数 src 字符串复制到参数
linux下中文的wchar转char,Linux下 wchar_t 与char 转换

为了支持多语言 xff0c 需要支持宽字符 xff0c Linux下用wchar t表示 xff0c wchar t最大长度4个字节 xff0c 已经可以囊括世界上所有的语言编码 xff0c 中文字符在gb2312编码下用2个字节表示 xf
python画矩形函数drawrectangle_基于python,OPenCv中基本的绘图函数

一 OpenCv中 python接口的基本的绘图函数 xff11 xff0d 用于绘制直线的 cv2 line 函数 xff12 xff0d 用于绘制椭圆的 cv2 ellipse 函数 xff13 xff0d 用于绘制矩形的 cv2 re
java堆和栈分别存什么类型_栈、堆、方法区分别存储什么内容

栈中保存基本数据类型的值和对象以及基础数据的引用 xff1b 堆中存储的全部是对象 xff0c 每个对象都包含一个与之对应的class的信息 xff1b 方法区被所有的线程所共享 xff0c 方法区包含所有的class和static变量堆
手把手教程2: keil如何向MDK中加入头文件和库文件

华大MCU如何向MDK中加入头文件和库文件开发板请点击 xff1a https item taobao com item htm spm 61 a2oq0 12575281 0 0 50111debhMzSwz amp ft 61 t a
html转微信公众号,通过htmlparse动态抓取微信公众号的文章

真的是很久没有更新我的博客了 xff0c 刚开始 xff0c 我还真的不知道爬虫是什么东西 xff0c 但是由于项目需要 xff0c 老板要我做个简单的爬虫 xff0c 就是去人家的微信公众号去把里面的文章动态的抓取下来 xff0c 当听到

html转微信公众号,通过htmlparse动态抓取微信公众号的文章

html转微信公众号,通过htmlparse动态抓取微信公众号的文章 的相关文章

随机推荐

热门标签

html转微信公众号,通过htmlparse动态抓取微信公众号的文章的相关文章