判断页面相似度的python实现

2023-05-16

判断页面相似度的python实现：

两天时间实现了一小部分，大量其实是xpath解析以及字符串和文件操作，性能还需要改善，下面说一下步骤：

动态获取DOM树结构：

因为主要是解析Vue.js框架写的，DOM树是动态生成的，还有Ajax请求。所以不能通过传统的requests.get(url)直接获取，在网上看了很多方法，有用无头浏览器的，还有好多记不清了，因为我是要为测试服务，所以我用了selenium登陆后获取cookies,再通过cookies加入获取动态DOM树。

import lxml
import time
from lxml import etree
from selenium import webdriver

driver = webdriver.Chrome()
#手动登录部分
driver.get('http://localhost:9527/#/login?redirect=%2Fuser%2Fuser')
driver.find_element_by_xpath("//*[@id='app']/div/form/div[2]/div/div/input").send_keys('')
driver.find_element_by_xpath("//*[@id='app']/div/form/div[3]/div/div/input").send_keys('')
driver.find_element_by_xpath("//*[@id='app']/div/form/button").click()
time.sleep(2)
cookie_list = driver.get_cookies()
#cookies可以在Chrome中摁F12找到，也可以打印上一步
for item in cookie_list: driver.add_cookie(
    {
        'domain': 'localhost',
        'httpOnly': False,
        'name': 'X-Litemall-Admin-Token',
        'path': '/',
        'secure': False,
        'value': '1fpzctbhesj4eqfg5e2k6gkg77m2u220'
    }
)
time.sleep(5)

获取所有元素的xpath路径，并存入文件

def get_xpath(html):
    page=etree.HTML(html)
    result=page.xpath('//*')
    with open('D:\\code\\python\\bok-choy-master\\tests\\demo\\pathx','w') as f:
        for i in result:
            tree=lxml.etree.ElementTree(i)
            ll=tree.getpath(i)
            f.write(ll)

从文件中读取所有元素的xpath路径，然后找到所有叶子节点

def get_leaf_xpath():
    result=[]
    with open('D:\\code\\python\\bok-choy-master\\tests\\demo\\pathx','r') as f:
        for line in f.readlines():
            result.append(line.strip('\n'))
    print(len(result))
    leaf_node_xpath_list=[]
    for i in range(len(result)-1):
        j=i+1
        one_xpath=result[i]
        two_xpath=result[j]
        if one_xpath in two_xpath:
            one_xpath=two_xpath
            two_xpath=result[j+1]
        else:
            leaf_node_xpath_list.append(one_xpath)
    return leaf_node_xpath_list

参考(python使用lxml解析html获取页面内所有叶子节点的xpath路径)[https://blog.csdn.net/Together_CZ/article/details/74015599]

后期想用最长公共子序列实现=_=

def get_leaf_xpath():
    result=[]
    with open('D:\\code\\python\\bok-choy-master\\tests\\demo\\pathx','r') as f:
        for line in f.readlines():
            result.append(line.strip('\n'))
    print(len(result))
    leaf_node_xpath_list=[]
    for i in range(len(result)-1):
        j=i+1
        one_xpath=result[i]
        two_xpath=result[j]
        if one_xpath in two_xpath:
            one_xpath=two_xpath
            two_xpath=result[j+1]
        else:
            leaf_node_xpath_list.append(one_xpath)
    return leaf_node_xpath_list

主函数

if __name__ == '__main__':
    driver.get('http://localhost:9527/#/user/user')
    html1=driver.page_source
    print(len(get_leaf_xpath()))
    driver.close()

最后获得叶子结点数是301个，原结点数649个

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

判断页面相似度的python实现的相关文章

rocksdb的原子flush

如果始终启用 WAL xff0c 则无需使用原子刷新选项启用 WAL 后 xff0c 单个 WAL 文件用于捕获对所有列族的写入因此 xff0c 恢复的数据库 xff08 通过在崩溃恢复路径中重播 WAL 日志 xff09 保证在所有
rocksdb的设置选项和基本调整

除了在 RocksDB 上使用基本操作编写代码外 xff0c 您可能还对如何调整 RocksDB 以实现所需的性能感兴趣在本页中 xff0c 我们将介绍如何进行初始设置 xff0c 该设置应该足以满足许多用例的需求 RocksDB 有许多
rocksdb的wal配置

wal配置数据库 xff1a xff1a wal dir DBOptions wal dir设置 RocksDB 存储预写日志文件的目录 xff0c 该目录允许将 WAL 存储在与实际数据不同的目录中数据库 xff1a xff1a WA
Winpcap常用函数解析

1 int pcap findalldevs pcap if t char 说明 xff1a 用来获得网卡的列表参数 xff1a 指向pcap if t 类型的列表的指针的指针 char型指针当打开列表错误时返回错误信息返回值为in
终端、虚拟终端、shell、控制台、tty的区别

终端与控制台的区别 xff1f 最近开始接触Linux xff0c 终端虚拟终端 shell 控制台 tty等概念让我很混乱 xff0c 有必要认识清楚今天看到有人问终端和控制台的区别 xff0c 而且这个问题比较有普遍性 xff0c
Windows下C++使用thread时无法识别thread和mutex相关库的解决

问题描述今天我在Windows下打算尝试C 43 43 多线程编程 xff0c 在CLion上进行编码 CLion的C 43 43 编译器是正常的 xff0c 以前也跑过好几个项目 xff0c 使用其他STL库函数也正常 xff0c 唯独
虚拟机下Linux系统磁盘扩容

在VM虚拟机中 xff0c 我们经常会选择默认磁盘大小20G xff0c 用着用着才发现20G不够用 xff0c 服务启动不了 xff0c 就很尴尬 xff0c 让我们今天一起来学习下 xff0c 如何在虚拟机给磁盘扩容一 xff1a 关
MATLAB学习笔记——二维和三维绘图

MATLAB学习笔记二维和三维绘图近期练习matlab的二维和三维绘图 xff0c 整理一下 xff0c 以防忘记文章目录 MATLAB学习笔记二维和三维绘图一二维绘图1 plot命令2 fplot 命令3 ezplot 绘图命令
pve 相关

一 pve 创建的虚拟机的配置文件位置在宿主机的 etc pve qemu server xff0c 这里有创建虚拟机的相关硬件信息 root 64 pve span class token comment cd etc pve qemu
mysql在linux下的my.cnf文件在哪里！

用rpm包安装的MySQL是不会安装 etc my cnf文件的 xff0c 至于为什么没有这个文件而MySQL却也能正常启动和作用 xff0c 在点有两个说法 xff0c 第一种说法 xff0c my cnf只是MySQL启动时的一个参数
shell后台并发执行的最佳实践

一 shell如何在后台执行 1 nohup命令通常我们都是远程登录linux终端 xff0c 而当我们退出终端时在之前终端运行的程序都会终止 xff0c 有时候先想要退出终端也要程序继续执行这时nohup就登场了 nohup命令可以将
任意输入10个数,找出最大数和最小数。

任意输入10个数找出最大数和最小数 span class token macro property span class token directive keyword include span span class token stri
如何在 Chromebook 上启用开发者模式

写在前面的话 xff1a 版权声明 xff1a 本文为博主原创文章 xff0c 转载请注明出处 xff01 博主是一个小菜鸟 xff0c 并且非常玻璃心 xff01 如果文中有什么问题 xff0c 请友好地指出来 xff0c 博主查证后会进
【C语言】实现 atoi 函数

写在前面的话 xff1a 版权声明 xff1a 本文为博主原创文章 xff0c 转载请注明出处 xff01 博主是一个小菜鸟 xff0c 并且非常玻璃心 xff01 如果文中有什么问题 xff0c 请友好地指出来 xff0c 博主查证后会进
【C语言】字符串合集

写在前面的话 xff1a 版权声明 xff1a 本文为博主原创文章 xff0c 转载请注明出处 xff01 博主是一个小菜鸟 xff0c 并且非常玻璃心 xff01 如果文中有什么问题 xff0c 请友好地指出来 xff0c 博主查证后会进
线程上下文切换和进程上下文切换的区别

进程切换分两步 1 切换页目录以使用新的地址空间 2 切换内核栈和硬件上下文对于linux来说 xff0c 线程和进程的最大区别就在于地址空间对于线程切换 xff0c 第1步是不需要做的 xff0c 第2是进程和线程切换都要做的所以明
【Ubuntu】解决 Could not get lock /var/lib/dpkg/lock-frontend

写在前面的话 xff1a 版权声明 xff1a 本文为博主原创文章 xff0c 转载请注明出处 xff01 博主是一个小菜鸟 xff0c 并且非常玻璃心 xff01 如果文中有什么问题 xff0c 请友好地指出来 xff0c 博主查证后会进
【Ubuntu】解决 error: dpkg frontend is locked by another process

写在前面的话 xff1a 版权声明 xff1a 本文为博主原创文章 xff0c 转载请注明出处 xff01 博主是一个小菜鸟 xff0c 并且非常玻璃心 xff01 如果文中有什么问题 xff0c 请友好地指出来 xff0c 博主查证后会进
【OpenCV】关于Vec3b类型的含义与使用

写在前面的话 xff1a 版权声明 xff1a 本文为博主原创文章 xff0c 转载请注明出处 xff01 博主是一个小菜鸟 xff0c 并且非常玻璃心 xff01 如果文中有什么问题 xff0c 请友好地指出来 xff0c 博主查证后会进
【Java】文件读写和输入输出

写在前面的话 xff1a 版权声明 xff1a 本文为博主原创文章 xff0c 转载请注明出处 xff01 博主是一个小菜鸟 xff0c 并且非常玻璃心 xff01 如果文中有什么问题 xff0c 请友好地指出来 xff0c 博主查证后会进

随机推荐

【剑指Offer】题3：数组中重复的数字

写在前面的话 xff1a 版权声明 xff1a 本文为博主原创文章 xff0c 转载请注明出处 xff01 博主是一个小菜鸟 xff0c 并且非常玻璃心 xff01 如果文中有什么问题 xff0c 请友好地指出来 xff0c 博主查证后会进
【C语言】关于遍历字符串的三种方法

写在前面的话 xff1a 1 版权声明 xff1a 本文为博主原创文章 xff0c 转载请注明出处 xff01 2 博主是一个小菜鸟 xff0c 并且非常玻璃心 xff01 如果文中有什么问题 xff0c 请友好地指出来 xff0c 博主查
逻辑地址、虚拟地址、物理地址以及内存管理

本文涉及的硬件平台是X86 xff0c 如果是其它平台 xff0c 嘻嘻 xff0c 不保证能一一对号入座 xff0c 但是举一反三 xff0c 我想是完全可行的 1 概念物理地址 physical address 用于内存芯片级的单元寻
为 CentOS 配置网络

用桥接方式给CentOS配置网络 xff0c 这里我使用的是CentOS 6 5 第一步点开虚拟机的设置 xff0c 网络连接选择桥接方式 xff0c 其他勾选按照下图 xff0c 如下图做相关的设置 xff1a 第二步打开网络连接 x
32位 idea启动出现“could not find main class com/intellij/idea/Main“错误解决方法

idea启动出现 could not find main class com intellij idea Main 错误的解决方法 32位环境下安装idea及解决could not find main class com intellij
java实现获取两个list交集

如何获取两个list的交集 xff0c 使用java8 的stream实现非常容易 java流实现创建两个字符串list xff0c 两者都有重复的元素 xff1a List lt String gt list 61 Arrays asL
shell中$(( ))与$( )还有${ }的区别

与 96 96 反引号在bash shell中 xff0c 与 96 96 反引号都是用来做命令替换 command substitution 用的 echo the last sunday is date d 34 last sund
apache 的网页内容显示是乱码

apache 的网页内容显示是乱码非常感觉下面各位的回答 xff0c http forum ubuntu org cn yaoms etcte HuntXu sevk shellex http linux chinaunix net ma
字母及数字上标下标

字母及数字上标下标欢迎使用新的改变欢迎使用常用上标常用下标更多上标
构造矩阵乘最优解

void bracket int i int j if i 61 61 j cout lt lt 34 M 34 lt lt i else cout lt lt 34 34 int k 61 K i j bracket i k 1 brac
vs2012 出现LINK : fatal error LNK1104: 无法打开文件“kernel32.lib”问题

首先 xff0c 我是在已经安装了vs2010的基础上安装的vs2012 xff0c 测试安装的时候发现最基本的helloworld程序都通不过 xff0c 出现LINK fatal error LNK1104 无法打开文件 kernel3
SerDes知识详解

一 SERDES的作用 1 1并行总线接口在 SerDes流行之前芯片之间的互联通过系统同步或者源同步的并行接口传输数据图 1 1 演示了系统和源同步并行接口随着接口频率的提高 xff0c 在系统同步接口方式中有几个因素限制了有
enum : C#中的枚举类型,原来有这么多用法

今天来的时候打开了MSDN扫了一眼C 里的枚举类型蓦然发现这东西还有些新玩法首先是简单介绍 xff0c 在此略过因为enum用法很简单么定义一个简单的枚举类型 xff1a enum Days Sat Sun Mon Tue Wed
ubuntu下安装cuDNN

正确的安装cuDNN方式 xff0c 其实跟着官方安装说明进行安装就可以了 1 从https developer nvidia com cudnn上下载cudnn相应版本的压缩包 xff08 需要注册或登录 xff09 下载cuda对应版本
面向对象（3）

私有权限封装的意义 xff1a 将属性和方法放到一起做为一个整体 xff0c 然后通过实例化对象来处理 xff1b 隐藏内部实现细节 xff0c 只需要和对象及其属性和方法交互就可以了 xff1b 对类的属性和方法增加访问权限控制私有
【vnc远程桌面】未联网状态下使用离线包配置vnc

系统为ubuntu18 04 amd64版本本教程使用vino配置远程服务器首先 xff0c 离线安装vino包后远程传输给待控制服务器 xff1a sudo apt update sudo apt get download apt c
7.用选择排序法对一个数组进行排序。

include lt stdio h gt define N 5 void datesort int a int i j k temp for i 61 0 i lt N 1 i 43 43 k 61 i for j 61 i 43 1 j
error while loading shared libraries: xxx.so.x"错误的原因和解决办法

一般我们在Linux下执行某些外部程序的时候可能会提示找不到共享库的错误比如 tmux error while loading shared libraries libevent 1 4 so 2 cannot open shared o
Linux终端进度条显示进程执行进度

在Linux执行费时操作 xff08 如tar xff09 时显示进度条 xff0c 以不至于让用户觉得程序卡死了效果文本进度条结束后 xff1a 图形化字符进度条文本进度条怎么做进度条实现网上有一些老六会说要下载一些工具 xf
判断页面相似度的python实现

判断页面相似度的python实现 xff1a 两天时间实现了一小部分 xff0c 大量其实是xpath解析以及字符串和文件操作 xff0c 性能还需要改善 xff0c 下面说一下步骤 xff1a 动态获取DOM树结构 xff1a 因为主要是

判断页面相似度的python实现

判断页面相似度的python实现 的相关文章

随机推荐

热门标签

判断页面相似度的python实现的相关文章