孤立森林算法 python_用Python实现孤立森林

2023-11-06

from random import sample, random, choice, randint

from math import ceil, log

from utils import run_time

class Node(object):

def __init__(self, size):

"""Node class to build tree leavesKeyword Arguments:size{int}-- Node size (default:{None})"""

# Node size

self.size = size

# Feature to split

self.split_feature = None

# Split point

self.split_point = None

# Left child node

self.left = None

# Right child node

self.right = None

class IsolationTree(object):

def __init__(self, X, n_samples, max_depth):

"""Isolation Tree classArguments:X{list}-- 2d list with int or floatn_samples{int}-- Subsample sizemax_depth{int}-- Maximum height of isolation tree"""

self.height = 0

# In case of n_samples is greater than n

n = len(X)

if n_samples > n:

n_samples = n

# Root node

self.root = Node(n_samples)

# Build isolation tree

self._build_tree(X, n_samples, max_depth)

def _get_split(self, X, idx, split_feature):

"""Randomly choose a split pointArguments:X{list}-- 2d list object with int or floatidx{list}-- 1d list object with intsplit_feature{int}-- Column index of XReturns:int -- split point"""

# The split point should be greater than min(X[feature])

unique = set(map(lambda i: X[i][split_feature], idx))

# Cannot split

if len(unique) == 1:

return None

unique.remove(min(unique))

x_min, x_max = min(unique), max(unique)

# Caution: random() -> x in the interval [0, 1).

return random() * (x_max - x_min) + x_min

def _build_tree(self, X, n_samples, max_depth):

"""The current node data space is divided into 2 sub space: less than thesplit point in the specified dimension on the left child of the current node,put greater than or equal to split point data on the current node's right child.Recursively construct new child nodes until the data cannot be splitted in thechild nodes or the child nodes have reached the max_depth.Arguments:X{list}-- 2d list object with int or floatn_samples{int}-- Subsample sizemax_depth{int}-- Maximum depth of IsolationTree"""

# Dataset shape

m = len(X[0])

n = len(X)

# Randomly selected sample points into the root node of the tree

idx = sample(range(n), n_samples)

# Depth, Node and idx

que = [[0, self.root, idx]]

# BFS

while que and que[0][0] <= max_depth:

depth, nd, idx = que.pop(0)

# Stop split if X cannot be splitted

nd.split_feature = choice(range(m))

nd.split_point = self._get_split(X, idx, nd.split_feature)

if nd.split_point is None:

continue

# Split

idx_left = []

idx_right = []

while idx:

i = idx.pop()

xi = X[i][nd.split_feature]

if xi < nd.split_point:

idx_left.append(i)

else:

idx_right.append(i)

# Generate left and right child

nd.left = Node(len(idx_left))

nd.right = Node(len(idx_right))

# Put the left and child into the que and depth plus one

que.append([depth+1, nd.left, idx_left])

que.append([depth+1, nd.right, idx_right])

# Update the height of IsolationTree

self.height = depth

def _predict(self, xi):

"""Auxiliary function of predict.Arguments:xi{list}-- 1D list with int or floatReturns:int -- the depth of the node which the xi belongs to"""

# Search xi from the IsolationTree until xi is at an leafnode

nd = self.root

depth = 0

while nd.left and nd.right:

if xi[nd.split_feature] < nd.split_point:

nd = nd.left

else:

nd = nd.right

depth += 1

return depth, nd.size

class IsolationForest(object):

def __init__(self):

"""IsolationForest, randomly build some IsolationTree instance,and the average score of each IsolationTreeAttributes:trees{list}-- 1d list with IsolationTree objectsajustment{float}"""

self.trees = None

self.adjustment = None # TBC

def fit(self, X, n_samples=100, max_depth=10, n_trees=256):

"""Build IsolationForest with dataset XArguments:X{list}-- 2d list with int or floatKeyword Arguments:n_samples{int}-- According to paper, set number of samples to 256 (default:{256})max_depth{int}-- Tree height limit (default:{10})n_trees{int}-- According to paper, set number of trees to 100 (default:{100})"""

self.adjustment = self._get_adjustment(n_samples)

self.trees = [IsolationTree(X, n_samples, max_depth)

for _ in range(n_trees)]

def _get_adjustment(self, node_size):

"""Calculate adjustment according to the formula in the paper.Arguments:node_size{int}-- Number of leaf nodesReturns:float -- ajustment"""

if node_size > 2:

i = node_size - 1

ret = 2 * (log(i) + 0.5772156649) - 2 * i / node_size

elif node_size == 2:

ret = 1

else:

ret = 0

return ret

def _predict(self, xi):

"""Auxiliary function of predict.Arguments:xi{list}-- 1d list object with int or floatReturns:list -- 1d list object with float"""

# Calculate average score of xi at each tree

score = 0

n_trees = len(self.trees)

for tree in self.trees:

depth, node_size = tree._predict(xi)

score += (depth + self._get_adjustment(node_size))

score = score / n_trees

# Scale

return 2 ** -(score / self.adjustment)

def predict(self, X):

"""Get the prediction of y.Arguments:X{list}-- 2d list object with int or floatReturns:list -- 1d list object with float"""

return [self._predict(xi) for xi in X]

@run_time

def main():

print("Comparing average score of X and outlier's score...")

# Generate a dataset randomly

n = 100

X = [[random() for _ in range(5)] for _ in range(n)]

# Add outliers

X.append([10]*5)

# Train model

clf = IsolationForest()

clf.fit(X, n_samples=500)

# Show result

print("Average score is%.2f" % (sum(clf.predict(X)) / len(X)))

print("Outlier's score is%.2f" % clf._predict(X[-1]))

if __name__ == "__main__":

main()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

孤立森林算法 python

孤立森林算法 python_用Python实现孤立森林的相关文章

【2023.07.15】生成模型（三）Score-based Generative Models

1 main contribution 来自Score based Generative Model的原文 1 提供了一个统一SMLD denoising score matching with langevin dynamics 和DDP
MPLS LDP的原理与配置

一 LDP协议的概述 1 LDP会话本地会话 LSR之间是直连的双方使用组播地址224 0 0 2建立会话远程会话 LSR之间可以是非直连的双方建立会话是使用单播建立的缺省是本地会话 2 LDP领接体只要双方建立了会话之后就建立
Flink+Hudi 构架湖仓一体化解决方案

摘要本文详细介绍了 Flink Hudi 湖仓一体化方案的原型构建主要内容为 Hudi 新架构与湖仓一体最佳实践 Flink on Hudi Flink CDC 2 0 on Hudi Tips FFA 2021 重磅开启点击阅读
tcp第三次握手ack均是1？

本人做了tcp连接测试但是结果和网络中其他人的说法有点不一致测试使用了命令 tcpdump s1用网卡ens33抓取端口好为80的网络数据包 tcpdump nn i ens33 port 80 s2访问百度建立3次连接请求数据 cu
P1094 [NOIP2007 普及组] 纪念品分组 Python （贪心算法）

题目地址 P1094 NOIP2007 普及组纪念品分组又是一道水题但CSDN上没有详细Python代码于是我就来水一贴对于想要学算法提升能力的同学来说可以刷这套题单能力全面提升综合题单读完题目后我们可以快速得出既然要求最小
青少年CTFmisc-simpleness

提示弱口令爆破出hint的密码123456 hint zip里面解出两个文件 hint png hint rar 这个hint rar是伪加密随便打开一个十六进制的编辑器这里的24表示已加密改成20表示未加密打开hint txt
8B10B编解码的Verilog实现

此篇是我在学习中做的归纳与总结其中如果存在版权或知识错误或问题请直接联系我欢迎留言 PS 本着知识共享的原则此篇博客可以转载但请标明出处目录 0 8B 10B编码 0 0 8B 10B编码原理 0 1 8B 10B编码的FPGA实
pycharm调整字母长度分割线为80

写过 python 的同学都知道 python 代码默认一行的长度不超过 80 个字符但是 pycharm 默认的分割线在第 120 个字符处需要作如下修改设置 File gt Settings gt Code Style gt Ri
JetBrains全家桶使用说明

一二三友情推荐激活获取地址
泰勒公式和二项式展开定理的共同点

泰勒公式和二项式展开定理的共同点对于f x 1 x n 采用泰勒展开法有 f x fk0 0 x 0 0 fk1 0 x 1 1 fk2 0 x 2 2 其中fk0 0 fk1 0 分别代表fk x 的k阶导数并且传0代替k阶导数中的x
保姆级教程：Linux和Windows下本地化部署Vicuna模型

目录文章摘要一 Vicuna简介 1 Vicuna模型定义 2 Vicuna模型的应用场景 3 Vicuna模型的训练数据 4 Vicuna模型的版本 5 性能评估二 linux 操作系统下部署 1 环境介绍 2 安装Python3
Windows 动态磁盘卷：简单卷、跨区卷、带区卷、镜像卷、RAID5卷相关配置操作

Windows Server 2003 提供了新的磁盘管理方式能够提高磁盘性能和容错能力将基本磁盘升级为动态磁盘能够更灵活分配和管理磁盘空间能够配置各种磁盘阵列提高磁盘能力动态磁盘与基本磁盘对比一块基本磁盘只能包含4个分区它们
C语言——malloc与free

文章目录 1 malloc 1 1 size t 1 2 malloc可申请的字节数 1 2 1 整形常量溢出 1 3 malloc一维数组 1 4 calloc 2 free 1 malloc 在堆区申请一个指定大小连续的空间并返回空间
使用FTP（IOS FTP客户端开发教程）

本文翻译自新近Wrox出版社出版的由Peter van de Put所著的 Professional iOS Programming 该书题材比较新颖结构合理是一本不错的IOS开发书籍本文译自该书第八章 Using FTP 本文开放
C语言中的移位运算

左移运算对于一个位表示为的操作数 x x lt lt k 会生成一个指其位表达式为也就是说将x右边的w k位向左移动k位丢弃最高的k位并在右端补k个0 例如操作数 x 位表达式为 01010101 x lt lt 3 将得到 1
完成人机猜拳（0:石头；1:剪刀；2:布）游戏

完成人机猜拳 0 石头 1 剪刀 2 布游戏详细代码见链接共同学习加油文末有知识点分析文章所使用的知识点if lese语句 if 条件1 print 条件为1 elif 条件2 print 条件为2 elif 条件3 print
014人脸识别打卡签到系统pyqt界面

目标检测一般是yolov3 yolov4 yolov5 yolox PSPnet faster rcnn SDD等教学视频银色子弹zg的个人空间银色子弹zg个人主页哔哩哔哩视频效果图如下完整的代码文件其中dataset文件下是
vue2-slot是什么？

1 slot是什么在html中slot元素作为web Compoents技术套件的一部分是Web组件内的一个占位符该占位符可以在后期使用自己的标记语言填充举例 template不会展示到页面中需要先获取它的引用然后添加到DOM
swagger快速升级方案

背景在使用SpringBoot 2 6以前去创建API文档工具一般会采用SpringFox提供的Swagger库但是由于SpringBoot版本的不断升级和SpringFox摆烂不更新导致了SpringBoot2 6之后的项目无法使用

随机推荐

2016年第七届蓝桥杯JavaB组省赛刷题笔记、思路及答案

前言本人是大二二本计算机系学生已经报名了下一届的蓝桥杯省赛整个寒假在家这次的寒假挺久的哈哈在b站学习了一些算法现在会bfs走迷宫 dfs相关算法递归回溯常见排列算法但是还是有很多算法都还不太熟悉做起题来真是费劲之前
高尔夫常用英语

高尔夫英语 Address 瞄球击球准备动作 Advice 对别人的打法或其他技术上的事项提出建议 Again 重新击球 Play again 的缩写 Against logy 加一杆赛 Against par 标准击杆赛以规定击球次数
Nginx----健康检查----Nginx upstream_check_module模块实现后端节点健康检查功能

实现环境 CentOS7 6 Nginx编译安装带Nginx upstream check module模块 IP 192 168 10 101 CentOS7 6 Nginx网站1 CentOS7 6 Nginx网站2 实验所需软件包 I
时序逻辑电路的设计(二) -- 篮球比赛24秒倒计时电路（附Multisim）

一实验任务及要求 1 设计要求篮球比赛中进攻一方取得球权后双方开始比赛若24秒到该进攻一方仍然没有投球时需要交换发球权本实验要求设计一个24秒违例计时器倒计时方式当计时24秒时间到用一个红色指示灯亮表示指示灯持续点亮5
python glob的安装和使用

基本概念 glob是python自己带的一个文件操作相关模块用它可以查找符合自己目的的文件类似于Windows下的文件搜索支持通配符操作这三个通配符代表0个或多个字符代表一个字符匹配指定范围内的字符如 0 9 匹配数字安装
pandas处理df函数及plt绘图函数（作业总结笔记待补充...）

1 读取csv文件 data pd read csv data csv encoding utf 8 header 0 names range 0 50 index col 0 header 0是默认情况即不标明默认就是header 0
手把手教你如何配置和编译ogre 1.7.0 + cegui 0.7.1

oiramario 博客园首页新随笔联系订阅管理随笔 423 文章 1 评论 838 手把手教你如何配置和编译ogre 1 7 0 cegui 0 7 1 ogre 1 7 0的下载配置和编译指南 1 ogre 1 7 0的下
SAR成像系列：【9】合成孔径雷达（SAR）成像算法-波数域（omega-K）成像算法[也叫距离徙动（RM）算法]（附Matlab代码）

波数域成像算法作为本系列的最后一种成像算法介绍关于SAR成像的其他的各种改进算法就不一一列举了在实际成像中万变不离其踪最主要的是关注成像的几何模型再根据指标选择不同的基础成像算法然后进行改进合成孔径雷达 SAR 波数域成像
MySQL课件

目录数据库概述为什么要使用数据库数据库与数据库管理系统数据库的相关概念数据库与数据库管理系统的关系常见的数据库管理系统排名 DBMS 常见的数据库介绍 MySQL介绍概述 MySQL发展史重大事件关于MySQL 8 0版本
样条线怎么挤出平面_【Revit Vs Blender】新手实战项目两种方法做一个建筑平面三维图【下篇Blender】...

前言本篇还没有做完还剩摆放小物件啥的那都是次要的事情都是体力活随后再添加诸君且先看吧个人觉得UE4世界大纲的选择隐藏模式可以向Blender好好学学参见本文第五节和第十节这样直接在UE4中建模也不是没有可能导图一导出
小程序报错pleaseSetTranspileDependencies is not defined

这是因为你用cli安装的项目需要添加额外的配置在vue config js文件中添加 vue config js 如没有此文件则手动创建 module exports transpileDependencies uview ui 再次重
用爬虫收集网站公开数据丨Python爬虫实战系列(5)

提示最新Python爬虫资料代码练习 gt gt 戳我直达文章目录前言用爬虫收集公开数据编写程序流程分析确定Xpath表达式 1 确定基准表达式 2 确定抓取信息的表达式 3 提高抓取效率编写程序代码小结前言 lxml
一次线上的GC问题排查

6 19号下午线上系统出现了一次实时链路数据不通畅的问题业务方反应更新的增量数据没有流入到HA3搜索集群登录机器后检查日志后发现在周六晚上到周天下午 cr search merge 机器人schema统一表增量数据猛增初步估计
常见的WEB漏洞详解

SQL注入概述 SQL注入是服务器端未严格校验客户端发送的数据而导致服务器端SQL语句被恶意修改并成功执行的行为本质用户的输入被当作做代码进行执行类型按数据类型数字型注入字符型注入按注入方式联合注入报错注入布尔盲注
【华为OD机试真题】垃圾信息拦截（垃圾短信识别）（C++&java&python）100%通过率超详细代码注释代码深度解读

华为OD机试真题 2022 2023 真题目录点这里华为OD机试真题信号发射和接收试读点这里华为OD机试真题租车骑绿道试读点这里垃圾信息拦截知识点图时间限制 1s空间限制 256MB限定语言不限题目描述大众对垃圾
1024 分享｜如何打造围绕开源理念的团队工程师文化

10 月 23 号在 CCF CED 2022 大会上 Jina AI 联合创始人兼 CTO 王楠博士代表 Jina AI 团队分享了从神经搜索到多模态应用和全球团队一起打造优秀的开源工具与全国线上线下的工程师们交流工程师文化随
科技公司都变成了数据公司：但你真的了解什么是“数据工程师”吗？

美国数据工程概况来源 Stitch Data 译者黄谦徐勇王小佛张耕王心田王挺 Raymond Yang 本文来自微信公众号峰瑞资本微信号 freesvc 授权虎嗅发布转载请联系原作者推荐人陈诚 DataPipeli
RabbitMQ快速实战与集群架构详解

RabbitMQ 1 MQ介绍 1 1 什么是MQ 为什么要用MQ 1 2 MQ的优缺点 1 3 几大MQ产品特点比较 2 Rabbitmq安装 2 1 实验环境 2 2 版本选择 2 3 安装Erlang语言包 2 4 安装RabbitM
python es 指定id更新数据_es update 只更新选定字段

es 保存如果用spring data es jpa 的 save 方法很容易实现但是会出现如下问题全部更新开销比较大并发时候容易出现数据覆盖那 es 文档如何只更新需要update的字段呢下面给出了一个demon 实体类
孤立森林算法 python_用Python实现孤立森林

from random import sample random choice randint from math import ceil log from utils import run time class Node object d

孤立森林算法 python_用Python实现孤立森林

孤立森林算法 python_用Python实现孤立森林 的相关文章

随机推荐

热门标签

孤立森林算法 python_用Python实现孤立森林的相关文章