LangChain 中的嵌入

2023-11-10

在自然语言处理（NLP）领域，嵌入已经成为游戏规则的改变者。它们使我们能够将单词和文档转换为计算机可以理解的数字。这些数字表示（称为嵌入）对于理解文本、分析情感和翻译语言等任务至关重要。

本文探讨了LangChain中的嵌入，这是一个用于创建嵌入的用户友好平台。我们将解释什么是嵌入以及它们在人工智能中的工作原理。我们还将深入探讨 LangChain 的嵌入功能以及它如何轻松生成查询和文档的嵌入。

LangChain 不仅仅提供嵌入功能。它与不同的模型集成以提供各种嵌入选项。我们将探讨其中一些集成，例如 GloVeEmbeddings、BERTEmbeddings、Word2VecEmbeddings 和 FastTextEmbeddings 及其优势。

读完本文，您将清楚地了解嵌入、嵌入在 NLP 中的重要性，以及 LangChain 如何简化使用嵌入的过程。让我们深入嵌入的世界，通过 LangChain 释放语言理解的力量。

什么是嵌入？

在自然语言处理 (NLP) 领域，嵌入是一种将文本数据转换为机器学习算法可以理解和处理的数字格式的方法。每个单词（或文档）都会转换为一个高维向量，表示其在数据集中的上下文。这些向量的优点在于它们可以捕获单词之间的语义关系——使用相似的单词将具有相似的向量。

嵌入是许多 NLP 任务的重要方面，包括文本分类、情感分析和语言翻译等。它们帮助我们以类似于人类理解语言的方式对语言数据进行量化和分类。

LangChain 中的嵌入：仔细观察

LangChain 提供了一个强大且易于使用的界面来生成嵌入。但是当我们调用这些函数时，幕后发生了什么？让我们来分解一下。

嵌入查询

当我们调用 embedQuery("Hello langchain") 时，LangChain 会获取文本字符串“Hello langchain”，并将其转换为数字表示形式 - 嵌入。该函数返回一个数字数组，每个数字代表嵌入空间中的一个维度。

/* Embed queries */
const res = await embeddings.embedQuery("Hello langchain");

您在数组中看到的res是“Hello langchain”的数字表示。它可能看起来像一个随机的数字数组，但这些数字以机器学习模型可以理解的方式编码“Hello langchain”的含义。

嵌入文档

正如我们可以为查询创建嵌入一样，我们也可以为文档创建嵌入。该embedDocuments函数接受一个文本字符串数组并返回其各自嵌入的数组。

/* Embed documents */
const documentRes = await embeddings.embedDocuments(["Hello langchain", "Bye bye"]);

在本例中，documentRes是一个二维数组，每个子数组都是相应文档的嵌入。

在 LangChain 中嵌入集成

LangChain 提供了多个用于生成嵌入的类，每个类都与不同的模型提供程序集成。

OpenAI 嵌入

该类OpenAIEmbeddings使用 OpenAI API 创建嵌入。您可以使用 OpenAI 的 API 密钥或 Azure 的 OpenAI API 密钥。以下是如何使用 Azure 的 OpenAI API 密钥的示例：

import { OpenAIEmbeddings } from "langchain/embeddings/openai";

const embeddings = new OpenAIEmbeddings({
  azureOpenAIApiKey: "YOUR-API-KEY",
  azureOpenAIApiInstanceName: "YOUR-INSTANCE-NAME",
  azureOpenAIApiDeploymentName: "YOUR-DEPLOYMENT-NAME",
  azureOpenAIApiVersion: "YOUR-API-VERSION",
});

其他集成

其他集成包括CohereEmbeddings、TensorFlowEmbeddings和HuggingFaceInferenceEmbeddings。例如，要使用CohereEmbeddings，您可以执行以下操作：

import { CohereEmbeddings } from "langchain/embeddings/cohere";

const embeddings = new CohereEmbeddings({
  apiKey: "YOUR-API-KEY",
});

附加功能和处理错误

LangChain还提供各种附加功能，例如设置超时、处理速率限制以及处理API错误。

例如，如果您希望LangChain在一定时间后停止等待响应，您可以设置一个超时时间：

import { OpenAIEmbeddings } from "langchain/embeddings/openai";

const embeddings = new OpenAIEmbeddings({
  timeout: 1000, // 1s timeout
});

在本例中，如果嵌入过程超过 1 秒，LangChain 将停止等待并继续。当处理可能需要一段时间才能处理的大型文档时，或者当您使用缓慢或不可靠的互联网连接时，这尤其有用。

处理速率限制

速率限制是许多 API 提供商实施的一种策略，旨在防止用户在短时间内因过多请求而导致服务器过载。如果超出速率限制，您将收到一条错误消息。

LangChain 提供了一个方便的功能来管理速率限制。maxConcurrency您可以在实例化嵌入模型时设置一个选项。此选项允许您指定要向提供程序发出的最大并发请求数。如果超过这个数量，LangChain会自动将您的请求排队，并在之前的请求完成后发送。

以下是如何设置最大并发数为 5 个请求的示例：

import { OpenAIEmbeddings } from "langchain/embeddings/openai";

const model = new OpenAIEmbeddings({ maxConcurrency: 5 });

处理 API 错误

如果模型提供者返回错误，LangChain 有一个内置机制，可以重试请求最多 6 次，并采用指数退避。这意味着每次重试在再次尝试请求之前等待的时间都是前一次重试的两倍。此策略通常可以帮助成功完成请求，特别是在出现临时网络问题或服务器过载的情况下。

如果要更改最大重试次数，可以maxRetries在实例化模型时传递一个选项：

import { OpenAIEmbeddings } from "langchain/embeddings/openai";

const model = new OpenAIEmbeddings({ maxRetries: 10 });

在这个例子中，LangChain将重试失败的请求最多10次，然后最终放弃。

结论

总而言之，嵌入是 NLP 任务中的强大工具，LangChain 提供了一个强大、灵活且用户友好的界面来生成和使用嵌入。LangChain 能够与多个提供商集成、处理速率限制和管理 API 错误，是任何人工智能项目的绝佳选择。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

langchain

LangChain 中的嵌入的相关文章

部署langchain+chatglm

先参考 window零基础部署langchain ChatGLM 飞奔的屎壳郎的博客 CSDN博客安装一部分 1 GCC安装 gcc64位下载一定要装64位的gcc 因为我的电脑是w10 64位的装32位运行langchain报错并配
LangChain（6）构建用户自己的Agent

构建用户自己的Agent 编写简单的计算工具编写有多个参数的工具其它更高级的工具 LangChain 中有一些可用的Agent内置工具但在实际应用中我们可能需要编写自己的Agent 编写简单的计算工具 pip install qU l
用 LangChain 构建基于资料库的问答机器人（三）：ReAct

大家好我是 Jambo 我们已经学习了如何使用 LangChain 的一些基本功能解下我们就应该要结合这些功能来做一些复杂的东西了但在这之前为了让同学们更好的理解 LangChain 在这其中做了什么我想先介绍一下关于 GPT 使
使用langchain+chatGPT搭建自有知识库问答机器人

前言自去年年底OpenAI发布ChatGPT以来大型语言模型在人工智能领域掀起了一股热潮随后各家公司纷纷推出自己的大型语言模型如百度的文心一言讯飞的星火大模型等在这个过程中文本转图片和文本转视频等相关领域也备受关注然而很
LangChain 中文入门教程

文章目录 LangChain 中文入门教程一介绍 1 1 背景 1 2 基础功能二必知概念 2 1 Loader 加载器 2 2 Document 文档 2 3 Text Spltters 文本分割 2 4 Vectorstores
吴恩达ChatGPT《LangChain Chat with Your Data》笔记

文章目录 1 Introduction 2 Document Loading 2 1 Retrieval Augmented Generation RAG 2 2 Load PDFs 2 3 Load YouTube 2 4 Load UR
langchain包下载安装以及基本使用的注意事项

当我们使用import langchain导入包是需要先下载langchain这个包注意事项我们的python版本必须大于等于3 8 1 否者将会导致 cannot import name RecursiveCharacterTextS
企业通用人工智能时代已经开启,使用 GPT-4、llama2 和 LangChain 构建的应用程序将如何改变一切

内容简介摘要第一部分企业 IT 50 年历史第二部分企业 AGI 黎明之前第三部分 2023 年及以后的企业 AGI 之路第四部分我可能错的地方以及为什么它不重要第五部分你可以做些什么来准备每个工作职能都会演变或消失
window零基础部署langchain-ChatGLM

一介绍从0开始安装运行langchain ChatGLM 6b int4模型主要是版本要配套不然特别容易报错我的机器配置CPU是Intel Core i7 7700HQ CPU 2 80GHz 2 80 GHz GPU8G 二相关
chatglm微调

chatGML 看到官方教程 ChatGLM 6B 微调 P Tuning LoRA Full parameter 精准空降到 15 27 https www bilibili com video BV1fd4y1Z7Y5 share s
LangChain 手记 Conclusion结语

整理并翻译自DeepLearning AI LangChain的官方课程 Conclusion Conclusion 结语本系列短课展示了大量使用LangChain构建的大语言模型应用包括处理用户反馈文档上的问答系统甚至使用LLM来决
LangChain 中的嵌入

在自然语言处理 NLP 领域嵌入已经成为游戏规则的改变者它们使我们能够将单词和文档转换为计算机可以理解的数字这些数字表示称为嵌入对于理解文本分析情感和翻译语言等任务至关重要本文探讨了LangChain中的嵌入这是一个用于创建
用 LangChain 构建基于资料库的问答机器人（二）：从资料源中提取文本信息

大家好我是学生大使 Jambo 这个系列的目标是做出一个根据资料回答问题的机器人那么从资料源中提取文本信息就是一件必要的事但我们的资料源格式是多样的比如 PDF Word HTML PPT 等等甚至有的资料源来自于网络这些格式都
不读取模型[关闭]

Closed 这个问题需要调试细节目前不接受答案我正在用Python编写一个程序我想连接GPT4ALL 以便该程序像GPT聊天一样工作仅在我的编程环境中本地运行为此我已经安装了 GPT4All 13B snoozy ggmlv3
这应该是最全的大模型训练与微调关键技术梳理

作为算法工程师的你是否对如何应用大型语言模型构建医学问答系统充满好奇是否希望深入探索LLaMA ChatGLM等模型的微调技术进一步优化参数和使用不同微调方式现在我带大家领略大模型训练与微调进阶之路拓展您的技术边界通过阅读文章你
ValueError: 当不存在一个输入键时不支持 `run`，得到 ['question', 'documents']

尝试运行 langchain 代码时出现错误 ValueError run not supported when there is not exactly one input key got question documents Trace
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
使用 Flask 和 LangChain 流式传输 ChatGPT 的结果

基本上我想用 Flask 和 LangChain 来实现这一点 https www youtube com watch v x8uwwLNxqis https www youtube com watch v x8uwwLNxqis 我正在构
使用 FastAPI 传输 LangChain OpenAI 响应 [重复]

这个问题在这里已经有答案了我想将 OpenAI 的响应直接传输到 FastAPI 的端点 Code 在我的threads handler py 位于单独的文件夹中中我有以下函数askQuestion def askQuestion s

随机推荐

Android Studio 2.4 Preview（译文）

原文地址 http tools android com tech docs android profiler Android的探查Android Studio中预览2 4 新的Android探查器在Android 2 4工作室预览窗口代替了
Palindrome Partitioning

Given a string s partition s such that every substring of the partition is a palindrome Return all possible palindrome p
pip 和conda

区别 pip是Python包的通用管理器 conda是一个与语言无关的跨平台环境管理器 pip在任何环境中安装python包 conda需要安装在conda环境中装任何包 Pip代表Pip Installs Packages 是Python
seaborn palette参数各配色方案及显示效果

使用方法以采用Paired r配色方法为例通过调用barplot palette Spectral r 来使用配色 Paired r Accent Accent r Blues Blues r BrBG BrBG r BuGn BuGn
STM32 基础系列教程 5 – 系统定时器

前言学习stm32 systime的使用用基本定时器产生定时1ms定时中断用于参生1ms系统时钟节拍并实现将1ms 节拍改成500us 或其它时间功能并实产生的时间节拍为机基准实现控制LED闪烁示例详解基于硬件平台 STM32
Centos7.5 防火墙关闭但是除22端口其他端口无法访问问题

centos7系统关闭 firewalld防火墙但是除了22端口其余端口无法被外界访问本地访问正常我这里是服务器缓存问题将服务器防火墙重启刷新一下就可以正常使用了根据下面命令操作 firewalld 防火墙启动 syste
关于前后台日期格式化问题，@JsonFormat、@JSONField、@DateTimeFormat

大家都知道可能前台表单提交后台或者后台实体类json 序列化到前台可能格式不是我们想要的情况这时候可能就需要上面三个注解来帮忙但是本人在项目使用过程中使用 JsonField 一直失效百思不得其解难道是在springboo
爬虫之添加代理（五）

验证代理是否可用 try telnetlib Telnet 221 15 192 96 port 1080 timeout 3 except print ip无效 else print ip有效添加代理添加proxy属性 import
【机器学习】GRU 讲解

有任何的书写错误排版错误概念错误等希望大家包含指正在阅读本篇之前建议先学习 RNN 讲解 LSTM 讲解 3 GRU 3 1 网络结构 GRU 是循环神经网络的一种和 LSTM 一样是为了解决长期依赖问题 GRU 单元结构如下
Overleaf使用tips(自己随手记）

使用中文输入导入包 usepackage UTF8 ctex 切换编译器为XeLatex 另起一段直接空几个行就行比如注释选中后ctrl 标题的使用 section 这是一级标题 subsection 这是二级标题 subsubs
TVM编译安装

本文是在已大致了解tvm功能和架构的基础上根据官方文档在x86 64 Ubuntu 18 04 GPU Pytorch1 8 0上安装TVM的流程参考文档 TVM安装官方文档 llvm下载链接 1 下载源代码从tvm官网下载源代码
基于粒子群算法优化支持向量机(PSO-SVM)的时间序列预测。模型评价指标包括:R2、MAE、MSE、RMSE和MAPE等，代码质量极高，方便学习和替换数据。

清空环境变量 warning off 关闭报警信息 close all 关闭开启的图窗 clear 清空变量 clc 清空命令行 tic 导入数据 f xlsread windspeed xls Sheet1 B2 B1001 x y da
Jina AI x 矩池云

近 5 年以来图片视频语音等非结构化数据的数量出现了爆发式增长随着深度学习技术的不断升级深度表征学习迁移学习对比学习等技术日益成熟非结构化数据的搜索也逐渐形成可能在此背景下专注于神经搜索技术的商业开源软件公司 Jina
DRM框架（vkms）分析（3）----connector-＞func && connector-＞helper_private的使用

一 connector gt func drm connector funcs类型的对象实例其中有些对象实例可直接使用helper函数有些可以自定义还有一些可以忽略掉不赋值的 struct drm connector funcs co
ubuntu12.04搭建android开发环境

一直准备学一点Linux的东西一直没有付诸行动这个周末准备安装一下做了将近半年的android开发准备学一点关于框架和源码的东西安装之前也百度谷歌了很多次也看了网上不少的资料总结一点就是对于像我这种入门级的人来说还是不够明
5种创建Dataframe方法

下面将简要介绍Dataframe的5种创建方法由于输出结果比较冗余这里将不会展示输出结果读者可以自行赋值粘贴最好使用jupyter运行并查看结果另外的代码中有非常详细的注释 Dataframe创建方法一 import nump
【网络】UDP协议详解

目录 UDP的感性理解 UDP协议格式 UDP协议格式感性理解 UDP特点 UDP的缓冲区 UDP的感性理解 UDP的传输过程类似于寄信假设你要写一封家书寄回家里首先你要在信封上填写好寄件人和收件人的地址其次在贴好邮票最后将信件投放
java深拷贝循环单链表,JZ25-复杂链表的复制

题目描述输入一个复杂链表每个节点中有节点值以及两个指针一个指向下一个节点另一个特殊指针random指向一个随机节点请对此链表进行深拷贝并返回拷贝后的头结点注意输出结果中请不要返回参数中的节点引用否则判题程序会直接返回空
由栈和队列完成数组的逆置操作（C语言）

将数组a 11 1 3 6 10 15 16 17 18 19 20 通过栈和队列实现元素逆置的算法入栈 gt 出栈 gt 入队 gt 出队 include stdio h include stdlib h typedef int dat
LangChain 中的嵌入

在自然语言处理 NLP 领域嵌入已经成为游戏规则的改变者它们使我们能够将单词和文档转换为计算机可以理解的数字这些数字表示称为嵌入对于理解文本分析情感和翻译语言等任务至关重要本文探讨了LangChain中的嵌入这是一个用于创建