怎样用网站做单笔外贸,南通网站开发招聘,wordpress交友插件,phpcms 外贸网站模板首先安装langchain,安装完之后就可以开始我们的步骤了
pip install langchain第一步
我们可以先创建一个Python文件#xff0c;用于将PDF加载到我们本地的向量数据库中 一、读取文档 加载PDFX需要用到文本加载器,导入PyPDFLoader这个函数
#读取文档
from langchain.documen…首先安装langchain,安装完之后就可以开始我们的步骤了
pip install langchain第一步
我们可以先创建一个Python文件用于将PDF加载到我们本地的向量数据库中 一、读取文档 加载PDFX需要用到文本加载器,导入PyPDFLoader这个函数
#读取文档
from langchain.document_loaders import PyPDFLoader
##文档路径
temp_file_path 10.19.pdf
##解析文档
loader PyPDFLoader(temp_file_path)
##转换文档格式
docs loader.load()二、文本分割 因为大语言模型通常都有输入字数限制所以需要对文本就行切割传输这里用到文本切割器,需要用到库中RecursiveCharacterTextSplitter这个函数
#文本切割
from langchain_text_splitters import RecursiveCharacterTextSplitter
##创建一个文本切割器
text_splitter RecursiveCharacterTextSplitter(chunk_size100,##每个文本块的大小chunk_overlap50,##与前面重叠的大小separators[\n, 。, !, ?, ,, 、, ]#分隔符
)
##使用创建的文本分割器对文本进行分割
texts text_splitter.split_documents(docs)三、创建嵌入模型 我这里使用的是百度千帆大模型因为一开始注册会提供20元的卷,这里需要你自己去注册申请AK和SK 至于为什么创建的是嵌入模型嵌入模型的主要任务是将自然语言文本转换为数字向量使得模型能够理解和处理文本数据。 这里需要引入os(设置环境变量)QianfanEmbeddingsEndpoint千帆嵌入模型
#创建嵌入模型
import os
from langchain_community.embeddings import QianfanEmbeddingsEndpoint##设置环境变量
os.environ[QIANFAN_AK] 你自己的AK
os.environ[QIANFAN_SK] 你自己的SK
##创建模型
embeddings_model QianfanEmbeddingsEndpoint()四、创建本地向量数据库并添入向量数据 这里我用的Chroma向量数据库相应的也需要引用这个函数Chroma
#创建本地向量数据库
from langchain.vectorstores import Chroma
##数量数据库保存位置
persist_directory date
##通过嵌入模型创建向量数据库
vectordb Chroma(embedding_functionembeddings_model,##调用刚刚创建的嵌入模型persist_directorypersist_directory##向量数据库保存位置
)#将处理好的pdf数据添加到向量数据库中
vectordb.add_documents(documentstexts
)
# 确保持久化保存更新
vectordb.persist()