乐趣区

关于postgresql:基于-PolarDB-PostgreSQL-版和-LLM-构建企业专属-Chatbot

随着 ChatGPT 的问世,人们开始意识到大语言模型(LLM,Large language model)和生成式人工智能在多个畛域的后劲,如文稿撰写、图像生成、代码优化和信息搜寻等。LLM 已成为集体和企业的得力助手,并朝着超级利用的方向倒退,引领着新的生态系统。本文介绍如何基于 PolarDB PostgreSQL 版向量数据库和 LLM 构建企业专属 Chatbot。

背景信息

越来越多的企业和集体心愿可能利用 LLM 和生成式人工智能来构建专一于其特定畛域的具备 AI 能力的产品。目前,大语言模型在解决通用问题方面体现较好,但因为训练语料和大模型的生成限度,对于垂直业余畛域,则会存在常识深度和时效性有余的问题。在信息时代,因为企业的知识库更新频率越来越高,并且企业所领有的垂直畛域知识库(例如文档、图像、音视频等)往往是未公开或不可公开的。因而,对于企业而言,如果想在大语言模型的根底上构建属于特定垂直畛域的 AI 产品,就须要一直将本身的知识库输出到大语言模型中进行训练。

目前有两种常见的办法实现:

  • 微调(Fine-tuning):通过提供新的数据集对已有模型的权重进行微调,不断更新输出以调整输入,以达到所需的后果。这实用于数据集规模不大或针对特定类型工作或格调进行训练,但训练老本和价格较高。
  • 提醒调整(Prompt-tuning):通过调整输出提醒而非批改模型权重,从而实现调整输入的目标。相较于微调,提醒调整具备较低的计算成本,须要的资源和训练工夫也较少,同时更加灵便。

综上所述,微调的计划投入老本较高,更新频率较低,并不适宜所有企业。提醒调整的计划是在向量库中构建企业的常识资产,通过 LLM+ 向量库构建垂直畛域的深度服务。实质是利用数据库进行提醒工程(Prompt Engineering)将企业知识库文档和实时信息通过向量特征提取而后存储到向量数据库,联合 LLM 能够让 Chatbot 的答复更具专业性和时效性,也更适宜中小型企业构建企业专属 Chatbot。

在机器学习畛域,为了可能解决大量的非结构化的数据,通常会应用人工智能技术提取这些非结构化数据的特色,并将其转化为特征向量,再对这些特征向量进行剖析和检索以实现对非结构化数据的解决。将这种能存储、剖析和检索特征向量的数据库称之为向量数据库。

基于 PolarDB PostgreSQL 版构建的 ChatBot 的劣势如下:

  • 借助 PolarDB PostgreSQL 版的 PGVector 插件,能够将实时内容或垂直畛域的专业知识和内容转化为向量化的 embedding 示意,并存储在 PolarDB PostgreSQL 版中,以实现高效的向量化检索,从而进步私域内容的问答准确性。
  • 作为新一代关系型云原生数据库,PolarDB PostgreSQL 版既领有分布式设计的低成本劣势,又具备集中式的易用性。实现了计算节点及存· 储节点的拆散,提供即时失效的可扩大能力和运维能力。在云原生分布式数据库畛域整体处于国内领先水平。
  • PGVector 插件目前曾经在开发者社区以及基于 PostgreSQL 的开源数据库中失去广泛应用,同时 ChatGPT Retrieval Plugin 等工具也及时适配了 PostgreSQL。这表明 PolarDB PostgreSQL 版在向量化检索畛域具备良好的生态反对和宽泛的利用根底,为用户提供了丰盛的工具和资源。

重要
本文提到的“大型语言模型(LLM)”来自第三方(统称为“第三方模型”)。阿里云无奈保障第三方模型的合规性和准确性,也不对第三方模型以及您应用第三方模型的行为和后果承当任何责任。因而,在拜访或应用第三方模型之前请进行评估。另外,咱们提醒您,第三方模型附带有“开源许可”、“许可证”等协定,您应仔细阅读并严格遵守这些协定的规定。

疾速体验

阿里云提供云速搭 CADT 平台模板,该计划模板已预部署了 ECS 以及 PolarDB PostgreSQL 版数据库,并且预装置了前置安装包,可能帮忙您疾速体验专属 ChatBot,您能够返回云速搭 CADT 控制台,参考大模型联合 POLARDB PG 数据库构建企业级专属 Chatbot 进行体验。

前提条件

  • 已创立 PolarDB PostgreSQL 版集群且满足以下条件:
  • PostgreSQL 14(内核小版本 14.7.9.0 及以上)

阐明
如需降级内核小版本,请参见版本治理。

  • 本文展现的专属的 ChatBot 基于 PolarDB PostgreSQL 版提供的开源插件 PGVector,请确保已齐全理解其相干用法及基本概念,更多信息,请参见 PGVector。
  • 本文展现的专属的 ChatBot 应用了 OpenAI 的相干能力,请确保您具备 Secret API Key,并且您的网络环境能够应用 OpenAI,本文展现的代码示例均部署在新加坡地区的 ECS 中。
  • 本文示例代码应用了 Python 语言,请确保已具备 Python 开发环境,本示例应用的 Python 版本为 3.11.4,应用的开发工具为 PyCharm 2023.1.2。

相干概念

嵌入

嵌入(embedding)是指将高维数据映射为低维示意的过程。在机器学习和自然语言解决中,嵌入通常用于将离散的符号或对象示意为间断的向量空间中的点。

在自然语言解决中,词嵌入(word embedding)是一种常见的技术,它将单词映射到实数向量,以便计算机能够更好地了解和解决文本。通过词嵌入,单词之间的语义和语法关系能够在向量空间中失去反映。

OpenAI 提供 Embeddings 能力。

实现原理

本文展现的专属 ChatBot 的实现流程分为两个阶段:

第一阶段:数据筹备

  1. 知识库信息提取和分块:从畛域知识库中提取相干的文本信息,并将其分块解决。这能够包含将长文本拆分为段落或句子,提取关键词或实体等。这样能够将知识库的内容更好地组织和治理。
  2. 调用 LLM 接口生成 embedding:利用 LLM(如 OpenAI)提供的接口,将分块的文本信息输出到模型中,并生成相应的文本 embedding。这些 embedding 将捕获文本的语义和语境信息,为后续的搜寻和匹配提供根底。
  3. 存储 embedding 信息:将生成的文本 embedding 信息、文本分块以及文本关联的 metadata 信息存入 PolarDB PostgreSQL 版数据库中。

第二阶段:问答

  1. 用户发问。
  2. 通过 OpenAI 提供的 embedding 接口创立该问题的 embedding。
  3. 通过 PGVector 过滤出 PolarDB PostgreSQL 版数据库中类似度大于肯定阈值的文档块,将后果返回。

流程图如下:

操作步骤

第一阶段:数据筹备

本文以 2023 年 PolarDB PostgreSQL 版的产品性能动静文档的文本内容为例,将其拆分并存储到 PolarDB PostgreSQL 版数据库中,您须要筹备本人的专属畛域知识库。

数据筹备阶段的关键在于将专属畛域常识转化为文本 embedding,并无效地存储和匹配这些信息。通过利用 LLM 的弱小语义理解能力,您能够取得与特定畛域相干的高质量答复和倡议。以后的一些开源框架,能够不便您上传和解析知识库文件,包含 URL、Markdown、PDF、Word 等格局。例如 LangChain 和 OpenAI 开源的 ChatGPT Retrieval Plugin。LangChain 和 ChatGPT Retrieval Plugin 均曾经反对了基于 PGVector 扩大的 PostgreSQL 作为其后端向量数据库,这使得与 PolarDB PostgreSQL 版集群的集成变得更加便捷。通过这样的集成,您能够不便地实现第一阶段畛域知识库的数据筹备,并充分利用 PGVector 提供的向量索引和类似度搜寻性能,实现高效的文本匹配和查问操作。

  1. 连贯 PolarDB PostgreSQL 版集群。
  2. 创立测试数据库,以 testdb 为例。
CREATE DATABASE testdb;
  1. 进入测试数据库,并创立 PGvector 插件。
CREATE EXTENSION IF NOT EXISTS vector;
  1. 创立测试表(本文以 polardb_pg_help_docs 为例),用于存储知识库内容。
CREATE TABLE polardb_pg_help_docs (
  id bigserial PRIMARY KEY, 
  title text,     -- 文档题目
  description text,     -- 形容
  doc_chunk text,     -- 文档分块
  token_size int,     -- 文档分块字数
  embedding vector(1536));  -- 文本嵌入信息
  1. 为 embedding 列创立索引,用于查问优化和减速。
CREATE INDEX ON polardb_pg_help_docs USING ivfflat (embedding vector_cosine_ops) WITH (lists = 100);

阐明
向量列创立索引的更多阐明,请参见 PGVector。

  1. 在 PyCharm 中,创立我的项目,而后关上 Terminal,输出如下语句,装置如下依赖库。
pip install openai psycopg2 tiktoken requests beautifulsoup4 numpy

阐明
如果 psycopg2 有装置问题,请思考采纳源码编译形式。

  1. 创立.py 文件(本文以 knowledge_chunk_storage.py 为例),拆分知识库文档内容并存储到数据库中,示例代码如下:

阐明
如下示例代码中,自定义的拆分办法仅仅是将知识库文档内容按固定字数进行了拆分,您能够应用 LangChain 和 OpenAI 开源的 ChatGPT Retrieval Plugin 等开源框架中提供的办法进行拆分。知识库中的文档品质和分块后果对最终的输入的后果有较大的影响。

import openai
import psycopg2
import tiktoken
import requests
from bs4 import BeautifulSoup
EMBEDDING_MODEL = "text-embedding-ada-002"
tokenizer = tiktoken.get_encoding("cl100k_base")
# 连贯 PolarDB-PG 数据库
conn = psycopg2.connect(database="< 数据库名 >",
                        host="<PolarDB PostgreSQL 版集群连贯地址 >",
                        user="< 用户名 >",
                        password="< 明码 >",
                        port="< 数据库端口 >")
conn.autocommit = True
# OpenAI 的 API Key
openai.api_key = '<Secret API Key>'
# 自定义拆分办法(仅为示例)def get_text_chunks(text, max_chunk_size):
    chunks_ = []
    soup_ = BeautifulSoup(text, 'html.parser')
    content = ''.join(soup_.strings).strip()
    length = len(content)
    start = 0
    while start < length:
        end = start + max_chunk_size
        if end >= length:
            end = length
        chunk_ = content[start:end]
        chunks_.append(chunk_)
        start = end
    return chunks_
# 指定须要拆分的网页
url = 'https://help.aliyun.com/document_detail/602217.html?spm=a2c4g.468881.0.0.5a2c72c2cnmjaL'
response = requests.get(url)
if response.status_code == 200:
    # 获取网页内容
    web_html_data = response.text
    soup = BeautifulSoup(web_html_data, 'html.parser')
    # 获取题目(H1 标签)title = soup.find('h1').text.strip()
    # 获取形容(class 为 shortdesc 的 p 标签内容)description = soup.find('p', class_='shortdesc').text.strip()
    # 拆分并存储
    chunks = get_text_chunks(web_html_data, 500)
    for chunk in chunks:
        doc_item = {
            'title': title,
            'description': description,
            'doc_chunk': chunk,
            'token_size': len(tokenizer.encode(chunk))
        }
        query_embedding_response = openai.Embedding.create(
            model=EMBEDDING_MODEL,
            input=chunk,
        )
        doc_item['embedding'] = query_embedding_response['data'][0]['embedding']
        cur = conn.cursor()
        insert_query = '''
        INSERT INTO polardb_pg_help_docs 
            (title, description, doc_chunk, token_size, embedding) VALUES (%s, %s, %s, %s, %s);
        '''
        cur.execute(insert_query, (doc_item['title'], doc_item['description'], doc_item['doc_chunk'], doc_item['token_size'],
            doc_item['embedding']))
        conn.commit()
else:
    print('Failed to fetch web page')
  1. 运行 python 程序。
  2. 登录数据库应用如下命令查看是否已将知识库文档内容拆分并存储为向量数据。
SELECT * FROM polardb_pg_help_docs;

第二阶段:问答

  1. 在 python 我的项目中,创立.py 文件(本文以 chatbot.py 为例),创立问题并与数据库中的知识库内容比拟类似度,返回后果。
# 连贯 PolarDB PostgreSQL 版集群数据库
conn = psycopg2.connect(database="< 数据库名 >",
                        host="<PolarDB PostgreSQL 版集群连贯地址 >",
                        user="< 用户名 >",
                        password="< 明码 >",
                        port="< 数据库端口 >")
conn.autocommit = True
def answer(prompt_doc, prompt):
    improved_prompt = f"""
    按上面提供的文档和步骤来答复接下来的问题:(1) 首先,剖析文档中的内容,看是否与问题相干
    (2) 其次,只能用文档中的内容进行回复, 越具体越好,并且以 markdown 格局输入
    (3) 最初,如果问题与 PolarDB PostgreSQL 版不相干,请回复 "我对 PolarDB PostgreSQL 版以外的常识不是很理解"
    文档:
    \"\"\"
    {prompt_doc}
    \"\"\"问题: {prompt}"""
    response = openai.Completion.create(
        model=GPT_COMPLETIONS_MODEL,
        prompt=improved_prompt,
        temperature=0.2,
        max_tokens=MAX_TOKENS
    )
    print(f"{response['choices'][0]['text']}\n")
similarity_threshold = 0.78
max_matched_doc_counts = 8
# 通过 pgvector 过滤出类似度大于肯定阈值的文档块
similarity_search_sql = f'''SELECT doc_chunk, token_size, 1 - (embedding <=>'{prompt_embedding}') AS similarity 
FROM polardb_pg_help_docs WHERE 1 - (embedding <=> '{prompt_embedding}') > {similarity_threshold} ORDER BY id LIMIT {max_matched_doc_counts};
'''
cur = conn.cursor(cursor_factory=DictCursor)
cur.execute(similarity_search_sql)
matched_docs = cur.fetchall()
total_tokens = 0
prompt_doc = ''print('Answer: \n')
for matched_doc in matched_docs:
    if total_tokens + matched_doc['token_size'] <= 1000:
        prompt_doc += f"\n---\n{matched_doc['doc_chunk']}"
        total_tokens += matched_doc['token_size']
        continue
    answer(prompt_doc,prompt)
    total_tokens = 0
    prompt_doc = ''
answer(prompt_doc,prompt)
  1. 运行 Python 程序后,您能够在运行窗口看到相似如下的对应答案:

阐明
您能够对拆分办法以及问题 prompt 进行优化,以取得更加精确、欠缺的答复,本文仅为示例。

总结

如果未接入向量数据库,OpenAI 对于问题“列举 2023 年 PolarDB PostgreSQL 14 版本新增性能点”的答复往往与阿里云不相干,例如:

在接入存储在 PolarDB PostgreSQL 版数据库中的专属知识库后,对于问题“列举 2023 年 PolarDB PostgreSQL 14 版本新增性能点”,咱们将会失去只属于阿里云 PolarDB PostgreSQL 版数据库的相干答复。

根据上述实际内容,能够看出 PolarDB PostgreSQL 版齐全具备构建基于 LLM 的垂直畛域知识库的能力。

相干参考

通过查看 GitHub 页面能够理解更多信息:https://github.com/openai/openai-cookbook/tree/main/examples/vector_databases/PolarDB

点击立刻收费试用云产品 开启云上实际之旅!

原文链接

本文为阿里云原创内容,未经容许不得转载

退出移动版