教你免费搭建本地AI知识库(ChatGPT+Quivr)

日期: 栏目:文章分享 浏览:319 评论:0

引言


如果你的工作经常被各种各样的文件塞满,那你一定有过为了找到一个关键信息翻遍电脑心力交瘁的时候。你是否想过需要一个懂你的 ChatGPT,默默记住你慌乱中写下的笔记、背下你领导丢来的文档,在你最无助的时候解答你的困惑呢?如果是的话,这期教程将分享给你一个不是程序员都能轻松搞定的 AI 工具。看完后你将能够拥有一个属于你自己的 ChatGPT 助手


Quivr 简介


今天将为大家介绍如何用免费开源工具 Quivr 搭建一个基于本地知识库的定制化 ChatGPT。Quivr 是一个开源 AI 框架,它能利用 GPT 等生成式 AI 的大语言模型能力处理几乎任何常见的文件类型,帮助你解析并存储文本、图片音视频等非结构化数据,最终让你能够用自然语言检索这些数据中的信息。你可以把它看作 ChatGPT,但在通用知识的基础之上,它还可以学习用户定制上传的知识内容,成为一个比 ChatGPT 更聪明的第二大脑。

教你免费搭建本地AI知识库(ChatGPT+Quivr)-第1张图片-Ceacer网络


安装前准备


Quivr 的 AI 能力使用了 OpenAI 的 GPT 语言模型。因此,在本地部署 Quivr 前,我们首先需要取得一个 OpenAI 的 API Key

教你免费搭建本地AI知识库(ChatGPT+Quivr)-第2张图片-Ceacer网络

这个 Key 需要我们自行购买,具体的购买流程在此就不作赘述了。这样我们就有了 GPT 的连接密钥和一个初始的 Supabase 数据库。接下来我们就开始在本地安装 Quivr。

为了私有化部署 Quivr,我们首先需要从 GitHub 拉取项目源代码。没有接触过 Git 的同学,在这一步前需要先从 Git 官方网站下载安装 Git 工具。安装完成后,从命令行运行命令克隆仓库。Quivr 在当前版本做了容器化,所以我们在正式运行之前还需要在运行环境中安装 Docker。如果你的系统有可视化界面,Docker 官方提供了一个桌面管理工具的安装包,帮助你以可视化的方式完成整个安装过程。

教你免费搭建本地AI知识库(ChatGPT+Quivr)-第3张图片-Ceacer网络


部署教学


现在我们回到刚才拉取下来的 Quivr 源代码。不熟悉编程的同学完全不用担心,Quivr 源码中提供了一个脚本文件,我们不需要打开任何的程序,只需要在命令行中运行这个脚本,跟随提示输入需要的配置项就可以一键运行 Quivr

这里我们只需要输入在之前的步骤中准备好的 OpenAI API Key 和 Supabase 的相关配置。等待脚本运行就完成了整个 Quivr 的启动工作。我们跟随提示注册验证邮箱,并且登录之后,首先能看到的是一个文件上传入口。

教你免费搭建本地AI知识库(ChatGPT+Quivr)-第4张图片-Ceacer网络

在这里我们可以进行第一步:语料的上传。我们在开头提到的各种文件格式都可以在这里被 Quivr 解析成向量数据并保存到数据库,随后提供给语言模型检索。同时我们还可以指定一个可以公开访问的网站地址,让 Quiver 爬取有用的信息。那在这里我选择上传一个示例 PDF,在 Quiver 提示上传成功之后,我们就可以在左上角进入聊天页面与 AI 进行对话。

总体来说,Quivr 遵循这么一个检索逻辑:首先在我们自己的知识库中检索,如果找到匹配的答案,就使用 GPT 模型去生成回答。只有在没有匹配的信息的情况下,Quivr 才会调用 ChatGPT 的通用知识库。这样的设计既保证了我们的定制化 AI 优先为我们上传的语料提供精准回答,又支持在无法找到语料的情况下仍能提供有意义的回应。

通过实际的比较能明显看到,Quivr 在我们提供了语料后,相比起原生的 ChatGPT,生成的回答有了非常好的针对性。


模型微调


如果你只是想用这样一个知识库工具尝尝鲜,那么教程到这里就是 Quivr 的全部功能了。但是如果你有一定的 prompt engineer 功力,你可以在右上角的大脑图标这里对底层的 GPT 模型进行一定程度的微调。

大脑是 Quivr 一个独特的概念,你可以把它想做拥有不同分工的助手。你可以安排他们学习不同的你上传的知识,培养成不同领域的专家。他们可以有不同的模型能力,有不同的生存风格或者不同的前置 prompt,从而来实现更为动态的知识输出能力。

教你免费搭建本地AI知识库(ChatGPT+Quivr)-第5张图片-Ceacer网络

另外值得一提的一点是,如果你觉得上传的文件依然会经过互联网传送到 OpenAI 的公开接口,不符合你所需要的数据安全要求,Quivr 仍然提供了一个选项来让你把大语言模型搬到本地运行。你可以下载 GPT4All 等开源模型,部署到自己的服务器上,并修改对应的配置项来替换对 OpenAI 的依赖。你当然还可以本地部署 Supabase 服务,在本地维护所有持久化的数据。那么在这种情况下,你部署的 Quivr 就成了一个完全私有的内部系统,可以完整的运行在局域网中。

通过这期的讲解,我们从私有部署知识库搭建到有趣的 Quivr 大脑功能,完成了整个定制化专家系统的入门教程。如果有兴趣的网友可以留言和我交流AI方面的问题。

标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。发布前请先查看评论规则:点我查看