ChatGPT 開源了第一款插件，都來學習一下源碼吧！

-Advertisement-

QAbstractBUtton：所有按鈕控制項的基類提供按鈕的通用功能繼承自QWidget 屬於抽象類別，不能直接去使用，必須藉助於子類（除非你覺得子類不夠用，想自定義一個按鈕）大部分功能之前已經使用過，在這裡只作簡單介紹文本設置： setText(str) :設置按鈕提示文本 text() ...

3 月 23 日，OpenAI 又投出了一枚重磅炸彈：為 ChatGPT 推出插件系統！

此舉意味著 ChatGPT 將迎來“APP Store”時刻，也就是圍繞它的能力，形成一個開發者生態，打造出基於 AI 的“操作系統”！

插件系統將為 ChatGPT 帶來質的飛躍，因為藉助於插件服務，它可以獲取實時的互聯網信息、調用第三方應用（預定酒店航班、點外賣、購物、查詢股票價格等等）。

ChatGPT 是一個無比聰明的大腦，而插件會成為它的眼睛、耳朵、手腳、甚至於翅膀，能力驚人，未來不敢想象！

官方目前提供了兩個插件：

一個網頁瀏覽器。利用新必應瀏覽器的 API，實時搜索互聯網內容，並給出答案和鏈接
一個代碼解釋器。利用 Python 解釋器，可以解決數學問題、做數據分析與可視化、編輯圖片、剪輯視頻等等，還支持下載處理後的文件

另外，OpenAI 還開源了一個知識庫檢索插件 chatgpt-retrieval-plugin ，這個插件通過自然語言從各種數據源（如文件、筆記、郵件和公共文檔）檢索信息。有了開源代碼後，開發者可以部署自己的插件版本。

想象一下，假如我提供了一個“Python 知識庫插件”，以所有官方文檔作為數據源，那以後有任何 Python 使用上的問題，我就只需詢問 ChatGPT，然後它調用插件並解析數據，最後返回給我準確的答案。這將節省大量的時間！

不僅如此，你還可以用書籍作為數據源，打造出“西游記知識庫”、“紅樓夢知識庫”、“百科全書知識庫”、“個人圖書館知識庫”，等等；以專業領域的論文與學術期刊為數據源，創造出一個專家助手，從此寫論文查資料將無比輕鬆；以蘇格拉底、喬布斯、馬斯克等名人的資料為數據源，創造出人格化的個人顧問……

作為第一個開源的 ChatGPT 插件，chatgpt-retrieval-plugin 項目一經發佈，就登上 Github 趨勢榜第一，發佈僅一周就獲得 11K stars。

這個項目完全是用 Python 寫的，不管是出於學習編程的目的，還是為了將來開發別的插件作借鑒，這都值得我們花時間好好研究一下。

接下來，我將分享自己在閱讀項目文檔和源碼時，收穫到的一些信息。

首先，該項目含 Python 代碼約 3 K，規模不算大。項目結構也很清晰，目錄如下：

目錄	描述
`datastore`	包含使用各種向量資料庫提供程式存儲和查詢文檔嵌入的核心邏輯
`examples`	包括配置示例、身份驗證方法和麵向程式提供方的示例
`models`	包含插件使用的數據模型，例如文檔和元數據模型
`scripts`	存放實用的腳本，用於處理和上傳來自不同數據源的文件
`server`	存放主要的 FastAPI 服務端實現
`services`	包含用於任務（如分塊、元數據提取和 PII 檢測）的實用服務
`tests`	包括各種向量資料庫提供程式的集成測試
`.well-known`	存儲插件清單文件和 OpenAPI 格式，定義插件配置和 API 規範等信息

除去示例、測試、配置文件等內容外，最主要的三個目錄如下：

datastore 數據存儲

數據源的文本數據會被映射到低維度向量空間，然後存儲到向量資料庫中。官方已提供 Pinecone、Weaviate、Zilliz、Milvus、Qdrant、Redis 這幾種數據存儲方案的示例。另外，有幾個 pull requests 想要加入 PostgreSQL 的支持，大概率將來會合入。

這裡使用了抽象工廠設計模式 ，DataStore 是一個抽象類，每種數據存儲庫是具體的實現類，需要實現三個抽象方法：

（1）_upsert(chunks: Dict[str, List[DocumentChunk]]) -> List[str] 方法，接收一個字典參數，包含有 DocumentChunk 對象列表，將它們插入到資料庫中。返回值為文檔 ID 的列表。

（2）_query(queries: List[QueryWithEmbedding]) -> List[QueryResult] 方法，接收一個列表參數，包含被 embedding 的查詢文本。返回一個包含匹配文檔塊和分數的查詢結果列表。

（3）delete(ids: Optional[List[str]] = None, filter: Optional[DocumentMetadataFilter] = None, delete_all: Optional[bool] = None, ) -> bool 方法，根據 id 和其它過濾條件刪除，或者全部刪除。返回操作是否成功。

值得註意的是，該目錄下的factory.py 模塊使用了 Python 3.10 新引入的 match-case 語法，緊跟著 Python 社區的新潮流呢~

server 服務端介面

這個目錄只有一個main.py 文件，是整個項目的啟動入口。它使用了目前主流的 FastAPI 框架，提供了增刪改查的幾個 API，另外使用 uvicorn 模塊來啟動服務。

/upsert-file 介面，用於上傳單個文件，將其轉換為 Document 對象，再進行新增或更新
/upsert 介面，上傳一系列的文檔對象，用於新增或更新
/query 介面，傳入一系列的文本條件，轉成 QueryWithEmbedding 對象後，再從向量資料庫查詢
/delete 介面，根據條件刪除或者全部刪除資料庫中的數據

在這幾個介面中，增改刪功能主要是給開發者/維護者使用的，ChatGPT 只需調用插件的查詢介面。因此，代碼中還創建了一個“/sub”子應用，只包含/query 介面，提供給 ChatGPT 調用。

另外，它使用 FastAPI 的 mount 方法掛載了一個“/.well-known”靜態文件目錄，暴露了關於本插件的基本信息，例如名稱、描述、作者、logo、郵箱、提供給 OpenAPI 的介面文檔等等。

services 任務處理方法

這個目錄下是一些通用的函數，比如下麵這些：

（1）chunks.py 文件包含了將字元串和 Document 對象分割成小塊、以及為每個塊獲取嵌入向量的函數。

（2）file.py 文件提供了從上傳的文件中提取文本內容及元數據的函數。目前支持解析的文件類型包括 PDF、純文本、Markdown、Word、CSV 和 PPTX。

（3）openai.py 文件包含兩個函數：get_embeddings 函數使用 OpenAI 的 text-embedding-ada-002 模型對給定的文本進行嵌入。get_chat_completion 函數使用 OpenAI 的 ChatCompletion API 生成對話。

整個而言，這個插件的幾個介面功能很清晰，代碼邏輯也不算複雜。核心的文本嵌入操作是藉助於 openai 的 Embedding 介面，文本分塊信息的存儲及查詢操作，則是依賴於各家向量資料庫的功能。

YouTube 上有博主手畫了一張示意圖，字體雖潦草，但大家可以意會一下：

他這個視頻值得推薦一看，因為 up 主不僅簡明地介紹了插件的工作原理，還手把手演示如何部署到 Digital Ocean、如何修改配置、如何調試，而且他有 ChatGPT 的插件許可權，可以將自己部署的插件接入 ChatGPT，現場演示了知識庫插件的使用！

目前，關於 ChatGPT 插件的介紹、開發及配置等資料還比較少，畢竟是新推出的。但是，申請 waitlist 的個人和組織已經數不勝數了，一旦開放使用，各式各樣的插件一定會像 Python 社區豐富的開源庫一樣，也將極大擴展 ChatGPT 的生態。

最後，插件 chatgpt-retrieval-plugin 的官方文檔是最為詳細的一手資料，推薦大家研究一番。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

【Visual Leak Detector】配置項 TraceInternalFrames

使用 VLD 記憶體泄漏檢測工具輔助開發時整理的學習筆記。本篇介紹 VLD 配置文件中配置項 TraceInternalFrames 的使用方法。 ...
L1-080 乘法口訣數列*(使用C++)

分數 20 本題要求你從任意給定的兩個 1 位數字 a1 和 a2 開始，用乘法口訣生成一個數列 {an}，規則為從 a1 開始順次進行，每次將當前數字與後面一個數字相乘，將結果貼在數列末尾。如果結果不是 1 位數，則其每一位都應成為數列的一項。輸入格式：輸入在一行中給出 3 個整數，依 ...
Django筆記十一之外鍵查詢優化select_related和prefetch_related

點右上角加星標，江湖要事早知道前幾天在脈脈上看到一個熱議話題“23年找工作的心酸歷程” 大家都知道近幾年互聯網大環境不好，找工作變得越來越捲了、就算是BAT這種大廠出來的，也不見得就有多好找工作，可想而知，如果你的背景和能力不是特別強，很有可能練簡歷關都過不了。特別是工作時間久的老程式員，總包 ...
Qt源碼閱讀(三) 對象樹管理

對象樹管理個人經驗總結，如有錯誤或遺漏，歡迎各位大佬指正 :) @ 設置父對象的作用眾所周知，Qt中，有為對象設置父對象的方法——setParent。而設置父對象的作用主要有，在父對象析構的時候，會自動去析構其子對象。如果是一個視窗對象，如果其父對象設置了樣式表(Style Sheet)，子對 ...
SSM框架筆記慶祝學習SSM框架結束！！！

終於在2023/3/29日，黑馬程式員旗下的ssm框架視頻看完了，也是總結了1萬多字的筆記，把黑馬的和自己的整合了一下完結撒花，接下來開始學習SpringBoot和軟考中級設計師。總的來說，我還是比較喜歡.NET，SSM配置實在是太麻煩了，基本沒怎麼寫代碼，時間都花到配置文件上面去了。筆記部分 ...
什麼是JWT

JSON Web Token（縮寫 JWT）是目前最流行的跨域認證解決方案。傳統的session認證 http協議本身是一種無狀態的協議，而這就意味著如果用戶向我們的應用提供了用戶名和密碼來進行用戶認證，那麼下一次請求時，用戶還要再一次進行用戶認證才行，因為根據http協議，我們並不能知道是哪個用 ...
day02-功能實現02

功能實現02 6.功能05-顯示家居信息 6.1需求分析進入後臺系統，可以在頁面進行所有家居信息的展示 6.2思路分析完成從後端代碼從mapper（dao層）-->Service層-->Controller層，並對代碼進行測試完成前端代碼，使用axios發送http請求，返回所有家居信息，將數 ...
【Visual Leak Detector】配置項 StartDisabled

使用 VLD 記憶體泄漏檢測工具輔助開發時整理的學習筆記。本篇介紹 VLD 配置文件中配置項 StartDisabled 的使用方法。 ...