chatgpt介面開發筆記3: 語音識別介面

-Advertisement-

chatgpt介面開發筆記3: 語音識別介面 1.文本轉語音 1、瞭解介面參數介面地址： POST https://api.openai.com/v1/audio/speech 下麵是介面文檔描述內容：參數： { "model": "tts-1", "input": "你好，我是饒坤，我是ter ...

chatgpt介面開發筆記3: 語音識別介面

1.文本轉語音

1、瞭解介面參數

介面地址：

POST https://api.openai.com/v1/audio/speech

下麵是介面文檔描述內容：

參數：

{
"model": "tts-1",
"input": "你好，我是饒坤，我是terramours gpt的開發者",
"voice": "alloy"
}

model 模型
input 需要轉換的文字
voice 語音風格

2.postman測試

3.結果：

2.語音轉文本

1、瞭解介面參數

介面地址：

POST  https://api.openai.com/v1/audio/transcriptions

文檔：

參數

curl https://api.openai.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/audio.mp3" \
  -F model="whisper-1"

file 需要解析的語言文件
model 模型類型

2.postman測試

3.結果：

{
    "text": "你好,我是饒坤,我是 Terramers GPT 的開發者。"
}

SDK開發

對應的語音介面我會加入到SDK中，使用C#開發者可以在nuget中搜索AllInAI.Sharp.API.

SDK為開源項目，代碼地址：https://github.com/raokun/AllInAI.Sharp.API

首先在項目中安裝sdk

Install-Package AllInAI.Sharp.API

1.Speech

1.OpenAI

public async Task OpenAISpeechTest() {
    try {
        AuthOption authOption = new AuthOption() { Key = "sk-**", BaseUrl = "https://api.openai.com", AIType = Enums.AITypeEnum.OpenAi };
        AudioService audioService = new AudioService(authOption);
        AudioSpeechReq req = new AudioSpeechReq() { Model = "tts-1", Input = "你好，我是饒坤，我是AllInAI.Sharp.API的開發者", Voice = "alloy" };
        var res = await audioService.Speech<Stream>(req);
        if(res.Data != null) {
            var filePath = $"D:/test/{Guid.NewGuid()}.mp3";
            using (FileStream fileStream = File.Create(filePath)) {
                res.Data.CopyTo(fileStream);
            }
        }
    }
    catch (Exception e) {
        Console.WriteLine(e.Message);
    }
}

1.Transcriptions

1.OpenAI

public async Task OpenAITranscriptionsTest() {
    try {
        AuthOption authOption = new AuthOption() { Key = "sk-**", BaseUrl = "https://api.openai.com", AIType = Enums.AITypeEnum.OpenAi };
        // 讀取音頻文件的二進位內容
        byte[] audioData = File.ReadAllBytes("C:/Users/Administrator/Desktop/response.mp3");
        AudioService audioService = new AudioService(authOption) ;
        AudioCreateTranscriptionReq req = new AudioCreateTranscriptionReq() { File=audioData,FileName= "response.mp3",Model= "whisper-1" ,Language="zh"};
        AudioTranscriptionRes res = await audioService.Transcriptions(req);
    }
    catch (Exception e) {
        Console.WriteLine(e.Message);
    }
}

閱讀如遇樣式問題，請前往個人博客瀏覽： [https://www.raokun.top](chatgpt介面開發筆記3: 語音識別介面)

擁抱ChatGPT：https://first.terramours.site

SDK應用開源項目:https://github.com/TerraMours/TerraMours_Gpt_Web

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Spring Boot學習隨筆-第一個SpringBoot項目快速啟動（org.springframework.boot、@SpringBootApplication、application.yml）

快速啟動SpringBoot項目，包括引入spring-boot-starter-parent，@SpringBootApplication入口類註解、自動保存刷新pom.xml ...
快速認識什麼是：Docker

Docker，一種可以將軟體打包到容器中併在任何環境中可靠運行的工具。但什麼是容器以及為什麼需要容器呢？今天就來一起學快速入門一下Docker吧！希望本文對您有所幫助。假設您使用 Cobol 構建了一個在某種奇怪風格的 Linux 上運行的應用程式。您想與您的朋友分享這個應用程式，但他有一個完全不 ...
演算法【快速排序】

從0到1，手把手帶你開發一款截屏工具ScreenCap，001版本，實現基本的截圖功能，實現全屏截圖，實現局部截圖，實現保存截圖，實現截圖另存為 ...
快速認識，前端必學編程語言：JavaScript

JavaScript是構建Web應用必學的一門編程語言，也是最受開發者歡迎的熱門語言之一。所以，如果您還不知道JavaScript的用處、特點的話，趕緊補充一下這塊基礎知識。 JavaScript 是一種高級、單線程、垃圾收集、解釋或即時編譯、基於原型、多範式、動態語言，具有非阻塞事件迴圈，因構建網 ...
數據結構【動態數組】

本文解釋為啥會有響應式編程，為什麼它在開發者中不太受歡迎，以及引入 Java 虛擬線程後它可能最終會消失。命令式風格編程一直深受開發者喜愛，如 if-then-else、while 迴圈、函數和代碼塊等結構使代碼易理解、調試，異常易追蹤。然而，像所有好的東西一樣，通常也有問題。這種編程風格導致線程 ...
IntelliJ IDEA無公網遠程Linux伺服器環境開發(建議收藏!)

IDEA的遠程開發功能，可以將本地的編譯、構建、調試、運行等工作都放在遠程伺服器上執行，而本地僅運行客戶端軟體進行常規的開發操作即可,舊版本IDEA目前不支持該功能.,本例使用的是IDEA2023.2.5版本下麵介紹如何在IDEA中設置遠程連接伺服器開發環境並結合Cpolar內網穿透工具實現無公網 ...
面向對象程式設計第三次bolg

大家好，我是棧長。 Nacos 2.3.0 前幾天正式發佈了，新增了不少實用性的新功能，真是史上最強版本。 Nacos 2.3.0 還真是一個比較重要的大版本，因為它涉及了太多重大更新，今天棧長給大家來解讀下。 Nacos 先掃個盲： Nacos 一個用於構建雲原生應用的動態服務發現、配置管理和服務 ...
c# 高併發必備技巧（三）

前面兩篇文章主要是介紹瞭如何解決高併發情況下資源爭奪的問題。但是現實的應用場景中除了要解決資源爭奪問題，高併發的情況還需要解決更多問題，比如快速處理業務數據等，本篇文章簡要羅列一下與之相關的更多技術細節。 1、非同步編程：使用async和await關鍵字進行非同步編程，這可以避免阻塞線程，提高程式的響 ...