閱讀(1.2k) 書簽贊(0) 我要糾錯(cuò)

OpenAI API 審核

2023-03-17 16:46 更新

概述

審核端點(diǎn)是一種工具，可用于檢查內(nèi)容是否符合 OpenAI 的使用策略。因此，開發(fā)人員可以識(shí)別我們的使用政策禁止的內(nèi)容并采取行動(dòng)，例如過(guò)濾它。

這些模型將以下類別分類：

分類	描述
`hate`	基于種族、性別、民族、宗教、國(guó)籍、性取向、殘疾狀況或種姓表達(dá)、煽動(dòng)或促進(jìn)仇恨的內(nèi)容。
`hate/threatening`	仇恨內(nèi)容還包括對(duì)目標(biāo)群體的暴力或嚴(yán)重傷害。
`self-harm`	提倡、鼓勵(lì)或描述自殘行為（例如自殺、割傷和飲食失調(diào)）的內(nèi)容。
`sexual`	意在引起性興奮的內(nèi)容，例如對(duì)性活動(dòng)的描述，或宣傳性服務(wù)（不包括性教育和健康）的內(nèi)容。
`sexual/minors`	包含 18 歲以下個(gè)人的色情內(nèi)容。
`violence`	宣揚(yáng)或美化暴力或頌揚(yáng)他人的痛苦或屈辱的內(nèi)容。
`violence/graphic`	以極端的畫面細(xì)節(jié)描繪死亡、暴力或嚴(yán)重身體傷害的暴力內(nèi)容。

在監(jiān)控 OpenAI API 的輸入和輸出時(shí)，可以免費(fèi)使用審核端點(diǎn)。我們目前不支持監(jiān)測(cè)第三方流量。

我們一直在努力提高分類器的準(zhǔn)確性，尤其是在改進(jìn)仇恨、自殘和暴力/露骨內(nèi)容的分類。我們對(duì)非英語(yǔ)語(yǔ)言的支持目前有限。

快速開始

要獲取一段文本的分類，請(qǐng)向?qū)徍硕它c(diǎn)發(fā)出請(qǐng)求，如以下代碼片段所示：

python curl

response = openai.Moderation.create(
    input="Sample text goes here"
)
output = response["results"][0]

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Sample text goes here"}'

下面是端點(diǎn)的示例輸出。它返回以下字段：

flagged: 如果模型將內(nèi)容分類為違反 OpenAI 的使用策略，則設(shè)置為 true，否則設(shè)置為 false。
categories: 包含每個(gè)類別的二進(jìn)制使用策略違規(guī)標(biāo)志的字典。對(duì)于每個(gè)類別，如果模型將相應(yīng)類別標(biāo)記為違規(guī)，則該值為 true，否則為 false。
category_scores: 包含模型輸出的每個(gè)類別原始分?jǐn)?shù)的字典，表示模型對(duì)輸入違反 OpenAI 的類別策略的信心。該值介于 0 和 1 之間，其中較高的值表示較高的置信度。分?jǐn)?shù)不應(yīng)解釋為概率。

{
  "id": "modr-XXXXX",
  "model": "text-moderation-001",
  "results": [
    {
      "categories": {
        "hate": false,
        "hate/threatening": false,
        "self-harm": false,
        "sexual": false,
        "sexual/minors": false,
        "violence": false,
        "violence/graphic": false
      },
      "category_scores": {
        "hate": 0.18805529177188873,
        "hate/threatening": 0.0001250059431185946,
        "self-harm": 0.0003706029092427343,
        "sexual": 0.0008735615410842001,
        "sexual/minors": 0.0007470346172340214,
        "violence": 0.0041268812492489815,
        "violence/graphic": 0.00023186142789199948
      },
      "flagged": false
    }
  ]
}

OpenAI 將不斷升級(jí)審核端點(diǎn)的底層模型。因此，依賴于 category_scores 的自定義策略可能需要隨著時(shí)間的推移重新校準(zhǔn)。

以上內(nèi)容是否對(duì)您有幫助：

← OpenAI API 語(yǔ)音轉(zhuǎn)文字

OpenAI API 速率限制 →

寫筆記

我要補(bǔ)充