OpenAI API 審核

2023-03-17 16:46 更新

概述

審核端點(diǎn)是一種工具,可用于檢查內(nèi)容是否符合 OpenAI 的使用策略。因此,開發(fā)人員可以識(shí)別我們的使用政策禁止的內(nèi)容并采取行動(dòng),例如過(guò)濾它。

這些模型將以下類別分類:

分類 描述
hate 基于種族、性別、民族、宗教、國(guó)籍、性取向、殘疾狀況或種姓表達(dá)、煽動(dòng)或促進(jìn)仇恨的內(nèi)容。
hate/threatening 仇恨內(nèi)容還包括對(duì)目標(biāo)群體的暴力或嚴(yán)重傷害。
self-harm 提倡、鼓勵(lì)或描述自殘行為(例如自殺、割傷和飲食失調(diào))的內(nèi)容。
sexual 意在引起性興奮的內(nèi)容,例如對(duì)性活動(dòng)的描述,或宣傳性服務(wù)(不包括性教育和健康)的內(nèi)容。
sexual/minors 包含 18 歲以下個(gè)人的色情內(nèi)容。
violence 宣揚(yáng)或美化暴力或頌揚(yáng)他人的痛苦或屈辱的內(nèi)容。
violence/graphic 以極端的畫面細(xì)節(jié)描繪死亡、暴力或嚴(yán)重身體傷害的暴力內(nèi)容。

在監(jiān)控 OpenAI API 的輸入和輸出時(shí),可以免費(fèi)使用審核端點(diǎn)。我們目前不支持監(jiān)測(cè)第三方流量。

我們一直在努力提高分類器的準(zhǔn)確性,尤其是在改進(jìn)仇恨、自殘和暴力/露骨內(nèi)容的分類。我們對(duì)非英語(yǔ)語(yǔ)言的支持目前有限。

快速開始

要獲取一段文本的分類,請(qǐng)向?qū)徍硕它c(diǎn)發(fā)出請(qǐng)求,如以下代碼片段所示:

 python curl 
response = openai.Moderation.create(
    input="Sample text goes here"
)
output = response["results"][0]
curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Sample text goes here"}'

下面是端點(diǎn)的示例輸出。它返回以下字段:

  • flagged: 如果模型將內(nèi)容分類為違反 OpenAI 的使用策略,則設(shè)置為 true,否則設(shè)置為 false。
  • categories: 包含每個(gè)類別的二進(jìn)制使用策略違規(guī)標(biāo)志的字典。對(duì)于每個(gè)類別,如果模型將相應(yīng)類別標(biāo)記為違規(guī),則該值為 true,否則為 false。
  • category_scores: 包含模型輸出的每個(gè)類別原始分?jǐn)?shù)的字典,表示模型對(duì)輸入違反 OpenAI 的類別策略的信心。該值介于 0 和 1 之間,其中較高的值表示較高的置信度。分?jǐn)?shù)不應(yīng)解釋為概率。
{
  "id": "modr-XXXXX",
  "model": "text-moderation-001",
  "results": [
    {
      "categories": {
        "hate": false,
        "hate/threatening": false,
        "self-harm": false,
        "sexual": false,
        "sexual/minors": false,
        "violence": false,
        "violence/graphic": false
      },
      "category_scores": {
        "hate": 0.18805529177188873,
        "hate/threatening": 0.0001250059431185946,
        "self-harm": 0.0003706029092427343,
        "sexual": 0.0008735615410842001,
        "sexual/minors": 0.0007470346172340214,
        "violence": 0.0041268812492489815,
        "violence/graphic": 0.00023186142789199948
      },
      "flagged": false
    }
  ]
}

OpenAI 將不斷升級(jí)審核端點(diǎn)的底層模型。因此,依賴于 category_scores 的自定義策略可能需要隨著時(shí)間的推移重新校準(zhǔn)。


以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)