審核端點(diǎn)是一種工具,可用于檢查內(nèi)容是否符合 OpenAI 的使用策略。因此,開發(fā)人員可以識(shí)別我們的使用政策禁止的內(nèi)容并采取行動(dòng),例如過(guò)濾它。
這些模型將以下類別分類:
分類 | 描述 |
---|---|
hate
|
基于種族、性別、民族、宗教、國(guó)籍、性取向、殘疾狀況或種姓表達(dá)、煽動(dòng)或促進(jìn)仇恨的內(nèi)容。 |
hate/threatening
|
仇恨內(nèi)容還包括對(duì)目標(biāo)群體的暴力或嚴(yán)重傷害。 |
self-harm
|
提倡、鼓勵(lì)或描述自殘行為(例如自殺、割傷和飲食失調(diào))的內(nèi)容。 |
sexual
|
意在引起性興奮的內(nèi)容,例如對(duì)性活動(dòng)的描述,或宣傳性服務(wù)(不包括性教育和健康)的內(nèi)容。 |
sexual/minors
|
包含 18 歲以下個(gè)人的色情內(nèi)容。 |
violence
|
宣揚(yáng)或美化暴力或頌揚(yáng)他人的痛苦或屈辱的內(nèi)容。 |
violence/graphic
|
以極端的畫面細(xì)節(jié)描繪死亡、暴力或嚴(yán)重身體傷害的暴力內(nèi)容。 |
在監(jiān)控 OpenAI API 的輸入和輸出時(shí),可以免費(fèi)使用審核端點(diǎn)。我們目前不支持監(jiān)測(cè)第三方流量。
我們一直在努力提高分類器的準(zhǔn)確性,尤其是在改進(jìn)仇恨、自殘和暴力/露骨內(nèi)容的分類。我們對(duì)非英語(yǔ)語(yǔ)言的支持目前有限。
要獲取一段文本的分類,請(qǐng)向?qū)徍硕它c(diǎn)發(fā)出請(qǐng)求,如以下代碼片段所示:
python | curl |
|
|
下面是端點(diǎn)的示例輸出。它返回以下字段:
{
"id": "modr-XXXXX",
"model": "text-moderation-001",
"results": [
{
"categories": {
"hate": false,
"hate/threatening": false,
"self-harm": false,
"sexual": false,
"sexual/minors": false,
"violence": false,
"violence/graphic": false
},
"category_scores": {
"hate": 0.18805529177188873,
"hate/threatening": 0.0001250059431185946,
"self-harm": 0.0003706029092427343,
"sexual": 0.0008735615410842001,
"sexual/minors": 0.0007470346172340214,
"violence": 0.0041268812492489815,
"violence/graphic": 0.00023186142789199948
},
"flagged": false
}
]
}
OpenAI 將不斷升級(jí)審核端點(diǎn)的底層模型。因此,依賴于 category_scores 的自定義策略可能需要隨著時(shí)間的推移重新校準(zhǔn)。
更多建議: