閱讀(1.2k) 書簽贊(0) 我要糾錯

OpenAI API Parameter details

2023-03-21 14:19 更新

頻率和存在懲罰

Completions API 中發(fā)現(xiàn)的頻率和存在懲罰可用于降低對令牌重復序列進行采樣的可能性。他們通過添加貢獻直接修改 logits（非標準化對數(shù)概率）來工作。

mu[j] -> mu[j] - c[j] * alpha_frequency - float(c[j] > 0) * alpha_presence

Where:

正如我們所見，存在懲罰是一種一次性的加性貢獻，適用于所有至少被采樣過一次的標記，而頻率懲罰是與特定標記被采樣的頻率成正比的貢獻。

如果目標只是稍微減少重復樣本，則懲罰系數(shù)的合理值約為 0.1 到 1。如果目標是強烈抑制重復，那么可以將系數(shù)增加到 2，但這會顯著降低樣本質(zhì)量。負值可用于增加重復的可能性。

以上內(nèi)容是否對您有幫助：

寫筆記

我要補充