OpenAI API Parameter details

2023-03-21 14:19 更新

頻率和存在懲罰

Completions API 中發(fā)現(xiàn)的頻率和存在懲罰可用于降低對令牌重復序列進行采樣的可能性。他們通過添加貢獻直接修改 logits(非標準化對數(shù)概率)來工作。

mu[j] -> mu[j] - c[j] * alpha_frequency - float(c[j] > 0) * alpha_presence

Where:

  • mu[j] 是第 j 個標記的對數(shù)

  • c[j] 是在當前位置之前對該令牌進行采樣的頻率

  • 如果 c[j] > 0,則 float(c[j] > 0) 為 1,否則為 0

  • alpha_frequency 是頻率懲罰系數(shù)

  • alpha_presence 是存在懲罰系數(shù)

正如我們所見,存在懲罰是一種一次性的加性貢獻,適用于所有至少被采樣過一次的標記,而頻率懲罰是與特定標記被采樣的頻率成正比的貢獻。

如果目標只是稍微減少重復樣本,則懲罰系數(shù)的合理值約為 0.1 到 1。如果目標是強烈抑制重復,那么可以將系數(shù)增加到 2,但這會顯著降低樣本質(zhì)量。負值可用于增加重復的可能性。


以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號