Chat(Llama-3.1-nemotron)
POST
/chat/completionsNvidiaによってllama-3.1を基盤として微調整されたモデル、o1に続くランニングスコア。
Request
使用するモデルのID。 Chat API で使用できるモデルの詳細については、モデル エンドポイント互換性マトリックス を参照してください。
チャット形式 でチャット完了メッセージを作成します。
使用するサンプリング温度で、0から2の間の値を指定します。高い値(0.8など)を設定すると出力がよりランダムになり、低い値(0.2など)を設定すると出力がより的を絞ったものになり、確定的になります。通常、このパラメータかtop_pのどちらかを変更することをお勧めしますが、両方は変更しないでください。
カーネルサンプリングと呼ばれる温度サンプリングの代替手法で、上位_p個の確率質量を持つマーカーの結果を考慮するモデルです。つまり、0.1は上位10%の確率を占めるマーカーだけを考慮することを意味します。 私たちは通常、これか temperature
を変更することを推奨しますが、両方は推奨しません。
各入力メッセージに対して生成するチャット完了オプションの数。
APIが追加のトークン生成を停止する最大4つのシーケンス。
チャット完了時に生成される最大トークン数。入力トークンと生成トークンの合計長さは、モデルのコンテキスト長によって制限されます。
-2.0から2.0の間の数値。正の値は、新しいトークンがこれまでにテキストに現れたかどうかに基づいてペナルティを課し、モデルが新しいトピックについて話す可能性を高めます。 頻度ペナルティと存在ペナルティに関する詳細情報を確認してください。
-2.0から2.0の間の数値。正の値は、テキスト中の既存の頻度に基づいて新しいトークンにペナルティを与え、モデルが同じ行を逐語的に繰り返す可能性を減らします。 頻度ペナルティと存在ペナルティに関する詳細情報を確認してください。
指定されたトークンが補完候補に表示される可能性を変更します。 マーカー(マーカー内のマーカー ID で指定)と、関連する偏差値(-100 から 100)を対応付ける json オブジェクトを受け入れます。数学的には、偏差値はサンプリング前にモデルによって生成されたロジットに加算されます。正確な効果はモデルによって異なりますが、-1から1の間の値は選択の可能性を減少または増加させるはずです。-100や100のような値は、関連するトークンの選択を禁止または排他的にするはずです。
エンドユーザーを表す一意の識別子で。詳細はこちら。
{
"model": "llama-3.1-nemotron",
"messages": [
{
"role": "user",
"content": "Hello!"
}
]
}
Request samples
Responses
{
"id": "chatcmpl-123",
"object": "chat.completion",
"created": 1677652288,
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "\n\nHello there, how may I assist you today?"
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 9,
"completion_tokens": 12,
"total_tokens": 21
}
}