7.3. 生成されたモデルの応答品質
シナリオによっては、更新後に生成されたモデル応答の品質が低下する可能性があります。
新しいバージョンでは、デフォルトのサンプリングパラメーターソースが更新されました。vLLM バージョン 0.8.4 以降の場合、デフォルトのサンプリングパラメーターは、モデル作成者によって提供される
generation_config.json
ファイルから取得されます。ほとんどの場合、モデル作成者はどのサンプリングパラメーターがモデルに最適かを把握している可能性が高いため、このパラメーターにより応答の品質が向上するはずです。ただし、場合によっては、モデル作成者が提供するデフォルトが原因でパフォーマンスが低下する可能性があります。この問題が発生した場合は、
--generation-config vllm
サーバー引数を使用して、古いデフォルトでモデルをサービングしてみてください。重要--generation-config vllm
サーバー引数を適用することでモデル出力が改善される場合は、引き続き vLLM のデフォルトを使用し、Hugging Face のモデル作成者にデフォルトのgeneration_config.json
を更新して、より品質の高い世代を生成するように依頼してください。