10.3. 生成されたモデルの応答品質

シナリオによっては、更新後に生成されたモデル応答の品質が低下する可能性があります。
新しいバージョンでは、デフォルトのサンプリングパラメーターソースが更新されました。vLLM バージョン 0.8.4 以降の場合、デフォルトのサンプリングパラメーターは、モデル作成者によって提供される generation_config.json ファイルから取得されます。ほとんどの場合、モデル作成者はどのサンプリングパラメーターがモデルに最適かを把握している可能性が高いため、このパラメーターにより応答の品質が向上するはずです。ただし、場合によっては、モデル作成者が提供するデフォルトが原因でパフォーマンスが低下する可能性があります。
この問題が発生した場合は、--generation-config vllm サーバー引数を使用して、古いデフォルトでモデルをサービングしてみてください。
重要
--generation-config vllm サーバー引数を適用することでモデル出力が改善される場合は、引き続き vLLM のデフォルトを使用し、Hugging Face のモデル作成者に、より質の高い生成結果が得られるように、デフォルトの generation_config.json を更新するよう依頼してください。