Probably just means SFT fine-tuning a base model, vs behavioural dpo and/or SFT fine-tuning a i...

gunalx • today at 7:05 AM • 0 replies • view on HN

Probably just means SFT fine-tuning a base model, vs behavioural dpo and/or SFT fine-tuning a instruction model.

alt Hacker News