To caveat, smaller batch sizes are generally better for model stability, but we go bigger because it...

alansaber • yesterday at 3:33 PM • 0 replies • view on HN

To caveat, smaller batch sizes are generally better for model stability, but we go bigger because it substantially speeds up training

alt Hacker News