28) How DeepSeek Rewrote Quantization Part 2 Accumulation Precision Online Quantization5просмотров2 месяца назад
27) How DeepSeek Rewrote Quantization Part 1 Mixed Precision Fine-grained quantization3просмотра2 месяца назад
20) Mixture of Experts Balancing Techniques Auxiliary Loss Load Balancing Capacity Factor5просмотров2 месяца назад
15) All about Sinusoidal Positional Encodings What’s with the weird sin-cos formula1просмотр2 месяца назад