Supervised Learning

[論文介紹] HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

理解如何針對 Specific Domain 訓練 o1 模型！

Jan 31．12 min read．論文介紹

article thumbnail

[論文介紹] RAFT: Adapting Language Model to Domain Specific RAG

透過 Irrelevant Document 來訓練 RAG-LLM

Oct 31．15 min read．論文介紹

article thumbnail

[論文介紹] Better & Faster Large Language Models via Multi-token Prediction

誰說 LLM 一定要一次預測一個 Token，預測多個不行嗎？

Jul 18．8 min read．論文介紹

article thumbnail

[論文介紹] Tuning LayerNorm in Attention: Towards Efficient Multi-Modal LLM Finetuning

只訓練不到 1% 的參數，就能夠讓 LLM 變成 Multimodal LLM

Jul 8．8 min read．論文介紹

article thumbnail

[論文介紹] Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

來自 Meta FAIR 的 BTX：更有效率的訓練 LLM 精通各項領域

Apr 24．15 min read．論文介紹

article thumbnail

[論文介紹] Sparse Upcycling

學習如何將 Dense Model 轉化為 Sparse MoE

Apr 10．8 min read．論文介紹

article thumbnail

[論文介紹] DPO：Direct Preference Optimization

改善 RLHF！快速讀懂 DPO 的概念 (NeurIPS 2023)

Feb 27．7 min read．論文介紹

article thumbnail

LLM Fine-Tuning: Reinforcement Learning from Human Feedback

理解 ChatGPT 的關鍵訓練階段：RLHF

Feb 27．20 min read．深度學習核心觀念

article thumbnail