橙橘网
250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞
2024-05-21
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
2024-05-20
微软让MoE长出多个头,大幅提升专家激活率
2024-05-14
Llama架构比不上GPT2?神奇token提升10倍记忆?
2024-04-10
讨论下一个token预测时,我们可能正在走进陷阱
2024-03-25
北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招
2023-10-30
用暂停token重新训练大模型,AI学会三思而后行
2023-10-15
400万token,大模型推理飙升22倍!清华校友爆火一作,GitHub狂揽1.8k星
2023-10-06