token_token简介__橙橘网

250行代码从头搭建Llama 3，GitHub一天4.6k星！Karpathy大赞

2024-05-21

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

2024-05-20

微软让MoE长出多个头，大幅提升专家激活率

2024-05-14

Llama架构比不上GPT2？神奇token提升10倍记忆？

2024-04-10

讨论下一个token预测时，我们可能正在走进陷阱

2024-03-25

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

2023-10-30

用暂停token重新训练大模型，AI学会三思而后行

2023-10-15

400万token，大模型推理飙升22倍！清华校友爆火一作，GitHub狂揽1.8k星

2023-10-06