@qkl2058
有位中国开发者,坐跨大西洋航班,靠窗,掏出一台 MacBook Pro M4,64 GB 内存。机上全程 WiFi 要 25 美元,他没买。 没网怎么办?人家根本不慌。直接在本地跑了个 Llama 3.3 70B,bf16 精度,用 llama.cpp 推理。生成速度 71 token/秒,上下文大概 60,000 token,内存吃了 48.6 [ 网页链接 ↗ ]