|
本帖最后由 吊打华伪 于 2025-4-2 15:04 编辑
3楼----chatGPT 占楼
运行int4模型,但是显卡不支持int4,只能退回fp16计算,现在问题是这个过程是否是先从显存读取int4后经过反量化到fp16后,要先写回显存,然后cuda再次读取显存后再进行矩阵运算? 也就是要二次读取数据???
ChatGPT 说:
推理关于显卡计算过程,持续 20 秒
通常情况下,不会发生二次读取显存的过程。大多数实现方案会在 CUDA 内核中直接将从显存中加载的 int4 数据进行反量化(转换成 fp16),这个转换通常在寄存器或共享内存中完成,然后直接用于矩阵运算,而不需要先写回全局显存后再重新加载数据。当然,具体细节可能依赖于具体的实现和优化方案,但高效的实现都会尽量避免额外的内存传输开销。
======================
BTW, 我这个免费号貌似问多了,被降低智商了,每次回答字数都不多,看来要换个号,缓一缓了 |
|