多图输入的一些问题

数据里有些question只需要一张图片的信息就可以回答，但是数据输入的所有的图片，这个会不会造成资源的浪费呢？其次，LLaMA-Adapter V2 的输入只有一个占位符，但是在有些模型（例如Qwen2.5，3），他需要多个占位符，此时我还额外需要告诉模型每张图片的位置，如果模型参数小，他们好像对多图的顺序理解不太好，导致训练效果一般。对于这样的模型训练，有什么建议吗？