数据里有些question只需要一张图片的信息就可以回答,但是数据输入的所有的图片,这个会不会造成资源的浪费呢?其次,LLaMA-Adapter V2 的输入只有一个占位符,但是在有些模型(例如Qwen2.5,3),他需要多个占位符,此时我还额外需要告诉模型每张图片的位置,如果模型参数小,他们好像对多图的顺序理解不太好,导致训练效果一般。对于这样的模型训练,有什么建议吗?