Skip to content

多图输入的一些问题 #172

@qingkejane

Description

@qingkejane

数据里有些question只需要一张图片的信息就可以回答,但是数据输入的所有的图片,这个会不会造成资源的浪费呢?其次,LLaMA-Adapter V2 的输入只有一个占位符,但是在有些模型(例如Qwen2.5,3),他需要多个占位符,此时我还额外需要告诉模型每张图片的位置,如果模型参数小,他们好像对多图的顺序理解不太好,导致训练效果一般。对于这样的模型训练,有什么建议吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions