多模态大模型原理与应用 rebuttal 问题

组号 姓名 学号 主题 问题1 问题2 问题3
1 罗喆熙 22320090 课程内容的问答 你们构建 MMCourse-VQA benchmark 如何保证问题覆盖面、难度分布,以及不会出现和训练数据泄漏重叠的情况? 怎么保证模型一定遵循图像条件,而不是进入语言捷径? PPT 里文字信息很多,怎么区分模型是 OCR/读文本得到答案,还是真正理解了图像内容?
王艺翔 21307243
潘胤臻 23336191
魏昊瑜 23336242
2 蔡文翔 23336023 多视角一致性 相机编码是直接作为条件输入,还是影响注意力/特征融合?如果相机参数有噪声会怎样? 你们使用 Blender 渲染数据集时,是如何保证数据分布能够泛化到真实世界图像的?如果训练数据主要是合成数据,那么模型在真实人物或真实场景上的效果会不会出现 domain gap 问题? 这是一个经典的计算机视觉问题。位姿控制是计算机视觉中的经典问题。这可能不属于多模态大模型的问题。
范翔烺 23336004
冯树佳 24312056
3 常淇博 23336028 口腔辅助诊断 如何获取相应的数据?如何抑制幻觉问题? 口腔诊断非常依赖图像质量和病例完整性,但真实场景里常常会遇到模糊照片、角度不标准、文本病例不规范甚至缺失。你们的方法在模态缺失或低质量输入下还能稳定工作吗? 生成诊断说明时,如何避免模型给出过度自信或不符合临床规范的建议?
4 丁子航 23312014 x-aigd 多模态大模型辅助真假判断时,如何避免它只学到数据集偏差而不是可见伪影? 你们提到模型能够利用“世界知识”判断阴影、光照、物理规律是否合理,那么如何验证模型是真的学到了物理一致性,而不是仅仅记住了训练集中常见的伪造模式? 负样本一定是有伪影吗?没有伪影的负样本是不是也可考虑?
5 翁國圍 23336246 金融财报 怎么评测分析分类的准确性? 你们提到银行、保险、证券行业的资产负债表与普通企业差异很大,那么模型如何处理这种行业间术语和财务结构的不一致?如果遇到新的财务术语怎么办? 财报图表、表格和正文三类信息分别怎么抽取和对齐?
6 徐泓昊 23336017 文本生成可打印性3Dmesh 可打印性的约束是怎么可微地加进来?可打印性怎么用数学来定义? 你们提到使用 trimesh 自动构造训练数据而不依赖人工标注,那么正负样本是怎么生成的?例如,一个 mesh 是如何被判定为“适合打印”或者“不适合打印”的,以及如何解决自动标签噪声的问题? Trellis 到 MeshAnything 的中间点云会不会丢失细节,如何评估几何质量?如何定义可打印性?
吴修远 23336255
覃司翰 23336217
张浩宇 23336301
7 杨鑫 23336284 连续空间下的扩散语言模型 你们的方法是非自回归、并行生成整段文本的,但自然语言本身具有很强的时序依赖关系。那么模型如何保证生成文本的前后逻辑一致性和长程依赖,而不会出现局部合理但整体混乱的问题? 生成的结果,如果是图像,怎么转成文本?bit表达之间,怎么考虑距离的正交性? 受限 bit 位会不会导致表达能力不足?
8 刘昊 23336150 老人家庭监护 这是小模型还是大模型?和端到端大模型对比,有什么优势? 如何定义“风险等级”的标签?这些标签是由人工专家标注、规则生成,还是基于历史事件数据?如果标签本身存在主观性,会不会影响模型训练? 老人安全事件属于低频事件,怎么解决训练数据不平衡?
陈大有 23336033
刘国龙 23336149
9 甘善铭 23336005 多模态语义素材库 端到端模型可以直接把图作为输入,直接给出分析结果;现在你们的方法先进行分割,再把分割结果进行分析,是不是更落后了?如果分割本身就有错误,会影响后面的分析。 有没有和直接做 image-text embedding 检索的方法做过对比,特别是在复杂查询、细粒度查询上的提升?

为什么一定要先分割再检索?直接用全图 embedding 或检测框检索有什么不足?
罗杰 23336008
梁皓明 23336127
罗金浩 23336009
胡明瀚 23336088
10 王宇和 22355082 三平面机器人 指令编码和 3D 特征是在哪一层融合的?融合方式会影响空间定位能力吗? 机器人通过多个相机观察场景时,不同视角之间需要进行空间对齐。你们的方法是如何完成多视角融合的?如果相机存在标定误差或者部分视角缺失,TPV 表征是否还能稳定构建 3D 场景认知? 操作的精度,依赖于3D的精度吗?3D表示的精度,天然就很难,如何克服?
11 雷颜玮 23336103 AI Agent知识检索 你们提到使用 RAG 知识引擎,那么知识库更新后,系统如何保证检索结果的时效性和一致性?如果检索到的内容之间互相冲突,大模型最终会如何决定采用哪部分知识? 本项目是一个集成工作,如果只能用一句话来描述最核心的创新,它是什么? HyDE 扩展提示词后,如何避免检索到看似相关但实际错误的内容?
李博阳 23336105
李兆然 23336123
12 杨希凯 23336281 图像和音频冲突 如果模态存在冲突,如何融合和消岐? 你们设计的问题类型会直接影响测试结果。例如,如果问题更容易从图像中回答,模型可能天然偏向视觉。你们是如何避免 evaluation bias 的?有没有保证音频和视觉分别都足以独立回答问题? 如果发现模型偏向某一模态,后续准备用数据增强、奖励设计还是结构改进来修正?
张文翔 23336310
13 王嘉葆 23336226 vggt+vla 触觉、视觉和 3D 点云模态信息冲突时,模型如何决定相信哪一个? 你们提到触觉信息会作为引导输入到 VLA,但触觉和视觉属于不同模态,时间尺度和数据形式差异很大。系统是如何完成视觉—触觉对齐的?例如机器人抓取失败时,触觉反馈会如何实时影响后续动作生成? 如果我们要预测未来复杂的几何和物理,模型容量怎么解决?如何构建触觉世界模型?
郑晋凯 23336329
14 张景翔 23336304 动画面部表情控制 这个方法相比传统的 motion capture 或直接端到端生成,真正新增的价值是什么?如果最后还需要人工反复调整,那你们的自动化贡献到底有多少,效率提升是否真的成立? 在本项目中,哪一部分是多模态大模型?大模型要求模型要大。你们提到的LLM控制和使用工具是怎么实现的? AU/FACS 标准如何映射到最终动画控制参数?中间是否需要人工校准?
15 罗语涵 23336177 双视频跨视角 第一+第三人称视角QA的真实有现实意义应用是什么?如何剪辑成一段视频? 你们虽然进行了同步采样,但现实中两个视频可能存在时间偏移、遮挡或者动作不同步的问题。系统如何处理这种跨视角 temporal misalignment? 把来自不同视频的片段拼接成相同长度后,如何保证时间连续性和动作逻辑不被破坏?
16 钟泓瑨 23336338 文本生成长视频 如何保证video clip之间的视觉连贯?如何保证逻辑连贯? 你们采用自回归方式不断生成分镜,但长视频生成最大的难点之一就是误差累积。前面某个镜头人物长歪了、动作错了,后面往往会一路崩掉。你们的方法怎么避免这种 error propagation? VLM引导如何使分镜之间的角色、场景和物体状态保持一致?
刘信杰 23336160
吴睿 23336251
肖金洋 22360300
周嘉尉 23336348
17 王宇晨 23336013 多模态CoT解几何题 预定义绘图函数是如何确定覆盖范围的?对于预定义函数之外的辅助构造方式,模型会如何处理?有没有考虑让模型自主组合已有工具来覆盖这类情况? 如何从视觉变成代码的状态?如何保证视觉推理的准确性? 修正机制如何设计?如果没有明确的错误检测标准,模型怎么知道自己哪里画错了?
陈政宇 23336003
18 李成著 23336108 压缩多模态记忆 多模态记忆压缩时,哪些信息必须保留,哪些可以丢弃?判断标准是什么? 你们提出的是“非均匀模糊记忆系统”,那么这个记忆最终是服务于什么任务?例如视觉导航、长期视频理解还是机器人决策?不同任务对“关键信息”的定义不同,你们的方法是否需要针对具体任务重新设计信息密度指标? 多模态压缩是token压缩吗?图像内容怎么算记忆?SAM也要花时间,如果考虑SAM的计算复杂度,你们的压缩算法的总体复杂度是不是还变高了?
吴深荣 23336252
黄梓城 23331059
19 皮璇 23331114 教育数字化 如何避免幻觉?长视频的细节内容(知识)如何精确获取和保持? 多模态大模型本身已经能直接处理图文视频输入了,那你们系统相比直接调用现有 VLM 的增量价值是什么? 如果限定来源在教材,模型回答时如何防止引入教材外知识或幻觉?
丁奕轩 23331029
杜翊菲 23336062
陈碧凡 23336030
20 徐观炼 23336267 svg海报生成 如何评估生成 SVG 的可编辑性和空间正确性? 如何评价生成海报的质量?有没有考虑过视觉层次、排版美感、商业设计规范这些更主观但真实存在的问题? 创新在哪里?只是interSVG的工程复现?还是在复现的基础上,加入创新技术?
梁仲禧 23336129
钟俊喆 23336339
21 孙尔得吉 23306073 遥感开放词汇多时序变化检测 和逆动力学(IDM)之间有什么联系?如果我们想学习和训练模型,如何获取监督标签? 构建新数据集时如何定义positive、hard negative? 如何让模型区分"季节性外观变化"和"真实地表变动"?自然语言查询在这里能起到多大的消歧作用?
22 范益嘉 23336064 Unified Model多步思维链 reward 信号是怎么定义的?对于生成任务(如图像生成),生成质量本身就难以量化,你们打算如何构造一个对思维链中间步骤也有效的 reward? 你们有没有做过和直接端到端编辑模型的对比,证明这种“交错思考”带来的收益足以抵消额外开销和稳定性风险(比如错误累积等)? 图像生成获编辑中,尤其是图像生成中,考虑先生成Mermaid 再生成图像,这有利于大的编辑(例如生图的逻辑发生很大的变化)。你这里如何考虑这种大的编辑?
23 卢思源 23336168 学术论文多模态RAG问答系统 你的方法中,哪一机制(方法论和理论层面)可以提高非文本的能力? 重排序阶段的打分依据是什么,怎样证明它真正提升了复杂学术问题的召回和排序,而不是只是把结果再加工了一遍? 你们提出分层多模态解析来区别于直接 OCR 纯文本,那么这个"分层"具体是按什么维度划分的?公式、图表、普通文本分别走哪条解析路径?各层之间的解析结果如何统一表示以便后续检索?
刘沛浩 23336156
24
25 谭天喆 23336219 多模态长文档问答 你们设计了三层记忆结构,那么每一层的边界是如何定义的?是按照信息粒度(如词、句、页、章节)划分,还是按照其他标准?如果记忆层次边界本身是模糊的,划分错误会如何影响后续的路由和问答? 怎么保证层次化的记忆一定可以更好地记忆? cross-page attention graph,怎么证明它真的学到了跨页引用关系,而不是仅仅把相邻页面的信息硬连起来?
26 郑思扬 23336331 物理流体模拟 如何实现Sim2Real? 如果高质量流体渲染数据主要来自模拟环境,模型在真实游戏场景或者不同渲染引擎中是否会存在泛化问题? 物理代理提取的信息包括哪些变量,比如速度场、压力场、密度场?
钟旺烜 23336342
赵施琦 23336324
严浩文 23354177
郭靖宇 23320048
27 王文博 23336230 三模态融合手部感知VLA 如何检测和防止模型坍缩到某一单一模态?对比损失和重建损失分别承担什么角色,两者如何协同避免坍缩? Egocentric video 中存在大量快速运动、遮挡和视角变化。很多时候目标物体甚至只出现几帧。你们的方法如何保证构建出的记忆不会受到这些噪声的干扰? 触觉怎么表征?怎么保证人机之间的泛化鸿沟?怎么保证这些loss能够正确对齐动作?
平泽玉 23336196
吴显镔 23330137
28 欧镇滔 23336189 基于RAG的多模态水果营养健康系统 怎么保证高质量地构建这样的数据库?仅靠大模型来进行标注吗? 市面大模型对于营养知识回答上存在幻觉风险。你们如何保证检索结果真的比模型原生回答更可靠? 光线差异导致品种识别出错是你们列出的挑战,那么在数据和模型设计上,你们打算如何提升识别鲁棒性?
29 王一茗 23336234 同态加密与多模态识别的融合 你们通过投影矩阵将不同模态映射到同一特征空间,那么这个投影矩阵是如何训练的?对齐的监督信号来自哪里? 如何在安全性、检索精度和实时性之间取得平衡?有没有实验比较不同加密参数下的性能变化? 密文乘法同态性是怎么保证多模态对齐的?在本项目中,算法创新和多模态大模型的是直接关联的吗?
30