| 1 |
罗喆熙 |
22320090 |
课程内容的问答 |
你们构建 MMCourse-VQA benchmark 如何保证问题覆盖面、难度分布,以及不会出现和训练数据泄漏重叠的情况? |
怎么保证模型一定遵循图像条件,而不是进入语言捷径? |
PPT 里文字信息很多,怎么区分模型是 OCR/读文本得到答案,还是真正理解了图像内容? |
| 王艺翔 |
21307243 |
| 潘胤臻 |
23336191 |
| 魏昊瑜 |
23336242 |
|
|
| 2 |
蔡文翔 |
23336023 |
多视角一致性 |
相机编码是直接作为条件输入,还是影响注意力/特征融合?如果相机参数有噪声会怎样? |
你们使用 Blender 渲染数据集时,是如何保证数据分布能够泛化到真实世界图像的?如果训练数据主要是合成数据,那么模型在真实人物或真实场景上的效果会不会出现 domain gap 问题? |
这是一个经典的计算机视觉问题。位姿控制是计算机视觉中的经典问题。这可能不属于多模态大模型的问题。 |
| 范翔烺 |
23336004 |
| 冯树佳 |
24312056 |
|
|
|
|
| 3 |
常淇博 |
23336028 |
口腔辅助诊断 |
如何获取相应的数据?如何抑制幻觉问题? |
口腔诊断非常依赖图像质量和病例完整性,但真实场景里常常会遇到模糊照片、角度不标准、文本病例不规范甚至缺失。你们的方法在模态缺失或低质量输入下还能稳定工作吗? |
生成诊断说明时,如何避免模型给出过度自信或不符合临床规范的建议? |
|
|
|
|
|
|
|
|
| 4 |
丁子航 |
23312014 |
x-aigd |
多模态大模型辅助真假判断时,如何避免它只学到数据集偏差而不是可见伪影? |
你们提到模型能够利用“世界知识”判断阴影、光照、物理规律是否合理,那么如何验证模型是真的学到了物理一致性,而不是仅仅记住了训练集中常见的伪造模式? |
负样本一定是有伪影吗?没有伪影的负样本是不是也可考虑? |
|
|
|
|
|
|
|
|
| 5 |
翁國圍 |
23336246 |
金融财报 |
怎么评测分析分类的准确性? |
你们提到银行、保险、证券行业的资产负债表与普通企业差异很大,那么模型如何处理这种行业间术语和财务结构的不一致?如果遇到新的财务术语怎么办? |
财报图表、表格和正文三类信息分别怎么抽取和对齐? |
|
|
|
|
|
|
|
|
| 6 |
徐泓昊 |
23336017 |
文本生成可打印性3Dmesh |
可打印性的约束是怎么可微地加进来?可打印性怎么用数学来定义? |
你们提到使用 trimesh 自动构造训练数据而不依赖人工标注,那么正负样本是怎么生成的?例如,一个 mesh 是如何被判定为“适合打印”或者“不适合打印”的,以及如何解决自动标签噪声的问题? |
Trellis 到 MeshAnything 的中间点云会不会丢失细节,如何评估几何质量?如何定义可打印性? |
| 吴修远 |
23336255 |
| 覃司翰 |
23336217 |
| 张浩宇 |
23336301 |
|
|
|
|
| 7 |
杨鑫 |
23336284 |
连续空间下的扩散语言模型 |
你们的方法是非自回归、并行生成整段文本的,但自然语言本身具有很强的时序依赖关系。那么模型如何保证生成文本的前后逻辑一致性和长程依赖,而不会出现局部合理但整体混乱的问题? |
生成的结果,如果是图像,怎么转成文本?bit表达之间,怎么考虑距离的正交性? |
受限 bit 位会不会导致表达能力不足? |
|
|
|
|
|
|
|
|
| 8 |
刘昊 |
23336150 |
老人家庭监护 |
这是小模型还是大模型?和端到端大模型对比,有什么优势? |
如何定义“风险等级”的标签?这些标签是由人工专家标注、规则生成,还是基于历史事件数据?如果标签本身存在主观性,会不会影响模型训练? |
老人安全事件属于低频事件,怎么解决训练数据不平衡? |
| 陈大有 |
23336033 |
| 刘国龙 |
23336149 |
|
|
|
|
| 9 |
甘善铭 |
23336005 |
多模态语义素材库 |
端到端模型可以直接把图作为输入,直接给出分析结果;现在你们的方法先进行分割,再把分割结果进行分析,是不是更落后了?如果分割本身就有错误,会影响后面的分析。 |
有没有和直接做 image-text embedding 检索的方法做过对比,特别是在复杂查询、细粒度查询上的提升?
|
为什么一定要先分割再检索?直接用全图 embedding 或检测框检索有什么不足? |
| 罗杰 |
23336008 |
| 梁皓明 |
23336127 |
| 罗金浩 |
23336009 |
| 胡明瀚 |
23336088 |
| 10 |
王宇和 |
22355082 |
三平面机器人 |
指令编码和 3D 特征是在哪一层融合的?融合方式会影响空间定位能力吗? |
机器人通过多个相机观察场景时,不同视角之间需要进行空间对齐。你们的方法是如何完成多视角融合的?如果相机存在标定误差或者部分视角缺失,TPV 表征是否还能稳定构建 3D 场景认知? |
操作的精度,依赖于3D的精度吗?3D表示的精度,天然就很难,如何克服? |
|
|
|
|
|
|
|
|
| 11 |
雷颜玮 |
23336103 |
AI Agent知识检索 |
你们提到使用 RAG 知识引擎,那么知识库更新后,系统如何保证检索结果的时效性和一致性?如果检索到的内容之间互相冲突,大模型最终会如何决定采用哪部分知识? |
本项目是一个集成工作,如果只能用一句话来描述最核心的创新,它是什么? |
HyDE 扩展提示词后,如何避免检索到看似相关但实际错误的内容? |
| 李博阳 |
23336105 |
| 李兆然 |
23336123 |
|
|
|
|
| 12 |
杨希凯 |
23336281 |
图像和音频冲突 |
如果模态存在冲突,如何融合和消岐? |
你们设计的问题类型会直接影响测试结果。例如,如果问题更容易从图像中回答,模型可能天然偏向视觉。你们是如何避免 evaluation bias 的?有没有保证音频和视觉分别都足以独立回答问题? |
如果发现模型偏向某一模态,后续准备用数据增强、奖励设计还是结构改进来修正? |
| 张文翔 |
23336310 |
|
|
|
|
|
|
| 13 |
王嘉葆 |
23336226 |
vggt+vla |
触觉、视觉和 3D 点云模态信息冲突时,模型如何决定相信哪一个? |
你们提到触觉信息会作为引导输入到 VLA,但触觉和视觉属于不同模态,时间尺度和数据形式差异很大。系统是如何完成视觉—触觉对齐的?例如机器人抓取失败时,触觉反馈会如何实时影响后续动作生成? |
如果我们要预测未来复杂的几何和物理,模型容量怎么解决?如何构建触觉世界模型? |
| 郑晋凯 |
23336329 |
|
|
|
|
|
|
| 14 |
张景翔 |
23336304 |
动画面部表情控制 |
这个方法相比传统的 motion capture 或直接端到端生成,真正新增的价值是什么?如果最后还需要人工反复调整,那你们的自动化贡献到底有多少,效率提升是否真的成立? |
在本项目中,哪一部分是多模态大模型?大模型要求模型要大。你们提到的LLM控制和使用工具是怎么实现的? |
AU/FACS 标准如何映射到最终动画控制参数?中间是否需要人工校准? |
|
|
|
|
|
|
|
|
| 15 |
罗语涵 |
23336177 |
双视频跨视角 |
第一+第三人称视角QA的真实有现实意义应用是什么?如何剪辑成一段视频? |
你们虽然进行了同步采样,但现实中两个视频可能存在时间偏移、遮挡或者动作不同步的问题。系统如何处理这种跨视角 temporal misalignment? |
把来自不同视频的片段拼接成相同长度后,如何保证时间连续性和动作逻辑不被破坏? |
|
|
|
|
|
|
|
|
| 16 |
钟泓瑨 |
23336338 |
文本生成长视频 |
如何保证video clip之间的视觉连贯?如何保证逻辑连贯? |
你们采用自回归方式不断生成分镜,但长视频生成最大的难点之一就是误差累积。前面某个镜头人物长歪了、动作错了,后面往往会一路崩掉。你们的方法怎么避免这种 error propagation? |
VLM引导如何使分镜之间的角色、场景和物体状态保持一致? |
| 刘信杰 |
23336160 |
| 吴睿 |
23336251 |
| 肖金洋 |
22360300 |
| 周嘉尉 |
23336348 |
| 17 |
王宇晨 |
23336013 |
多模态CoT解几何题 |
预定义绘图函数是如何确定覆盖范围的?对于预定义函数之外的辅助构造方式,模型会如何处理?有没有考虑让模型自主组合已有工具来覆盖这类情况? |
如何从视觉变成代码的状态?如何保证视觉推理的准确性? |
修正机制如何设计?如果没有明确的错误检测标准,模型怎么知道自己哪里画错了? |
| 陈政宇 |
23336003 |
|
|
|
|
|
|
| 18 |
李成著 |
23336108 |
压缩多模态记忆 |
多模态记忆压缩时,哪些信息必须保留,哪些可以丢弃?判断标准是什么? |
你们提出的是“非均匀模糊记忆系统”,那么这个记忆最终是服务于什么任务?例如视觉导航、长期视频理解还是机器人决策?不同任务对“关键信息”的定义不同,你们的方法是否需要针对具体任务重新设计信息密度指标? |
多模态压缩是token压缩吗?图像内容怎么算记忆?SAM也要花时间,如果考虑SAM的计算复杂度,你们的压缩算法的总体复杂度是不是还变高了? |
| 吴深荣 |
23336252 |
| 黄梓城 |
23331059 |
|
|
|
|
| 19 |
皮璇 |
23331114 |
教育数字化 |
如何避免幻觉?长视频的细节内容(知识)如何精确获取和保持? |
多模态大模型本身已经能直接处理图文视频输入了,那你们系统相比直接调用现有 VLM 的增量价值是什么? |
如果限定来源在教材,模型回答时如何防止引入教材外知识或幻觉? |
| 丁奕轩 |
23331029 |
| 杜翊菲 |
23336062 |
| 陈碧凡 |
23336030 |
|
|
| 20 |
徐观炼 |
23336267 |
svg海报生成 |
如何评估生成 SVG 的可编辑性和空间正确性? |
如何评价生成海报的质量?有没有考虑过视觉层次、排版美感、商业设计规范这些更主观但真实存在的问题? |
创新在哪里?只是interSVG的工程复现?还是在复现的基础上,加入创新技术? |
| 梁仲禧 |
23336129 |
| 钟俊喆 |
23336339 |
|
|
|
|
| 21 |
孙尔得吉 |
23306073 |
遥感开放词汇多时序变化检测 |
和逆动力学(IDM)之间有什么联系?如果我们想学习和训练模型,如何获取监督标签? |
构建新数据集时如何定义positive、hard negative? |
如何让模型区分"季节性外观变化"和"真实地表变动"?自然语言查询在这里能起到多大的消歧作用? |
|
|
|
|
|
|
|
|
| 22 |
范益嘉 |
23336064 |
Unified Model多步思维链 |
reward 信号是怎么定义的?对于生成任务(如图像生成),生成质量本身就难以量化,你们打算如何构造一个对思维链中间步骤也有效的 reward? |
你们有没有做过和直接端到端编辑模型的对比,证明这种“交错思考”带来的收益足以抵消额外开销和稳定性风险(比如错误累积等)? |
图像生成获编辑中,尤其是图像生成中,考虑先生成Mermaid 再生成图像,这有利于大的编辑(例如生图的逻辑发生很大的变化)。你这里如何考虑这种大的编辑? |
|
|
|
|
|
|
|
|
| 23 |
卢思源 |
23336168 |
学术论文多模态RAG问答系统 |
你的方法中,哪一机制(方法论和理论层面)可以提高非文本的能力? |
重排序阶段的打分依据是什么,怎样证明它真正提升了复杂学术问题的召回和排序,而不是只是把结果再加工了一遍? |
你们提出分层多模态解析来区别于直接 OCR 纯文本,那么这个"分层"具体是按什么维度划分的?公式、图表、普通文本分别走哪条解析路径?各层之间的解析结果如何统一表示以便后续检索? |
| 刘沛浩 |
23336156 |
|
|
|
|
|
|
| 24 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 25 |
谭天喆 |
23336219 |
多模态长文档问答 |
你们设计了三层记忆结构,那么每一层的边界是如何定义的?是按照信息粒度(如词、句、页、章节)划分,还是按照其他标准?如果记忆层次边界本身是模糊的,划分错误会如何影响后续的路由和问答? |
怎么保证层次化的记忆一定可以更好地记忆? |
cross-page attention graph,怎么证明它真的学到了跨页引用关系,而不是仅仅把相邻页面的信息硬连起来? |
|
|
|
|
|
|
|
|
| 26 |
郑思扬 |
23336331 |
物理流体模拟 |
如何实现Sim2Real? |
如果高质量流体渲染数据主要来自模拟环境,模型在真实游戏场景或者不同渲染引擎中是否会存在泛化问题? |
物理代理提取的信息包括哪些变量,比如速度场、压力场、密度场? |
| 钟旺烜 |
23336342 |
| 赵施琦 |
23336324 |
| 严浩文 |
23354177 |
| 郭靖宇 |
23320048 |
| 27 |
王文博 |
23336230 |
三模态融合手部感知VLA |
如何检测和防止模型坍缩到某一单一模态?对比损失和重建损失分别承担什么角色,两者如何协同避免坍缩? |
Egocentric video 中存在大量快速运动、遮挡和视角变化。很多时候目标物体甚至只出现几帧。你们的方法如何保证构建出的记忆不会受到这些噪声的干扰? |
触觉怎么表征?怎么保证人机之间的泛化鸿沟?怎么保证这些loss能够正确对齐动作? |
| 平泽玉 |
23336196 |
| 吴显镔 |
23330137 |
|
|
|
|
| 28 |
欧镇滔 |
23336189 |
基于RAG的多模态水果营养健康系统 |
怎么保证高质量地构建这样的数据库?仅靠大模型来进行标注吗? |
市面大模型对于营养知识回答上存在幻觉风险。你们如何保证检索结果真的比模型原生回答更可靠? |
光线差异导致品种识别出错是你们列出的挑战,那么在数据和模型设计上,你们打算如何提升识别鲁棒性? |
|
|
|
|
|
|
|
|
| 29 |
王一茗 |
23336234 |
同态加密与多模态识别的融合 |
你们通过投影矩阵将不同模态映射到同一特征空间,那么这个投影矩阵是如何训练的?对齐的监督信号来自哪里? |
如何在安全性、检索精度和实时性之间取得平衡?有没有实验比较不同加密参数下的性能变化? |
密文乘法同态性是怎么保证多模态对齐的?在本项目中,算法创新和多模态大模型的是直接关联的吗? |
|
|
|
|
|
|
|
|
| 30 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|