6 min read

November 23, 2025

1117-1123

Journel

1117-1123

由于各种个人原因与客观因素,很久没有写周记了,于是从这周开始重拾周记的习惯。

文献分享

  1. 《Aligning machine and human visual representations across abstraction levels》
  2. 《Multi-dataset joint pre-training of emotional EEG enables generalizable affective computing》
  3. 《A foundation model for enhancing magnetic resonance images and downstream segmentation, registration and diagnostic tasks》
  4. 《HARMONIZING MULTI-SITE MULTI-SEQUENCE BRAIN MRI VIA SEMANTIC-GUIDED CONDITIONAL DIFFUSION》

本周进展

  1. 调研并构建ICL三阶段(图生文、文生图、凭空生文)的客观评价指标

明确文生图阶段的核心评价从“单图prompt遵从度”转向特征空间统计差异性,重点设计了特征维度的量化指标: 使用RETFound提取真实与生成视网膜图像的特征向量; 通过t-SNE可视化、直方图对比、CDF(累积分布函数)分析,评估生成数据与真实数据在特征空间的分布相似性; 设计5轮随机抽样(每轮2万图像),计算平均分布以降低抽样偏差,提升统计可靠性。

  1. 建立文生图方法的增强策略与数据比例关系设计

探索基于真实图像的mask补全与img2img引导生成路径,认为其比纯随机扰动更稳定、可解释; 明确生成策略:为每张真实图像生成10张增强版本(带对应prompt),通过DA-fusion机制引入引导信息,提升生成质量与可比性; 初步设定合成数据与真实数据比例关系为1:10(参考现有文献),并计划在下游任务中验证该比例下的性能表现。

  1. 设计下游任务基准与多站点效应评估方案

明确下游任务类型包括:图像分类、图像检索、多模态对齐等,需结合昆虫图像与MDD相关任务设计; 规划在训练集中引入未见昆虫种类(如5~10类),以检验模型对未知类别的泛化能力; 制定增强质量标准:在特征空间分布一致性、语义一致性、视觉真实性三个维度进行多粒度评估。

  1. 梳理并分类现有消除多站点效应的方法

整理传统方法(如DA、Fusion)、GAN类(如CycleGAN)、Transformer类(如Swin-DA)、VAE类(如VAE-DA)等主流方法; 列出代表性论文案例(如Nature 2024、2025相关工作),为后续方法对比与创新提供基准参考。

  1. 针对昆虫与MDD场景的特殊性进行技术适配

认识到昆虫生殖器图像在CLIP中语义稀疏、类别繁多,需通过textual inversion方式微调类别token嵌入,增强类别区分能力; 针对MDD任务,设计多站点数据分布空间距离缩小的定量指标,包括: 两站点间特征空间距离(如FID、KS检验); 一致性损失函数(如KL散度); 用于验证多站点差异是否被有效削弱。

  1. 技术资源与团队协作安排明确

解决A100 GPU资源问题:方案为自购2张5090显卡进行训练,后期申请报销,保障模型微调(如SD v1.4)在大规模数据集上的可行性; 启动组会流程规范:由俊峰牵头,按“文献调研→进度汇报→下周规划”流程开展每周组会,提升团队协作效率与透明度。

下周规划

  1. 完成三维深度感知的实验报告大作业(due on 11.30)
  2. 完成上周五《脑信号处理实验》的实验报告(在等SEED数据集)
  3. 完成真实昆虫数据库的制备(Workflow: 传统CV先验➕可选SAM精标)
  4. 摸索昆虫Captioning的合成方法(finetuning or ICL based on RL)
  5. 进行昆虫图片集的增广(DA-fusion) -> 效果图放组会汇报
  6. 尝试基于最新的Diffusion和foundation model路径建立消除Site-effect的模型框架
  7. 探索建立我们的昆虫预训练模型框架
  8. 道德类脑重大科技专项上海启动仪式筹备工作(车票➕明确项目需求)

启发与感悟

对个人角色定位有了更准确的认识
时常进行reflection以及方法论的总结
在工位上办公效率大大提高了
Mac mini好评


This post was created using the automated script.