5 min read

July 9, 2025

6.30-7.06

Journal

时间线

2025年6月30日 (星期一) - 天气:雨

今天是实习的第一天,上午由实习单位的负责人在大会议室发布了项目任务,随后与指导老师在小会议室进行讨论。我们小组的任务是实现一个结合视频和文本模态的AI工具,用于生成PPT。我的任务是负责语音识别单元,并采用OpenAI的Whisper-v3-large-turbo模型进行音频转写。通过初步的测试,验证了方案的可行性,顺利完成了第一天的工作。

2025年7月1日 (星期二) - 天气:多云

第二天,我对Whisper模型的处理流程进行了批处理扩展。然而,随着测试音频时长的增加,处理时间显著增加,影响了实时性。为此,我探索了阿里开源的SenseVoice模型,发现其性能较好。在此基础上,我将两个模型进行了整合,为用户提供了音频质量的自定义选项,进一步优化了代码。

2025年7月2日 (星期三) - 天气:多云

今天,我们小组的项目正式命名为《言影智绘工坊-基于多模态知识源的智能教学课件生成》。通过测试党的革命事业上的文艺工作者的相关视频、图片和文档材料,我们的项目取得了阶段性成果。领导对项目进展高度关注,并对我们未来的工作提出了期望,我们将继续推进项目落地。

2025年7月3日 (星期四) - 天气:多云

今天,我尝试通过并行进程优化了现有算法的效率,尤其是在处理多条长语音时,利用多核CPU进行并行处理,大大提高了处理速度。我还探索了下游任务的接口和格式对接,并为下游知识融合小组提供了文本转写结果,帮助他们进行纠错和信息提取。通过这些努力,我们完成了PPT的第一版,尽管效果还有待提高,但流程已经顺畅。

2025年7月4日 (星期五) - 天气:多云

在实习的最后一天,我对语音转写模块进行了进一步优化,采用长音频分割并行处理的方式,提高了30%-50%的效率。我还调用了通义千问的API,进行语法及语义的纠错,保证了文本转写的连贯性。今天,我们完成了“小组一条龙”的演示,虽然成果还需进一步完善,但我对下周的工作充满信心。

里程碑

  • 完成了语音转写模块的初步构建,并验证了可行性。
  • 优化了多语音并行处理的效率,提升了整体性能。
  • 完成了第一版PPT的制作,尽管效果有待提升,但流程已通畅。

Conclusion

实习的第一周,我在项目中担任语音识别单元的负责人,已经初步完成了任务分配并取得了阶段性成果。通过不断优化技术和与团队成员的协作,我们已经打下了坚实的基础,并且收到了领导的高度关注和认可。虽然还有很多挑战,但我对接下来的实习充满信心,期待能够在接下来的时间里继续推动项目发展。

This post was created using the automated script.