July 9, 2025

6.30-7.06

Journal

时间线

2025年6月30日 (星期一) - 天气：雨

今天是实习的第一天，上午由实习单位的负责人在大会议室发布了项目任务，随后与指导老师在小会议室进行讨论。我们小组的任务是实现一个结合视频和文本模态的AI工具，用于生成PPT。我的任务是负责语音识别单元，并采用OpenAI的Whisper-v3-large-turbo模型进行音频转写。通过初步的测试，验证了方案的可行性，顺利完成了第一天的工作。

2025年7月1日 (星期二) - 天气：多云

第二天，我对Whisper模型的处理流程进行了批处理扩展。然而，随着测试音频时长的增加，处理时间显著增加，影响了实时性。为此，我探索了阿里开源的SenseVoice模型，发现其性能较好。在此基础上，我将两个模型进行了整合，为用户提供了音频质量的自定义选项，进一步优化了代码。

2025年7月2日 (星期三) - 天气：多云

今天，我们小组的项目正式命名为《言影智绘工坊-基于多模态知识源的智能教学课件生成》。通过测试党的革命事业上的文艺工作者的相关视频、图片和文档材料，我们的项目取得了阶段性成果。领导对项目进展高度关注，并对我们未来的工作提出了期望，我们将继续推进项目落地。

2025年7月3日 (星期四) - 天气：多云

今天，我尝试通过并行进程优化了现有算法的效率，尤其是在处理多条长语音时，利用多核CPU进行并行处理，大大提高了处理速度。我还探索了下游任务的接口和格式对接，并为下游知识融合小组提供了文本转写结果，帮助他们进行纠错和信息提取。通过这些努力，我们完成了PPT的第一版，尽管效果还有待提高，但流程已经顺畅。

2025年7月4日 (星期五) - 天气：多云

在实习的最后一天，我对语音转写模块进行了进一步优化，采用长音频分割并行处理的方式，提高了30%-50%的效率。我还调用了通义千问的API，进行语法及语义的纠错，保证了文本转写的连贯性。今天，我们完成了“小组一条龙”的演示，虽然成果还需进一步完善，但我对下周的工作充满信心。

里程碑

完成了语音转写模块的初步构建，并验证了可行性。
优化了多语音并行处理的效率，提升了整体性能。
完成了第一版PPT的制作，尽管效果有待提升，但流程已通畅。

Conclusion

实习的第一周，我在项目中担任语音识别单元的负责人，已经初步完成了任务分配并取得了阶段性成果。通过不断优化技术和与团队成员的协作，我们已经打下了坚实的基础，并且收到了领导的高度关注和认可。虽然还有很多挑战，但我对接下来的实习充满信心，期待能够在接下来的时间里继续推动项目发展。

This post was created using the automated script.