关于前端:基于语音识别的翻译系统

47次阅读

共计 798 个字符,预计需要花费 2 分钟才能阅读完成。


从这个页面来看,应用到的前端框架是 Bootstrap;从设计的题目来看有两个根底的性能:辨认和翻译,应用 Python 调用接口实现。再通过 Web 框架——Flask 将前后端联合。我的项目部署在文章中“三丰云”提供的收费虚拟主机和收费云服务器中,应用 Nginx 和 uWSGI 作服务器。

 首先,花 1 分钟讲述应用接口的条件和返回的后果,再依据条件和后果配合流程和界面。调用接口都是须要一把钥匙,示意能够调用和调用的是什么类型。语音辨认返回的后果能够设定一些参数来筛选,比方,是否依据语义断句。假如总共有二十句话,这个后果对象 Result 对应二十条数据,每一条数据包含开始工夫、完结工夫和文本内容。再通过遍历将每一条数据的文本内容应用翻译接口失去翻译文本,最初存储在 MongoDB 数据库中。登录注册进入用户首页,点击新建,依据是视频还是音频,是否进行翻译抉择我的项目类型。所以首页左上角“全副”“视频”“音频”是三个页面,对应我的项目类型。这个三个页面在导航栏是这样辨别的,比方“视频”标签 id 为 index0,应用 JavaScript 将页面继承的 base 模板(模板 base.html)中 id 为 index0 的 class 赋值为激活,体现为选中的状态。新建一个我的项目进行辨认和翻译。能够看到提醒是短少对应的引擎,点击进入引擎信息填写并提交。提交胜利后主动返回首页,也能够在用户核心进行信息增加和删除。新建我的项目能够填写我的项目名,在下拉框从已增加的引擎中抉择,在本地文件中抉择视频文件最初提交,页面将跳转回首页显示已提交的我的项目。这时程序应用“FFmpeg”将视频转换为合乎接口应用的 16K 采样率的 wav 音频,失去视频的第一帧作为的封面,获取视频时长,如果上传音频则采纳默认图片作为封面。这些信息和信息的门路称为 Projects 文档被存储在 MongoDB 数据库中供后续拜访,还存储了其余信息,应用到的时候再介绍。

正文完
 0