在这个项目中,我构建了启用语音的可教机器,该机器可以扫描书页或任何文本源中的文本并将其转换为上下文,用户可以提出与该上下文有关的问题,并且该机器可以仅使用上下文进行回答。我一直想制造一种易于部署且可以轻松针对给定上下文进行培训而无需任何互联网连接的边缘设备。
硬件部件:
- Raspberry Pi 4 B型×1个
- 英特尔神经计算棒2×1个
- Seeed ReSpeaker 2-麦克风Pi HAT×1个
- Raspberry Pi摄像头模块V2×1个
- 喇叭3W x 2×1个
- 树莓派Raspbian
- 英特尔OpenVINO工具包
- Tesseract OCR
- 深度语音
应用程序中使用的机器学习模型
使用了三种机器学习模型:
1. Tesseract OCR(基于LSTM的模型)
Tesseract是一种OCR引擎,支持unicode,并具有开箱即用地识别100多种语言的能力。可以训练它识别其他语言。
2. DeepSpeech(TensorFlow Lite型号)
DeepSpeech是一个开源的语音转文本引擎,使用由机器学习技术训练的模型,该模型由Google的TensorFlow简化实施。
3. BERT
BERT是一种语言表示模型,代表变压器的双向编码器表示。预训练的BERT模型仅需增加一个输出层即可进行微调,以创建适用于各种任务(例如问题解答和语言推论)的最新模型,而无需进行大量针对特定任务的体系结构修改。
前两个模型在Raspberry Pi 4上运行,最后一个模型在使用OpenVINO Toolkit的Intel Neural Compute Stick 2上运行。