加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入

具有语音功能的机器,可阅读书籍并回答问题

2020/09/24
531
服务支持:
技术交流群

完成交易后在“购买成功”页面扫码入群,即可与技术大咖们分享疑惑和经验、收获成长和认同、领取优惠和红包等。

虚拟商品不可退

当前内容为数字版权作品,购买后不支持退换且无法转移使用。

加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论
放大
方块图(2)
  • 方案介绍
  • 相关文件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

在这个项目中,我构建了启用语音的可教机器,该机器可以扫描书页或任何文本源中的文本并将其转换为上下文,用户可以提出与该上下文有关的问题,并且该机器可以仅使用上下文进行回答。我一直想制造一种易于部署且可以轻松针对给定上下文进行培训而无需任何互联网连接的边缘设备。

硬件部件:

  • Raspberry Pi 4 B型×1个
  • 英特尔神经计算棒2×1个
  • Seeed ReSpeaker 2-麦克风Pi HAT×1个
  • Raspberry Pi摄像头模块V2×1个
  • 喇叭3W x 2×1个

软件应用程序和在线服务:

  • 树莓派Raspbian
  • 英特尔OpenVINO工具包
  • Tesseract OCR
  • 深度语音

应用程序中使用的机器学习模型

使用了三种机器学习模型:

1. Tesseract OCR(基于LSTM的模型)

Tesseract是一种OCR引擎,支持unicode,并具有开箱即用地识别100多种语言的能力。可以训练它识别其他语言。

2. DeepSpeech(TensorFlow Lite型号)

DeepSpeech是一个开源的语音转文本引擎,使用由机器学习技术训练的模型,该模型由Google的TensorFlow简化实施。

3. BERT

BERT是一种语言表示模型,代表变压器的双向编码器表示。预训练的BERT模型仅需增加一个输出层即可进行微调,以创建适用于各种任务(例如问题解答和语言推论)的最新模型,而无需进行大量针对特定任务的体系结构修改。

前两个模型在Raspberry Pi 4上运行,最后一个模型在使用OpenVINO Toolkit的Intel Neural Compute Stick 2上运行。

  • techable_machine_trJoUnilFN.jpg
    描述:原理图截图
  • TeachableMachine-master.zip
    描述:源码
  • 项目详情.pdf
    描述:项目细节
英特尔

英特尔

英特尔在云计算、数据中心、物联网和电脑解决方案方面的创新,为我们所生活的智能互连的数字世界提供支持。

英特尔在云计算、数据中心、物联网和电脑解决方案方面的创新,为我们所生活的智能互连的数字世界提供支持。收起

查看更多

相关推荐

电子产业图谱