加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 视讯介绍
    • “宿命”之说
    • 我的职业生涯一路向前,没有转折
    • 从产品到解决方案,都在用心做“耳朵”
    • “让万物听说”是使命所在
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

让万物听说,做好声音的“耳朵”

2020/06/10
2702
阅读需 10 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

“宿命”之说

“目前音频压缩算法的码率日趋降低,研究空间相对较窄,主要是在某种算法的基础上对特定应用的改进和定制。音频信号的研究还可以在下列更广阔的方向开展下去:基于信号模型的音频内容描述、特征提取、分类与检索。这些研究可以作为多媒体数据库研究的一个子课题,实现音频数据库的组织和管理,基于内容的音频点播等。在人机交互方面,音频内容的描述可以用于音频一视频信号处理(Audio 一 Visual Signal Processing),实现音视频信号交互、信号对应、信号关连等应用。”

这段文字来源于 2003 年一篇题为《基于正弦+噪声模型的宽带音频信号的表示与压缩》的文章,是今天笔者要介绍的主人公——宋少鹏的硕士毕业论文节选。细读这段文字,一个即将毕业的学生对音频信号未来的发展是有积极想法的,我们似乎就可以清晰地看到这个年轻人将走上的职业生涯道路。

时间是最好的证明,这个从华南理工大学无线电系毕业的小伙子近 20 年来真的就只做了一件事,这件事就是音频信号处理。常有人问他为什么喜欢这个领域、认定这个方向的时候,他都会笑着答道,“儿时的兴趣,我一直对声波、电波充满兴趣,小时候听黑胶唱片,听磁带,就一直想钻进去看看是谁在里面唱歌。此外,我的中文名字宋少鹏的拼音首字母缩写是 SSP,而音频信号处理(Sound Signal Processing)的英文首字母缩写也是 SSP,因此这是一种宿命,很早就注定了的。”

我的职业生涯一路向前,没有转折

上面讲到 2003 年宋少鹏硕士毕业,这一年他放弃了大公司的 offer,选择进入一家以色列芯片公司 Zoran 做软件开发,钻研音频 DSP 技术。值得一提的是,全球第一个全套杜比单芯片解决方案就来自这家公司。

2010 年,他又去了微软亚洲硬件中心,从事硬件产品的研发制造,经手产品包括智能摄像头、Kinnet 体感设备等。

就在 2012 年左右,他发现智能手机、电视、汽车都在向联网化发展,由于给用户带来了丰富的内容、社交和娱乐体验,这些产业得到蓬勃发展。与此同时,音频设备却还没有联网,这在一个专业音频从业者眼中,便是机遇。而眼前急切要弄清楚的是:如何联网?如何承载娱乐和社交?

带着这些思考,还在微软供职的宋少鹏便寻找机会开始尝试,这次尝试不算成功,在他看来,原因有两点,一是当时行业环境还不太成熟,二是大公司的体制存在一定的限制。

宋少鹏在后来接受利器的采访时被问到职业生涯的转折点,他直言不讳地说:“我的职业生涯一路向前,没有转折。”因此,回溯到上述那次不太成功的尝试,摸清原因,认准方向也是他职业道路上的收货,当然不止于此,他还结识了一帮志同道合的朋友。于是在 2013 年的某一天,他带着这个团队毅然决然的开始了他们的创业闯荡。

2014 年,米唐在深圳这个远离中国的政治和经济中心的湾区成立了,他喜欢那里自发式、民营式、创新型的经济模式,大家都来自江西、湖南、江苏、四川、中国各地,移民所带来的一些共同的特质,比如说勇敢、不屈服、创新,这些都与他的团队惺惺相惜。

从产品到解决方案,都在用心做“耳朵”

公司成立初期,产业的不成熟,加上创业公司交付能力的有限,使得米唐没办法短时间内在语音交互领域拿出产品化的东西,基于讯飞 SDK 和谷歌 SDK 的尝试又均不能满足这个团队对产品体验的要求,而一家公司要生存下去就必须要有良好的资金回流,于是他们的第一款产品“方糖音箱”放弃了语音的交互,只保留了两项特殊的“体感”操作方式:轻拍音箱顶部开始播放音乐或暂停,向左或向右倾斜切换上下曲目。

这款音箱通过 WiFi 连接上网,可脱离手机独立工作,并内置了不少音乐电台,比如豆瓣电台、荔枝 FM、还有一些国际电台,同时它还能记录个人喜好,进行智能推荐。若是用户在互动中能会心一笑,那在宋少鹏的眼中,除了趣味更是一种关怀带来的暖意。

“产品就像艺术品,源于生活,高于生活,要从生活中抽象提炼需求,发掘人性。”这与宋少鹏以人性、人文观点来思考产品设计的观点高度契合。但生活要继续,公司更需发展,经济基础决定上层建筑,即使方糖在 2015 年就开始销往海外,并推出了同样设计的蓝牙音箱,以谋取更多的利润,一年数万台的销量还是显得捉襟见肘。

作为一家始终观察着这个领域的创业企业,2015 年底,他们看到了亚马逊的 Echo 和背后的 Alexa 语音交互系统。最初亚马逊 Echo 以 MVP(最小可用原型)的形态交付用户,语音识别和语义理解都仅能满足流媒体播放的简单需求,但是经过一两年的打磨,到了 2016 年,Echo 的体验就好了很多,它既可以提供音频内容,也可以提供生活服务,包括音乐、电台、有声书、新闻、天气、闹钟、日程等。这时候亚马逊也将 Alexa 语音交互平台开放出来,于是米唐团队在第一时间找到了亚马逊。大概花了三四个月的时间,在众多想接入 Alexa 的竞争者中,方糖成为首个通过亚马逊认证的第三方音箱产品。

“通过亚马逊的认证后,Alexa 团队的人就主动找到了我,问我一年能够卖多少,我说几万台,亚马逊就说做他们的技术方案商,可以帮米唐一年卖几百万个解决方案”,宋少鹏回忆称这是亚马逊帮团队找到了方向。于是,一个擅长做技术的团队,开始从做 C 端产品转向做 B 端的方案,并决意将自己定位为聚焦海外市场的语音交互解决方案提供商。

“让万物听说”是使命所在

目前,米唐的业务已扩展到家用电器、汽车和消费电子产品等多个领域,而其核心竞争力是他们的远场语音交互算法,在响应速度、识别率、去噪、声源定位和产品良率方面均做得还不错。

“作为创业狗,在哪都能工作。出差路上的飞行和堵车时的 YY 是获得灵感的方式,出差的时候会带一本书,和一个趁早笔记本。”宋少鹏如是说,“当你做一个事情,真正站在场景和用户的角度去思考,才有可能在价值上有所突破,而当你受制于既得利益时,其实会做很多束缚手脚的事情。”

未来的米唐会发展成怎样,没人可以预判,但“让万物听说”会成为它和它背后的这个团队不变的使命。

----------------

总编推荐:由贸泽电子全力支持,与非网倾力策划推出的第一个产业纪录片视频系列《深圳 Style》,关注奋斗在深圳的电子产业内的创业者们。

如果你看过了上面的视频,会发现我们制作了中英文双语字幕,没错,除了与非网及旗下覆盖本土市场的网络集群,这一系列的视频,我们也会通过 Supplyframe 集团覆盖全球的网络平台进行发布。

我们的观众不止于中国,发出最强音,让中国电子产业者的声音触达更多本土和海外的行业用户,是我们对每一个有情怀、有实力的创业者和实业家的承诺。

如果你自认有足够实力,有故事,想说给人听,欢迎和我们联系,联系方式:editor@supplyframe.cn,或扫描下方二维码,留言请备注:创业者

亚马逊

亚马逊

亚马逊公司(Amazon,简称亚马逊;NASDAQ:AMZN),是美国最大的一家网络电子商务公司,位于华盛顿州的西雅图。是网络上最早开始经营电子商务的公司之一,亚马逊成立于1994年,一开始只经营网络的书籍销售业务,现在则扩及了范围相当广的其他产品,已成为全球商品品种最多的网上零售商和全球第二大互联网企业,在公司名下,也包括了AlexaInternet、a9、lab126、和互联网电影数据库(Internet Movie Database,IMDB)等子公司。

亚马逊公司(Amazon,简称亚马逊;NASDAQ:AMZN),是美国最大的一家网络电子商务公司,位于华盛顿州的西雅图。是网络上最早开始经营电子商务的公司之一,亚马逊成立于1994年,一开始只经营网络的书籍销售业务,现在则扩及了范围相当广的其他产品,已成为全球商品品种最多的网上零售商和全球第二大互联网企业,在公司名下,也包括了AlexaInternet、a9、lab126、和互联网电影数据库(Internet Movie Database,IMDB)等子公司。收起

查看更多

相关推荐

电子产业图谱