1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

耳机中的「空间感」是如何实现的?

本帖由 漂亮的石头2022-08-02 发布。版面名称:知乎日报

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    486,040
    赞:
    46
    [​IMG] 超哥 阅读原文

    作为真无线耳机博主,尝试回答下这个问题,希望真正研究的算法工程师来补充下。

    查阅了科普中国,源头信息北大信息技术学院头相关函数数据库,还有谷歌学术,甚至维基百科的一些内容,发现是 10 年前的学术研究论文,作为毕业多年本科生,读起来挺吃力的,但好歹也读完了。自己仔细揣摩了 HRTF 定义,还有不同研究就够的研究范畴,发现为了做好耳机的空间感,技术积累从 1994 年就已经开始了——我们现在习以为常的产品和技术,竟然是长达 20-30 年不断的积累。​

    一切的核心——头相关传输函数 HRTF,魔术一样影响我们听觉空间认知

    先回归到物理世界,我们双耳是怎么定位的?[1]

    声音借助空气传递到头部的耳朵外部时(注意是耳朵,还没通过耳道到达骨膜),如果不是正前正后方,一定会有两个变量:

    • 时间差——两个耳朵听到声音是先后顺序
    • 能量差——两个耳朵听到声音大小的差别
    [​IMG]

    图中所示:右耳先听到且声音大,左耳后听到且声音小。经过长期生活的训练,我们通过这些细微的差异,来判断声源的方向。

    如果这么简单,那么声学也不至于被调侃为玄学?

    从正前方和正后方放声音,按这种理论理论,我们应该分辨不出来,但实际正常人都能分辨出来。

    [​IMG]

    问题出在哪里?

    就是声音传递到耳道后,会被耳郭反射——反射后的声音,自带了位置信息,我们很容易判断出来。

    [​IMG]

    最复杂声学问题,出现在这了——外界声音经过耳郭被“加密”了

    耳郭这种反射是高度个性化的,每个人的形状深浅完全不同,且随着年龄还会变化,换句话说,我们耳膜听到的声音,是被耳郭等各类反射后,进行了空间信息的“加密”,视为加密声

    如果想复现外部音源空间感,就必须在耳道内播放“加密后”的声音

    而这个外部声音经过耳郭之后加密的过程,可以抽象成为一个函数——头相关传输函数(Head Related Transfer Functions,缩写:HRTF[2])

    头相关传输函数和哪些因素有关呢?

    和声源距离,和声源仰角,声源水平角,和肩膀,和声音频率有关,甚至还和衣服,毛发,五官轮廓有关,等等等等

    抽象成为一个数学函数和模型,就是这个:

    [​IMG]
    PL,PR 分别是简谐点声源在倾听者左、右耳产生的复数声压。
    Po 是人头不存在时,头中心位置处的复数声压。
    一般情况下 HL,HR 是声源的水平方位角θ、仰角Φ、声源到头中心的距离 r 以及声波的角频率Ω的函数
    对于远场,即 r>1.2 m 的情况,HL,HR 基本上与 r 无关
    另外,由于不同人的头部、耳廓、躯干等的尺寸和形状不同,因而严格来说每个人的 HRTF 是不同的,也就是说 HRTF 是一个具有个性化特征的物理量。公式中 a 表示具有个性化特征的参量,如头部的尺寸​

    注意:头相关传输函数可以是,指任何自由场点声源与听众耳道指定位置之间的声学传递函数[3]。

    [​IMG]

    我们假定是加密后的声音 2,这是自带了空间感的加密声音,被鼓膜听到后,大脑反向解密,勾勒出大致的位置和变化[4]。

    [​IMG]

    用耳机播放耳道声音 2

    这时,如果能够获得耳道声音 2,用耳机直接来播放,不就是一样的效果么?

    [​IMG]

    问题好像开始变得简单了,就是利用头部相关传输函数,获取外部声音在耳道不同位置加密后对应的声音,然后用耳机播放就行——看起来挺简单的。

    [​IMG]
    举例来说,在一场真实的音乐会上,小提琴在听众的左边 45°,钢琴在听众的右边 45°,无论是小提琴的声音,还是钢琴的声音,都能够经过听众的头部进行加密过的。
    如果别人想通过耳机获得身临其境的体验,那么耳机内部的数字电路可以选择左边 45°的头相关函数来加密小提琴的声音,右边 45°的头相关函数加密钢琴的声音,这样就能够“欺骗”大脑,让耳机内的声音听起来也有很好的方向感和空间感。​

    可这不是数学,是函数模型!!

    要大量的声音结合大量的人群来测试,逐一验证各个变量和最终结果的关系,这才是最难的部分

    而且耳道这个位置,又敏感又不安全。最完美的位置,应该是耳膜吧?可麦克风和耳机靠近耳膜,安全问题又难保证。

    所以,从音源到获得加密后的耳道声音 2,需要构建准确的头部相关函数,就需要大量的数据库,所以 10 年之前北大的研究是跨越性的——北大言语听觉研究中心发布了头部传递函数数据库[5]

    [​IMG]
    北大官网

    至此,理论层的研究打通,剩下的就是各个工程师努力要克服的研发和生产以及量产的问题了,我已经尽最大努力回答了这个问题,期望看到更好的其它回答。

    后续是更为复杂和繁琐的产品,量产,商业问题等等,欢迎专业博主来回答。

    补充下:

    根据个人了解,不少品牌方将会陆续发布空间音频的产品,万魔也会在未来一段时间发布,甚至有更多品牌方告诉我今年的空间音频计划。

    根据上游供应链的反馈,2022 年将会是空间音频发力的元年,因为上游的产业链已经开始成型了,而且不少方案商已经开始推出稍微成熟的方案了。随着量产大批量的新品上市,入门级价位将会有越来越多的优秀产品出现。

    而空间音频作为计算音频中最易感知的存在,第一步迈出去了,那么真无线耳机一直被吐槽的音质体验,大概率也会被头部相关函数通过计算音频的方式,提高到传统有线耳机几十年都达不到的程度。

    但再往深层,空间听觉通过头相关传输函数,被完美欺骗了,那么元宇宙,会不会是最终的的技术应用场景呢?

    老规矩,求赞求关注。


    结尾:原本想着随便回答下,没想到整理回答中,问题越挖掘越多。之前总是看到头相关传输函数 HRTF,仔细看完,最难的其实是大量的数据获取,而且这些数据竟然和不同的确的人群有显著相关性。更是发现这竟然是研究了几十年的技术,到最近一两年才开始应用的[6]。

    附整理过程中,辅助理解的手稿吧,给这个小众回答一个怀念——貌似现在还看这些内容的人,越来越少了。

    [​IMG]
    开始回答的时候,没想这么长
    阅读原文
     
正在加载...