陈颂光
全栈工程师,能够独立开发从解释器到网站和桌面/移动端应用的各类软件。
关注我的 GitHub

如何在保障隐私的同时跟踪传染病传播

新冠肺炎(SARS-CoV-2)于2020年在全球范围的爆发引起了广泛关注,为了快速而有效地减慢病毒的传播,群体免疫以外的另一种可能有效的策略就是找出与感染者有密切接触的人士并让他们自我隔离。由于手机等移动电子通信设备的普及,部分国家强迫人民安装的某种称为“健康码”的应用程序,用以评估用户带病的风险。然而,这类程序往往被指为政府收集过多信息,这种大规模监控严重侵犯了公民的隐私权,并可能被用于其它不可告人的目的。其实,精准的传染病链跟踪不需要以牺牲人民的隐私为代价,泛欧保隐私接触追踪(Pan-European Privacy-Preserving Proximity Tracing,PEPP-PT)去中心化保隐私接触跟踪(Decentralized Privacy-Preserving Proximity Tracing,DP-3T)就让用户匿名且完全不收集任何定位信息。

设计目标

实用的传染病传播链跟踪系统应该符合以下要求:

  1. 能够快速而精准地找出潜在的传播链。为了精确地找出潜在的感染者并提醒他们自我隔离,需要找出所有与确诊者曾经在物理上接近的人。一方面,由于即使在疫情最严重的地区,感染者仍然是少数,鲁莽地封城或封区等极端措施打击面太大,不必要地重创经济,甚至可能使饿死的人数远多于因感染传染病而致命的人数,精确的跟踪可以防止这种过度牵连。另一方面,人手查问确诊人士的行踪容易出现遗漏的情况,而且需要大量受过训练的工作人员。
  2. 尊重隐私。只能收集对传染病跟踪而言绝对必须的数据,以防止被挪用于其它用途。
  3. 可以在全球范围内工作。不但要保证数以十亿计的手机参与时系统仍然能运作,而且能够跨越地理边界以便恢复正常的跨境往来。
  4. 能够迅速投入使用。只能使用当前可用的基础设施和硬件,不能依赖于未来可能的技术突破。

基本原理

不论是PEPP-PT还是DP-3T,基本原理是相同的:每部手机不断用蓝牙与周边的手机交换随机数。以下用隐私保护更佳的DP-3T为例简单说明这类传染病跟踪系统的要素:

  • 每一个人随身携带一部装有跟踪应用程序的手机。这样,两个人有密切接触的话,她们的手机之间距离也会很短。
  • 在每一个时刻,每部手机有一个匿名的标识,手机每隔一段时间(如10至15分钟)修改其标识。这个标识用以区分不同手机。即使标识的身份一时被泄露(例如手机身处一个附近很少人的地方),由于标识会在短时间内自动失效,仍然不能被用于持续监控。以下是生成标识的一个方法:
    • 标识在手机端(伪)随机地生成。只要标识的长度足够(例如128位),就可以使出现碰撞的机会足够低,同时保证其它人(包括中央服务器)都不知道一个标识具体属于哪台手机。更准确地说,刚安装时随机生成一个随机种子,然后每天通过对上一天的随机种子应用某个散列函数得到当天的随机种子,再用该随机种子用某伪随机数生成器生成足够标识供当天各时段乱序使用。
  • 每部手机每隔一段时间(如200至270毫秒)用低功耗蓝牙广播自己当时的标识。由于蓝牙的传输距离大于飞沫的有效传播距离(约2米),足以让密切接触者的手机间通信。同时,部署蓝牙设备以覆盖全境对最极权的人权侵犯者而言都不可行,这可以防止系统被用于大范围监控,但在特定场所部署设备以获知近期访问过场所的确诊人数是可能的。相反,假如系统基于定位信息,则是把用户的行踪暴露在巨大的泄露风险中。
  • 每部手机每隔一段时间(不超过5分钟)扫描蓝牙并把周边其它手机的标识保存下来,同时保存信号强度和当前时间。这样,可以估算接触时间长度和距离,以便评估风险(接触时间越长或距离越短,传染机会越大)。
  • 一旦有人被确诊,她在卫生部门的协助下向中央服务器上传有关数据。以下是其中一个方案:
    • 用户上传其手机若干天(如14天)前用过的随机种子,再重新初始化随机种子。由于随机种子的匿名性,可以保护确认者身份的保密性。
  • 手机定期或需要时从中央服务器(或内容分享网络,CDN)取得确诊者相关资料,并向用户提示其风险。以下是其中一个方案:
    • 手机从中央服务器下载确诊者近期用过的随机种子,然后生成她们用过的所有标识,再检查近期有否收到过其中的标识,有的话结合接触时间长度和距离计算风险。由于风险计算在手机进行,且非确诊从不向中央服务器上传任何数据,其它人难以窃取接触纪录或评估结果。
  • 每个国家或地区有一个中央服务器以保存可能到过该地方的确诊者的相关数据。处理跨境往来的一个可能方案如下:
    • 确诊用户上传时同时呈报她近期(如过去14天)去过的地方列表,以便把数据转交有关地区的中央服务器。
  • 手机自动删除太旧(如14天前)的数据。这样可以避免占用太多空间。

不足之处

虽然传染病跟踪系统在设计时已经经过重重论证,但仍然有一些已知缺陷。其中有一些只影响个别系统,而其它则影响所有同类系统。

  • 信息安全
    • 可用性。
      • 中央服务器可能受到分布式拒绝服务攻击,使用户无法同步数据,从而不能及时知道自己的风险。
    • 完整性。接触跟踪所需的必要数据可能被破坏,从而影响风险评估的准确性。
      • 蓝牙可能受到阻塞,使手机无法收到其它手机广播的信息,导致接触纪录出现遗漏。
      • 用户可能不安装有关应用程序,确诊者也可能不上传数据,导致确诊者的资料不齐全。
      • 用户可以在一日内广播他人用过的标识,从而制造虚假的接触纪录,导致别人以为自己是高风险人士,以制造恐慌。
      • 确诊者可能用他人的手机来上传,污染中央服务器的数据。
      • 入侵或仿冒中央服务器来发布虚假资料。
    • 匿名性。在特殊情况下,确诊者身份的匿名性可能被破坏,以下是一些场景:
      • 其它用户可以修改应用程序并记录更多接触资料(如地点和周边的监控录像)。于是一旦有接触者确诊,确诊者的身份就有可能被锁定。同类攻击适用所有接触者跟踪系统。
      • 其它用户可能可以知道两个标识属于同一确诊者。采用上述上传随机种子方案的话,攻击者可以知道确诊用户近期用过的所有标识,从而得到“在什么什么时间多次碰到同一确诊者”之类的信息。
      • 互联网服务商、WiFi提供者、中央服务器可能记录确诊者的IP从而可能可确定其身份。手机制造多余流量和中央服务器批量更新可以防范前两者。
  • 其它方面
    • 续航时间。持续用蓝牙通信会增加手机的耗电量,使电池续航时间下降。

总结

健康与隐私是可以并存的。精确的传染病跟踪并不需要收集任何个人信息和位置信息,而只需要现有的简单技术。世界各地的行政机关都在用防疫为名来圆加强中央集权的夙愿之实,推出各种不必要地限制人身自由的措施,大规模地监控人们的活动,并助长对种族、地域、年龄、职业的歧视。转而通过精准的传播链跟踪来善用有限的检测资源和控制隔离人数,可能是株连九族和完全放任之间的一个平衡点。

关键词 信息安全