透明化AI数据集是否可以遏制不断升级的隐私风险

跟踪机器学习数据集中使用的数据可能是一项艰巨的任务，但是随着法规和公众审查的加剧，律师表示这可能是保持合规性的有用工具。

上周，Facebook Inc.与其他开发人员一起寻求更好地跟踪数据集中使用的数据。在题为“放射性数据：通过培训进行追踪”的研究论文中，Facebook宣布了一种追踪用于培训软件数据集中的图像的新方法。

可以肯定的是，Facebook并不是第一个宣布提供对数据集透明性的方法的公司。Facebook在其报告中强调了许多数据跟踪机制，包括水印，差异隐私和成员推断。

Legaltech News联系的律师说，随着监管和公众对数据隐私的压力日增，确认整个软件开发过程中数据集中特定信息的使用可能是必要的。可以利用此类信息作为实体不符合公司或法规隐私政策的证据。

就在本月，Facebook同意就违反生物识别信息隐私法(BIPA)达成5.5亿美元的和解，针对涉嫌违反伊利诺伊州法律的行为，谷歌也收到了类似的集体诉讼。

但是，乔治敦大学法律中心教授Anupam Chander指出，弄清楚在机器学习数据集中使用了哪些数据，很可能会被用于“受约束的情况”，以确保未经其许可就不会使用公司的数据，从而不提高透明度。数据主体。

钱德(Chander)引用了面部识别应用程序Clearview的最新消息，因为执法公司希望阻止Facebook，YouTube和Venmo从数十亿张图像中获取其执法客户。

“您会看到Clearview数据集，而Facebook反对使用其数据，因此这是另一种方式来证明Clearview或某些第三方供应商使用了经过操纵以产生这些类型结果的Facebook图像。”

尽管数据跟踪方法可以帮助公司追踪其数据的使用情况，但钱德表示，Facebook的方法可能无法发现有偏见的数据。

“您需要能够在不更改结果的情况下更改(以便识别)下划线数据，这是[Facebook]论文的承诺。……在决定有关信贷或就业的决定时，要在不实质性影响结果的情况下更改底线数据可能并不容易，”他说。

尽管如此，随着公司纠结于了解如何使用其数据以及潜在的公众强烈反对，Riesen指出，为数据集提供透明性可能会将软件见解泄露给竞争对手。

“这可能会向竞争对手公开有关您打算成为竞争优势或商业秘密的专有机器学习和AI算法的信息。这可能会导致竞争对手研究您的算法如何处理某些数据。”他说。