您的大脑由由数万亿个突触连接的数十亿个神经元组成。它们的排列方式决定了大脑的功能和你的个性。这就是为什么瑞士科学家最近制作了第一个数字3-D 脑细胞图谱,这是一个完整的小鼠大脑图谱。虽然这是一项巨大的成就,但现在最大的挑战在于学习破译地图集。这是一个巨大的。

科学充满了这样的问题:如何将大量信息转化为有用的洞察力。多年来,研究人员依靠数学和统计学来探索数据。由数字存储、互联网和廉价传感器创建的大型数据集的爆炸式增长导致了专门为处理这种“大数据”而设计的新技术的发展。

现在,有一种基于百年老思想的新兴新方法正在产生用于理解某些类型大数据的卓越工具。以老鼠的大脑为例,它的物理形状决定了它的功能。但是我们现在拥有的这种形状的精确描述并不能自动揭示大脑如何工作的一切。

物理形状的背后是一个由大脑内部相互联系形成的更抽象的形状。通过应用所谓的“拓扑”研究中的技术来捕捉这种形状的各个方面,可以帮助揭示对大脑功能的更深入了解。在大数据上使用拓扑技术的相同指导原则也适用于药物开发和其他前沿工作。

拓扑

拓扑学是现代几何学的一个分支,其根源可以追溯到瑞士数学家莱昂哈德·欧拉(Leonhard Euler,1707-1783 年)关于多面体、具有平面、直边和尖角或“顶点”的 3D 形状的基本观察。1750 年,欧拉发现对于任何凸面(所有面都朝外)多面体,顶点数减去边数加上面数总是等于 2。

您可以将相同的公式应用于其他形状,以获得所谓的欧拉特征。无论形状如何弯曲或变形,这个数字都不会改变。而拓扑学就是研究形状的这些恒定特性。

拓扑学作为纯数学中的一门突出学科在 20 世纪得到了快速发展。创造这个主题的研究人员并没有在他们的脑海中实际应用,他们只是对特定条件下形状在数学上的真实性感兴趣。

然而,其中一些已经存在 100 多年的拓扑学思想现在正在数据科学中找到重要的应用。由于拓扑侧重于常数属性,因此其技术使其对各种数据不准确或“噪声”不敏感。这使得它非常适合破译收集到的数据背后的真正含义。

一个棘手的问题。图片来源:VIKTORIIA NOVOKHATSKA/Shutterstock

您可能熟悉一种常见的拓扑现象。早上整齐地放在包里的电线(耳机或适配器)到中午很容易弄得一团糟。电线是一种非常简单的形状。它是否打结是一个拓扑问题,现在很容易理解在你的包里出现拓扑噩梦的趋势。

数百万年前,进化也面临着类似的问题。细胞中的DNA是由两条盘绕的链组成的分子。每条链都是一条很长的线,由一系列称为核碱基的小分子组成。当细胞分裂时,这些线会展开、复制然后再次卷起。但就像袋子里的电线一样,DNA 链会缠结在一起,从而阻止细胞分裂并导致细胞死亡。

细胞中称为拓扑异构酶的特殊酶具有防止此类灾难的任务。故意破坏细菌的拓扑异构酶可以防止它们传播,从而阻止感染。这意味着更好地了解拓扑异构酶如何防止 DNA 缠结可以帮助我们设计新的抗生素。由于纠缠是一种纯粹的拓扑特征,拓扑技术可以帮助我们做到这一点。

药物研发

拓扑结构还可用于改进新药的创建。药物是旨在以特定方式与体内某些细胞相互作用的化学物质。具体来说,细胞上有受体,可以让特定形状的分子锁定在细胞上,从而改变细胞的行为。因此,用这些形状的分子生产药物使它们能够靶向并影响正确的细胞。

事实证明,制造具有特定形状的分子是一个相当简单的过程。但将药物输送到靶细胞的最简单方法是通过血液将它们输送,为此,药物必须是水溶性的。在生产出正确形状的药物后,百万英镑的问题是:它是否溶于水?不幸的是,仅通过了解分子的化学结构就很难回答这个问题。许多药物发现项目因溶解性问题而失败。

这就是拓扑学的用武之地。“分子空间”是指将整个分子集合视为一种可以几何研究的数学实体的方式。拥有这个空间的地图将是生产新药的一个巨大工具,特别是如果地图包含表明溶解度更高的地标。

在最近的工作中,研究人员使用拓扑数据分析工具作为制作此类地图的第一步。通过分析将分子特性与水溶性相关联的大量数据,新方法发现了新的、以前没有预料到的溶解度指标。生产水溶性药物的这种改进能力有可能显着缩短创建新疗法所需的时间,并使整个过程更便宜。

在越来越多的科学领域,研究人员发现自己拥有的数据超出了他们有效理解的范围。现代数学家应对大数据数学挑战的反应仍在展开——拓扑学,一种仅受其实践者想象力约束的理论,必将有助于塑造未来。