蒂姆·伯纳斯-李:关联数据开启互联网新纪元

 

今天发布的是互联网发明人蒂姆·伯纳斯-李的TED演讲,蒂姆演讲的题目是“关联数据”,其中心要旨就是说,人们现在还是喜欢把数据关起来,没有开放出来,也缺乏一个整体的架构来支持这样一种数据公开的模式。但公开且关联的数据所带来的好处是无限的,蒂姆正是呼唤这样一个数据开放之纪元的到来。

演讲视频:http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html
中文翻译:Zheng Xiao
校对:Tony Yet

光阴似箭,差不多是20年前,当我想重新构造我们使用信息以及协同工作方式的时候 – 我发明了万维网。20年过去了,现在,在TED的舞台上,我请求你们帮助创建新的架构。

回到1989年,我在备忘录中建议使用一种全球的超链接系统,但几乎没有什么人在真正用它。18个月后 – 革新就是这么开始的。老板说,我可以兼职做这件事,做一种游戏性质的项目,就拿我们新买来的电脑,他给了我些时间写代码实现。我草拟了下HTML应该是什么样子,超文本协议 – HTTP – 关于URLs 的想法 – 事物的名称——这些事物都是以HTTP开头命名的。我完成了代码并发布出来。我为什么要这么做?我在研究所的工作是一个充满挫败感的过程。我感到很挫败 – 因为我作为名软件工程师,工作在这个令人兴奋的超大的实验室中,很多人从世界各地来到这里,他们的电脑各不相同,数据格式各不相同。文件系统各不相同。所以,这其中有很大的差异性。如果我想建立一点点东西,在这些差异性巨大的电脑上,我要找一些数据,我不得不连接到一些新的机器,运行一些新的程序,以便能够在新的数据格式中找到一些信息。这些都是不兼容的,这非常令人沮丧。这种挫败感却正显示出这个项目的潜力所在。

事实上,这些磁盘里全是文件。所以如果你仅仅把他们,想象成天空中某些大型虚拟文件系统的一部分,比如Internet,生活就会简单得多。这样,一旦你有了这样的想法,你会感觉非常兴奋。即使老板并没有读到我的备忘录——事实上他读到了,因为在他死后,在他的草稿中,他用铅笔在角落写到“模糊,但是令人兴奋”。但一般情况下,很难有这样的想法 – 在那个年代,的确很难解释网络是什么样的。就像我们今天很难理解为何20年前的人们不理解互联网一样。

当TED最初举办的时候,那时没有网络,所以像“点击”这样的词语那时的含义是不同的。我可以向某人展示一大堆超链接,某个包含链接的网页,我们点击一个链接,然后 — 就会转到另一个超链接的页面,可那时候没有人对此感兴趣。我们已经见到,通过超链接找到CD-ROMs中的内容。困难在于帮助人们想象一个联网的未来。所以,想象那个链接可以到任何实际的你能想象得到的文件。好的,这个思维跳跃对于人们是很难做到的。然而,一些人做到了。尽管很难解释,但是这是一场草根运动。这正是使它好玩的地方。也是最令人激动人心的事情。不是技术,不是人们用它所做的东西,而是实际的交流,所有这些人的思想汇聚。这是那时的情况。


蒂姆·伯纳斯-李:关联数据开启互联网新纪元 TED.COM演讲视频链接

有趣的是,现在的情况又变得跟20年前有点类似了。我问每一个人,他们或多或少都发布过文档。我说:“你能把你的文档放到网络上吗?”好,你做了。谢谢。这已经是一场疾风,不是吗?我的意思是,它已经非常有趣。因为我们发现,由于网络而出现的新可能。让我们所有人都感觉无限惊讶。现在它的功能得比我们想象的还多。

互联网最初的设计只是想把文档放在一起而已。现在,我想让你把你的数据放在网上,因为互联网还是有巨大的可释放潜力。而我也还是有很大的挫败感,因为我们从网上得到的数据不是我们想要的数据。

你说的数据是什么?文档和数据之间有什么区别?文档是你阅读的东西,你只是阅读,或者是点击一下上面的链接。数据—你可以通过一台电脑使用各种数据。谁听过汉斯·罗斯林的TED演讲?– 很多人已经看过了。那是一个很伟大的TED演讲。汉斯在他的演示文档中,使用不同的颜色表示不同的国家,他在一个轴上显示收入水平,同时他用动画按年份显示婴儿死亡率,他使用这些数据完成了一场演讲,这个演讲改变了许多人关于发展中国家经济发展的认识。他展示了这样一张幻灯片:

从图上可以看到,数据都被埋在地下。对,数据是这些棕色的、无趣的四方盒子——我们就是这样看待数据的,不是吗?因为,对于数据,假如是单独的看是没有意义的,但事实上,数据却在很大程度上驱动了我们的生活。假如有人拿到数据,并加以处理,这就使得数据显现出其力量。在这个例子中,汉斯将数据放到了一起,汉斯在联合国的网站上找到了各种数据。他把这些数据放到了一起,将它们组合起来使之比原始数据有趣得多。然后把数据放到这个软件中——这个软件是他儿子开发的——最终他做出了这个美妙的演示。最后汉斯说道,“瞧,有大量的数据是非常重要的”。我高兴地看到在昨天的晚会上,他仍然强烈地表示“有大量数据是非常重要的”。

现在我想让大家想象,不仅仅是两组数据间的连接,或者像他所说的那样六组数据,而是这个世界上任何人,把数据和甚至一切物件都放到网络上。我将此称作关联数据。这个技术就是关联数据,它是极其简单的。如果你想把什么东西放在网络,有三条规则:第一条规则是,需要有HTTP的名字。那些东西要以http:开头,我们现在不仅对文档这样用,对文档描述的事物也这样用。我们对人物、地点、产品,事件等都这样用。所有概念化的东西现在都以HTTP开头命名。第二条规则,如果我有一个HTTP名称,然后我根据它在网络上进行查找,我可以从网上获取数据。通过HTTP协议,我将得到一些标准的格式化数据。这些有用数据或许是关于人们希望了解某个事物或者事件的事件的主人公是谁、关于这个人的所有信息、他们什么时候生的,等等。所以,第二条规则就是我通过HTTP获得了重要的数据。第三条规则是,我得到的信息,不仅仅是某人的身高、体重和出生日期,还有数据间的关系,数据是有联系的。很有趣,数据是有联系的。这个人出生在柏林,柏林在德国。当数据有联系时,无论何时它表现出这种联系;另一件与之有联系的事物就必须以HTTP开头命名。所以,我可以直接去找那件事。比如,我查一个人 — 我查他出生的城市,这个城市的所在区域,城市乡镇人口等等,这样我就能浏览这些信息。真的,就是这样。这就是关联数据。

多年前,我写过一篇文章,叫《关联数据》。之后不久,这个概念发酵起来了。关联数据的想法就像我们得到了很多很多类似汉斯拥有的盒子。很多很多的事物开始发芽生长,它带给我们相当多的植物。不仅仅是一个根供给一个植物。对于这的每一个植物,无论它是什么,是一个演示,或一个分析,只要有人要寻找数据间的规律,他们都可以着眼于所有的数据,并且它们把数据联系起来。重要的是,关联起来的东西越多,数据就越有价值。关联数据这一模因由此而扩散开去。很快,来自柏林自由大学的克里斯拜泽,他是第一个拿数据做出了些有趣的事情的人。他注意到维基百科,是一部在线百科全书,里面有很多有趣的文档。在这些文档中,有些小方格子和小盒子。这些信息盒子所包含的,就是数据。他写了一个程序将数据从维基百科中提取出来,然后将它们放到关联数据的一个圈里,命名为dbpedia。这张幻灯片中部蓝色的圈表示Dbpedia。如果你去找柏林,你会发现还有其他的数据,当中也包含了与柏林相关的信息,它们被联系到了一起。所以,如果你要从dbpedia中摘出关于柏林的数据,你还会摘出其他内容。让人兴奋的是,这样的事情正在迅速发展。这又是一个草根做的事情,不是吗?

那我们说到数据,它到底是指什么呢?数据实际上来源于很多很多不同的形式。当我们提到网络的多样性的时候,很重要的一点是,网络允许你将各式各样的数据放在一起。说到数据,我能说出各种各样的数据:有政府数据、企业数据、科学数据、个人数据、天气数据、关于事件的数据、关于谈话的数据,还有新闻和各种类似的东西。我只提到了一小部分数据,你们就可以看出数据的多样性。由此你可以看到潜藏在数据底下的无限可能。

让我们从政府数据说起。奥巴马说,政府数据将以一种可访问的方式发布到网络上。我希望这会是以关联数据的形式出现。这一点非常重要。不仅仅是为了透明性,透明性对政府很重要,尤其是从政府部门出来的数据更重要。想想有多少关系到在美国如何生活的数据,它的确很有用,很有价值。在公司里,我可以用得到,我的小孩做功课也能用得到。所以,我们说,公开这些数据吧,这样会使世界变得更美好。事实上,如果你在政府部门呆过,你会发现,政府会将这些数据封闭起来。汉斯说,政府部门喜欢抱住他们的数据不放,直到他们建立了一个漂亮的网站。我想建议的是,除了建一个漂亮的网站,在建站之前,请先把未经处理的数据摆出来。我们要的是数据,最原始的数据。我们需要的就是这样的原始数据。好,大家练一下怎么讲这个名词好吗?

马上给我——
(观众:)马上给我
原始的——
(观众:)原始的
数据
(观众:)数据

好,马上给我原始的数据!
(观众:)马上给我原始的数据!

熟悉这个名词是很重要的。人们会想出各种各样的理由,拒绝将原始数据公开出来,哪怕你作为一个纳税人已经为此付了钱。这不仅仅存在于美国,全世界都一样,也不仅仅在政府,当然也存在于企业。我还想再谈谈关于数据的其他想法。在TED,我们一直关注于人类社会目前所面临的巨大问题,比如治疗癌症,了解老年痴呆症病发病机理,了解经济运行规律,好让它稳定点,理解事物发展变化的规律。那些致力于解决这些问题的科学家,他们脑海中有些还不成熟的想法,他们试图在网络上与他人交流,但是现状是人类的很多知识,都关在私人的数据库里,没有公开出来。我这里以其中一个领域的研究来举个例。

如果你是研究老年痴呆症的科学家,以药物发现为例 — 这个领域具有相当多的刚刚出现的关联数据。因为这个领域的科学家们意识到,关联数据是一种很好的方法,可以帮助他们摆脱数据孤岛。他们在一个数据库中建立了基因图组,在另一个数据库中建立蛋白质数据,现在,他们将基因图组和蛋白质数据形成了关联数据。他们可以问排序的问题,也许你不会问,我不会问,但是他们会:哪些蛋白质参与信号转导,并且也和锥体神经元相关?当你将这个问题放到Google上搜索,自然没有回答结果的页面。因为之前没有人问过这样的问题。虽然你得到了223,000个结果,但是没有一个你用得上。假如去检索关联数据呢?命中32个结果,每一个结果都是与特征相关的蛋白质。关联数据赋予科学家这样一种可能,去探寻这些跨学科的问题的答案。这是彻底的改变。这是非常非常重要的。可是,现在的科学家们还受制于一个现实,即他们无法获取其他科学家的数据。这些数据正被锁在实验室的电脑里,我们需要打开这些封锁,唯有如此才能解决那些人类面临的重大问题。

假如你认为关联数据只是大机构的事情,与你无关,那就错了。事实上,数据关乎我们的生活,比方说,你登录你最喜欢的SNS网站,你看到了你的朋友,点击添加,嘿!这是联系,这就是数据!还有,这照片,对了,我知道图片上那个人是谁!黑!这又是数据。  数据,数据,数据。你在社会化网络上做的每一件事,社会化网络站点就获取数据并利用它,通过算法使得数据显现出其价值,使得用户体验变得更加丰富。但是,当你去到另一个关联数据网站,假设是一个旅游网站,你说“我想把这张照片发给我在另外一个SNS网站的朋友“,但你却无法翻过这些墙。《经济学人》曾经发表了一篇关于这个问题的文章,并且许多人也发了相关博文表示,这样一种现实带来了巨大的痛苦。

 

要改变这一现状,我们需要在这些社交网络之间,搭建关联数据的网络。最后一种我将要谈到的数据,也许是最令人激动的。在我来这之前,我通过OpenStreetMap——OpenStreetMap是一个地图,但同样也是一个维基——查找了一下特伦斯剧场(位于长滩市,加利福尼亚)。它现在还没有被标上名字。所以我可以到编辑模式,选择剧场,然后在底下填上名字,然后保存。现在你再去访问OpenStreetMap.org,你找到这个地方,你会发现它现在有名字了。这都是我做的。我在地图上标的,刚刚做的。我把它标注在那里。嗨,你知道吗,如果除了我,每个人都在这个地图上标注一点,将会产生难以置信的资源。因为其他每个人都做了,这就产生了关联数据。每个人都做一点,生成一点内容,然后把它们连接起来,关联数据的秘密就在于此。你做一些,每个人都做一些,也许你拥有的数据不是很多,但你要懂得去索要数据。我们已经在实践了,关联数据是一个巨大的体系。我只能告诉你很小一部分。我们生活、工作以及娱乐的每个方面,数据来源之多裹并不是那么重要,更重要的是,将它们关联起来。

要知道,关联数据赋予人的能量是巨大的,这种能量是孤立的网络或文档所不能比拟的。现在我们处在一个阶段,这个阶段呼唤我们采取行动,所有认为这是个伟大想法的人们,甚至是所有人都应该行动起来。这不是当日投资当日有回报的事情。只有当每个人都这么做,我们才会从中得益。相信参加TED大会的人会这么做,因为他们相信,假如每个人都能参与其中,世界将会变得更美好。这就是关联数据的故事。我希望你参与其间,希望你索要这样的数据,我也认为这个想法值得推广。谢谢大家。

 

发表评论