回复 ( 2 )

  1. 苹果的味道
    理由
    举报 取消

    这些东西没必要通俗理解

    理解贝叶斯之后这些东西不需要理解

    嗯,就是这样

  2. 地球知识局
    理由
    举报 取消

    我以前在图书馆找书时都依赖电脑检索。但某一天我到一家市立图书馆参加讲座,发现一排排木制的卡盒古色古香,似乎还装着卡片目录。我心想这种方式检索是多么费时费力。不过读完了两位大牛埃雷兹·艾登与让-巴蒂斯特·米歇尔写的《Uncharted:大数据作为人类文化的聚焦镜》一书,我发现谷歌的起源理念和目录卡片是类似的——先整理关键词然后检索。

    曾也有人在谷歌发明前自己做过关键词目录。1946年,一位痴迷神学家托马斯·阿奎那著作的神父罗伯托·布萨决定做一个阿奎那作品集词语索引。他听闻电脑技术可以帮助他录入、分析全文词汇,连忙找了IBM协助此项词语索引计划。直到1980年这个计划才全部完成。这也算是当下最热的“数字人文”(digital humanities)的首创。

    谷歌引擎刚发起时只能搜索已经存在于网络上的信息。但谷歌CEO Larry Page作为一个闲的没事、爱好人文的亿万富翁,发起了扫描全世界的书,载入『谷歌图书』的计划。他们不仅有很多人每天翻页扫描,更是用了每小时扫千页的先进扫描技术。到2015年谷歌图书已经扫描了三千万本书,直追世界藏书量最大的图书馆,美国国会图书馆(Library of Congress)。Page的野心遭到了许多质疑;一些不再出版的稀有藏书被谷歌垄断了怎么办?2008年谷歌与很多作家和出版社的和解没有持续太久,被一位法官驳回去,让美国国会做决定。但到现在美国国会还没有处理这个纠纷。

    但埃雷兹与让-巴蒂斯特认为这些人对技术的恐惧只是因为技术太过于新了。十三世纪,人们初带眼镜时,欧洲人也过了一些年才适应这放在脸上的新“怪物”。后来有些人闲得没事用这些镜片重复叠加,发明出了望远镜和显微镜,得以观测星体、发现细胞。埃雷兹与让-巴蒂斯特大受启发,在2005年就希望能发明一种能用来观察历史的变迁的望远镜。

    通过词频统计,埃雷兹团队可以观察出很多有趣的历史现象。《Uncharted》书中罗列了一些关于审查对于一些被审查人名的作用。一位遭前苏联排挤的犹太艺术家Marc Chagall在1923年时离开故乡,前往法国。他当时预料到自己不会在苏联继续享受名誉,但他有信心在法国东山再起。果然,Ngram就统计1923年他的名字在俄语书中出现次数骤降,而法语书籍中他的名字出现频率慢慢回温。一些其他犹太艺术家也在纳粹猖獗时被碾压、噤声,名字在德语书籍中不再出现。而1945年后纳粹被推翻时这些艺术家又得以声名大噪。

    他们书中引用了谷歌流感预测趋势(Google Flu Test)这个技术作为ngram的对比。谷歌程序员杰瑞米·金斯堡于2008年发现了检索带来的意外财富:人们身边有人得传染疾病后常常会用谷歌一类的网站搜寻对应信息。这个比例增加后可以准确并快速地预测传染疾病即将在哪里出现。这样的早期预警比美国疾病控制与防御中心发现的速度还快。他的研究成果也在2009年发表在了《自然》刊物上。

    欢迎关注我团微信公号

    地球观察团

    ID:diqiuguanchatuan

我来回答

Captcha 点击图片更换验证码