1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

输入几个词语看看 500 年的变化,比如「明天」逆袭了「昨天」(一个新神器)

本帖由 漂亮的石头2015-08-18 发布。版面名称:知乎日报

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    486,313
    赞:
    46
    一个玩得停不下来的Google神器:Ngram

    [​IMG] 雨亦奇

    你想知道某个词在 16 世纪以来 8 种语言的 800 多万册书中出现的频率是如何变化的吗?Google Ngram 可以满足你~ 这是 Google Books 下面的一个丧心病狂的项目。他们极其暴力地扫描了从 1500 年到 2008 年之间出版的 8116746 册书(据估计占人类历史上所有出版书目总数的 6%),然后进行了 OCR 识别,建成了世界上最大的电子书数据库,然后他们又通过一系列算法从万亿级别的原始数据中识别出单个的词语和短语,构成了一个语料库(详细的方法论请看这里:http://aclweb.org/anthology/P/P12/P12-3029.pdf)。8 种语言包括英语、法语、德语、意大利语、西班牙语、俄语、希伯来语、汉语,其中英语占到大约 56%。

    这个语料库是完全对公众开放的。任何人都可以去Google Books Ngrams Viewer 查询任何一个或几个词在过去 500 年内在书籍中的出现频率变化趋势,有点像 Google Trends 的图书版。而专业人士或纯粹闲得蛋疼的 geek 们也可以下载完整的语料库自行分析:http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    作为外行,Google 的这个神器真是让我玩得根本停不下来~ 我来简单演示一下,把大家带入坑~

    正式开始前先说明几点:

    1. 我不知道 Google 是如何选择和获取这 6%的图书的,不确定是否会有系统性选择偏差,也不确定图书的幸存者偏差有多严重,所以看图得出的结论并不能随意外推。
    2. 语料库的内容完全来自出版图书,而不包括未出版图书或其他形式的文字,也不包括正在以指数级增长的网络和电子信息。与 Google Trends 的高度实时性不同,图书的滞后性较长,只能在比较大的尺度上看趋势变化。
    3. 同一个词在不同时期的语义、用法和拼写可能会非常不同,需要谨慎解读结果。
    4. 我在这里选择以英语而非中文为例。一方面是因为英语的语料库最大,且英语在最近几百年来的图书中的使用率总体看来看是最广的,比较能够反映真实世界的一些变化。另一方面,汉语的字、词识别的难度很高,可能正确率不及英语,而且现代汉语和历史上不同时期的汉语的语义差异比较大,古文和现代文很多时候很难比较。不过近几十年的汉语数据应该还是不错的,我在最后也会放几个例子。
    5. 下面每张图里横轴是时间,纵轴是出现率,先给几个常用词做个 baseline 给大家感觉一下:

    [​IMG]

    比如这里"the"占了 5%,也就是说英语里大约每 20 个词里有一个是"the"

    正式开始~超多图预警!

    先来看看几个国家的出现率变化情况:

    [​IMG]

    看点:英国和法国的逐渐没落、美国的崛起、德国在两次世界大战中刷存在感、苏联 / 俄罗斯的崛起和没落、中国在 20 世纪下半叶比较稳定的出现率。

    再看看资本主义和共产主义之争:

    [​IMG]

    可以讲的故事太多了,大家自己脑补吧。

    君王和人民:

    [​IMG]

    王国、国家和民族:

    [​IMG]

    革命、独立、殖民:

    [​IMG]

    自由、民主、共和:

    [​IMG]

    《独立宣言》里的"Life, liberty and the pursuit of happiness"

    [​IMG]

    战争与和平:

    [​IMG]

    科技和宗教:

    [​IMG]

    注意最近二十年的势头逆转了,但这也有可能是因为科技更多更快地转到网络等平台,而在书籍中出现得相对变少了。

    计算机和互联网相关:

    [​IMG]

    品牌的兴衰史:

    [​IMG]

    部分学科的发展势头:

    [​IMG]

    一些平权运动的发展:

    [​IMG]

    健康、环境、污染等问题的关注度越来越高:

    [​IMG]

    天堂和地狱(地狱一直很坚挺啊):

    [​IMG]

    今天,昨天,明天:

    [​IMG]

    “明天”在最近几十年里逆袭了“昨天”,算是好迹象吧,不过"today"好像是 20 世纪才开始普及的,以前的英语都用什么词表示“今天”的呢?...

    发展、进步 vs. 问题、危机

    [​IMG]

    总体来说饥荒和瘟疫的出现率在降低:

    [​IMG]

    不过贫穷和不平等的出现率在上升:

    [​IMG]

    灾难”被提到的频率在增加,而从上世纪 50 年代开始,洪灾多的年份一般旱灾少一些,反之亦然:

    [​IMG]

    为什么从 1930 年左右开始 money 和 economy 的出现率是此消彼长的呢?是巧合吗?

    [​IMG]

    泰坦尼克:

    [​IMG]

    泰坦尼克电影逆袭了泰坦尼克事件本身厄...

    这个例子可以说明为什么一个词的出现率并不一定意味着现实世界的出现率:

    [​IMG]

    现代人吃饱饭没事干脑洞真大……

    动物们:

    [​IMG]

    吃、喝、睡:

    [​IMG]

    关于星期和月份的词相对比较稳定:

    [​IMG]

    “周日”最常用,这自然跟宗教有关,紧接着的是周六,周一和周五其次,周二三四的存在感都很低。

    月份:

    [​IMG]

    似乎气候越好的月份出现率一般也越高(May 有歧义,没算进来),不过 June 和 July 都可以当人名,所以可能有些虚高。另外,近 200 年来这些词的整体升降趋势也很有意思,不知可以如何解释。

    历史上的名人也很有意思。这里就举一下科学方面的例子:

    [​IMG]

    牛顿碉堡了...

    不过更夸张的是伽利略:

    [​IMG]

    语言本身也有许多很有意思的变化。

    比如古英语用词:

    [​IMG]

    比如性别相关词汇:

    [​IMG]

    比如各种人称代词:

    [​IMG]

    最近 50 年来第一和第二人称代词的增长速度特别快。

    比如句首疑问词:

    [​IMG]

    当然了,还有一些词的语义经历了巨大的变化。

    最典型的例子之一就是"gay"这个词:

    [​IMG]

    gay 最开始是“快乐、愉快”的意思。但自从上世纪 30 年代以后有了“同性恋”的意思,大家由于恐同和避嫌都不敢随便再用这个词,于是出现率骤降。之后到了七八十年代以后,逐渐壮大的同性恋平权运动和反同性恋运动让这个词的使用率又很快地升到了历史最高点。

    再举个很典型的例子:

    [​IMG]

    这个不用解释了。

    还有一个比较奇葩的案例:

    [​IMG]

    谁能告诉我 17、18 世纪 f**k 是什么意思?...

    自己动手丰衣足食,我去Oxford English Dictionary查了一下 f**k 的词源,简直特么打开了新世界的大门啊!!没想到 18 世纪以前的人真的会用 f**这个词,而且 f**k 还就是性交的意思,但是当时似乎 f**k 还是个比较中性的词,可能像现在的"intercourse"之类的,没有太多低俗粗鄙的感觉。下面是历史文献中真实的“f**k”例句,有些尺度真挺大的,viewer discretion is advised:

    1680 School of Venus i, in B. K. Mudge When Flesh becomes Word (2004) 10 Generally both Sexes f**k, and that so promiscuously as Incest is accounted no sin.

    a1749 A. Robertson Poems (?1751) 256 But she gave Proof that she could f—k.

    a1796 R. Burns Merry Muses (1911) 71 You can f—k where'er you please.

    1809 Court Martial J. N. Taylor 11-12 Dec. (P.R.O.: ADM 1/5400) Mr Taylor was f**king him behind, his Yard or Penis was in the Arse of the boy.

    1879 Pearl Oct. 127 He f**ked all her toes, Her mouth, eyes, and her nose.

    1865 ‘Philocomus’ Love Feast i. 9 My poor pussy , rent and sore, Dreaded yet longed for one f**k more.

    1764 J. Wilkes Ess. on Woman 13 Just a few good F**ks, and then we die. (试着想象《权利的游戏》里小恶魔说这句话,简直完美)



    语料库里连数字也有,所以可以这么玩:

    [​IMG]

    我看了一下每个年份对应的数字出现的频率,发现图书的写作和出版大约有 5 年左右的滞后,也就是说 1950 这个数字在 1955 年左右出版的书里出现率最高。这个趋势非常稳定,而且让我有些惊讶的是最近一百年这个滞后的时间并没有缩短。

    再看一下单个出现的数字:

    [​IMG]

    有点像 Benford 法则(但并不一样),很有意思的规律。

    还发现一个关于圆周率的有趣的现象:

    [​IMG]

    两次世界大战期间为什么圆周率的存在感这么高呢?

    接下来看几个中文的例子。既然是中文,就搞几个有“中国特色”的吧。

    非常有时代特征的一些词:

    [​IMG]

    当年出版的书籍中,每 50 个词就有一个是这种,可见当时语言的单一和匮乏。

    比较一下不同时期的重心:

    [​IMG]

    “多研究些问题,少谈些主义”:

    [​IMG]

    国际关系:

    [​IMG]

    人民:

    [​IMG]

    德先生、赛先生和他们的小伙伴们:

    [​IMG]

    其他的一些常用词:

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    常见姓氏:

    [​IMG]

    谁能告诉我 40 年代的“李”和 20 年代前后的“周”是怎么回事?...

    当然了,数风流人物,还看:

    [​IMG]

    甲乙丙:

    [​IMG]

    为什么在很长一段时间里甲乙丙的出现概率排序是颠倒的?

    吃、喝、睡:

    [​IMG]

    其实“吃”在中文书里出现的频率和"eat"在英文书里出现频率差不多,但是中文里“吃”相对于“喝”、“睡”明显要重要得多...

    英语 vs. 汉语:

    [​IMG]

    东南西北:

    [​IMG]

    谁能解释一下 60 年代末南方怎么了?

    再下去又要停不下来了,就先写到这儿吧~总之这东西有太多的玩法,特别适合 kill time~ 大家如果想到或发现什么特别好玩的词也可以写在评论里。

    ———————————————

    发自知乎专栏「Something about Everything
     
正在加载...