从信息茧房重新理解信息源
date
Aug 25, 2024
slug
information
status
Published
tags
总结
AI
信息源
summary
之前我写过一篇文章周报 #12 - 重新出发介绍如何避免陷入过度收集,今天在听了硅谷101的一期播客之后,对于信息有了新的理解,又衍生一些新的想法,之前的内容时写在周报中的,不是很有主题性,所以这篇文章是对于信息源的重新思考
type
Post
从信息茧房重新理解信息源
之前我写过一篇文章周报 #12 - 重新出发介绍如何避免陷入过度收集,今天在听了硅谷101的一期播客之后,对于信息有了新的理解,又衍生一些新的想法,之前的内容时写在周报中的,不是很有主题性,所以这篇文章是对于信息源的重新思考
信息茧房
「信息茧房」这些年的破圈,其实最早是由美国哈佛大学法学院教授凯斯·桑斯坦2006年在其著作《信息乌托邦》中提出,用以描述在信息传播过程中,公众只关注自己选择的内容和使自己得到愉悦的信息,久而久之就将自身桎梏于像蚕茧一般的“茧房”之中
但是当时凯斯·桑斯坦提出信息茧房的背景和现在其实截然不同,最开始的背景时在博客世代,美国民主党和共和党都有自己的博客,你点开一个共和党人的博客,博客中的友情链接只会链接共和党的人的博客,民主党的博客会链接其他民主党的博客。这就造成了一个问题,就如果我们点开一个共和党的人的博客,我们通过他的友情链接一点点的读下去,我们会一直困在共和党的声音当中,这个叫做信息茧房。
但是现在所说的信息茧房更多的是基于算法和搜索引擎的差异化推荐,使得你只能看到你想看的内容
行为实验:算法有多大差异
有个研究挺有意思的,一个德国慕尼黑大学的研究者,这人叫做马里奥·海姆。他做了一个谷歌试验:他首先建了四个谷歌新闻的新账号,然后他花了一周时间训练这四个账号。他的训练方式是他通过搜索不同的群体,可能比较喜欢搜索的词来让谷歌新闻去相信这四个典型的德国用户分别是上了年纪的保守派的寡妇。50 岁的中产阶级的父亲, 40 岁忙于事业的单身汉,还有一个 30 岁的多金的职业女性。
简单来讲就是他想想这些人可能喜欢搜什么呀,他在不断地搜这些人特别喜欢搜的内容来训练这个账号。好,这个账号练成了。练成之后呢,他开始用这四个账号共同搜索一些在德国当时非常流行的公众广泛关注的新闻的关键词。那这个结果呢,就可以印证到底谷歌会推给这四个典型的人完全不同的内容还是完全相同的内容。然后发现啊,仅出现过一次的结果,也就是说这四个人只有一个人搜到过一次,其他仨人都没搜到。这个结果占所有搜索总量的 2. 5 % 这是一个相当相当低的一个数字了。也就是说,大家搜索到的结果其实有大量的重叠之处。
后面美国有一个乔治华盛顿的研究者叫耐哈斯特。他有继续做这个研究,他得出了一个非常有趣的结果,他其实当时征集了 168 位真实的谷歌新闻的用户,然后让这些人去搜索谁呢?就是希拉里和特朗普的新闻,然后他们发现大家搜索的结果高度相似,并且 69% 的结果都来自于美国最大的五个新闻集团,
在美国的语境当中,至少这个发现证明了一件事,就是算法没有导致信息茧房,没有让他们互相隔绝。相反,他们其实被困在了五大媒体当中。美国媒体过度的垄断,让大家得到的信息是非常集中化的。
现在为什么没有刘德华现象了
现在人们信息获取因为算法驱动的各种平台的出现,它是变宽了还是变窄了?
其实有计算机方面非常有名的一篇研究, 恰恰证明它是变宽了。事实上, 我们因为算法驱动的各种平台, 文字的, 图片的, 视频的, 这些平台的出现, 我们的媒介消费时间在变长。而媒介消费时间变长的时候, 我们所看到的东西其实是更加多元化。相比我们上一代人, 我们知道的东西其实是更多的, 而不是更少的。
在很多的社交媒体平台上,你会发现你很难找到一个全网都认识的博主。我之前有一个非常有趣的经历,就是我和一个在抖音小红书上都是非常头部的美妆区的一个博主在聊天的时候,他做的影响力我知道是非常大的。但是我在跟朋友转述我们聊天的时候,其实大部分朋友都不知道这个人的存在。
这是一个蛮有意思的一个现象。另外一句话是什么呢?就是对于平台而言, 我相信相对于一两个头部来讲, 所有平台都更倾向于众多腰部的崛起。所以从这个角度来讲, 博主其实也是非常的去中心化的。
记得之前有一段话很打动我,大概意思是在你这个行业神一样存在的人物,在另外一个行业人家压根没有听说过
如今的媒体环境中不会出现第二个刘德华了,所有人都知道的那个人不会出现了,为什么?是因为在我们小时候,刘德华的火不仅因为他的职业的素质高,他唱的歌好听,更因为我们那会儿除了刘德华没有太多选择, 我们的电视就那几个频道, 比如在我小时候还没有有线电视。
截止到去年的 12 月, 全网的短视频账号有多少个?我会发现这个数字让我非常的惊讶,有 15.5 亿个。那这里面超过十万粉丝的账号数量有五十万,超过一百万粉丝的账号有四万,超过一千万的粉丝的账号数量有一千个,所以你会发现这里面形成了一个非常规整的一个金字塔的结构,其中的腰部账号其实撑起了主要的所谓的博主经济或者创作者经济的这样一个生态,我们所能够接触到的信息的渠道是远远超过传统媒体时代的, 我再举一个最简单的垂类,大家都会在短视频平台上,比如抖音上,你会看到各种各样的探店的博主。去年我看到另外一个报告的数据是光是获得了收入,就是可以盈利的探店博主,在抖音一个平台上就有 58 万人。也就是说你想看那个探店,你有 58 万个可能性的选择。而这个相对于传统媒体时代是不可想象的一件事情。
是人选择了算法还是算法选择了人?
从算法机制,不管是图文啊视频啊这些平台, 以算法驱动这些平台它自己的利益出发,它想的是什么?它想的肯定是增强用户的粘性。那么增强用户的粘性一定是通过它喜欢什么就推给它什么吗?完全不是这样的。因为在心理学中有一个叫做间歇性的强化满足。举个例子,如果说我喜欢看小姐姐跳舞,抖音也好,快手也好,它在不断地给我推荐小姐姐跳舞,每一个视频都给我推荐小姐姐跳舞, 这件事情会让我的内心获得满足吗?心理学实验告诉我们不会,这会让我逐渐觉得没意思。这是为什么呢?
就是多巴胺的分泌并不是我喜欢小姐姐跳舞,我看到了小姐姐跳舞之后,我会分泌。而是我在刷到下一个视频之前,我在想会不会有一个特别好看的小姐姐出现在我的面前呢?我在想这个事情的时候,在期待这个事情的时候,多巴胺的分泌其实是最高的。我再举个例子,比如说微信。我们在看微信的提醒的时候,它告诉我们有一条新信息,但它不会告诉我们这是点赞还是评论,是很简短的评论还是很长的评论,是很稀松关系的朋友的评论还是很亲密关系的朋友的评论,还是我可能暗恋的那个对象的评论,它不会告诉我。
那这个时候我们的多巴胺分泌是最大的。那这时候会有两种情况,一种是失望,原来是一个我都不知道他是谁,什么时候加的一个人给我点了个赞, 我可能会觉得浪费我这一秒钟,但也有可能是我特别亲密的一个人,甚至我暗恋的那个人给我留言,留的还特别长,那我会非常的开心,而在这个期待当中,我们会增加我们的多巴胺分泌。那同样道理,即使从平台的利益角度,它也不会去制造这样的一个过滤气泡,而这种过滤气泡的完全的极端化的制造其实是有损于用户体验的。这是一个从心理学角度讲的另外一个事情。
技术在信息中扮演什么角色
我一直会更倾向于认为技术在人类社会当中所扮演的角色是显现社会问题和放大社会问题,而不是造成社会问题。李飞飞也说过一句话,她说技术是中立的,技术的价值观其实就是人的价值观,就是看你怎么样去用它。
但是技术是有势能的,现在信息传播的方式是技术,但是回顾历史,有一些有趣的发现:
古埃及的媒介技术是石头,这可能大家想不到,因为那会儿没有什么书写特别便利的东西,所以大家是在石头上刻字。但是石头这种媒介导致了什么呢?导致了知识的垄断。因为能在石头上刻字的人不多, 而相当少部分能够有能力在石头上刻古埃及文字的那些人会被皇帝组织在一起。
但是古埃及的文明发展到一半,突然在尼罗河边出现了一种植物做成的纸张叫做缩草纸。就是尼罗河边上的草叶子鼓动鼓动反正挺复杂的工序吧, 做成了一种人类最早期的纸账。而缩草纸的出现和什么是相关的呢?是和古巴比伦的世俗文学的出现。简单来讲就古巴比伦时期的霸道总裁小说就在缩草纸的出现之后很快出现了, 因为缩草纸是每个人都可以写的。他的难度不大。他不像石头一样需要你去学习雕刻
那这时候当每个人都有书写的权利的时候,那么世俗文学就会诞生。世俗文学就会反过来对宗教王朝产生威胁。因为他发现我所讲的不再是古埃及的太阳神拉,不再讲拉的故事了。讲的是男欢女爱、儿女情长。这时候古埃及的宗教王朝就会受到削弱。甚至传播学者伊尼斯认为,正是因为这个事情,古埃及的宗教王朝没落了。所以技术一定是有偏向的。它偏向的是知识的垄断还是知识的开放?它偏向的是长久的保存还是快速的移动?比如我们会发现,可以长久保存的媒介, 它往往有助于宗教的延续
目的和分类:突破「信息茧房」
如果说信息茧房真的存在的话,哪些人是容易陷入信息茧房当中的呢?有两种人
- 第一种人是对公共事务漠不关心的人, 这种人他没算法,他也信息茧房。他自己也就看自己那样的东西。所以这一点就是我们会不会对公共事务有兴趣。
- 第二种特别有意思,就是他所使用的媒体的数量。
就如果只单一用一种媒体,且对公共事务不感兴趣的人,这种人没算法,他也会陷入信息茧房。这就相当于在电视时代,我每周只看快乐大本营,那我怎么可能没有信息茧房呢?但是如果我的媒体的使用是足够多元的, 我拿湖南卫视当做我娱乐的方式,我拿 CCTV1 当做我收看新闻的方式,比如我拿中国教育电视台当做我学习知识的方式,那这是传统媒体中的一个可能我们的 media diet, 那我个人的媒体使用效率就会非常的高。那其实我们把这个逻辑换到现在这个时代,我觉得是同样的道理。
这是我自己会特别想分享的,就是我自己的信息获取是高度目的化和分类化的。
带有目的性的消费信息
我们去用技术,而不让技术用我们。我自己的方式就是我的互联网使用其实是高度有目的性的。第一种目的性是区分是娱乐还是学习:就是有人会担心你玩游戏是不是会耽误你的时间啊什么的。我觉得不会,只要我能清楚地意识到我玩游戏是为了休闲,我需要这段休闲的时间。
第二种目的性就是分类: 我自己会有一套我认为相对可靠的信息源的组合。比如说在抖音上,我会通过关注那些我认为有价值的博主,这个有价值的博主带给我的有些是情绪价值,有些是知识价值,有些就是休闲价值,但是我会明白我想要去获得什么信息的时候我从哪找。我们可以管它叫做一个词叫做 Media Diet,什么媒体套餐。通过这种媒体套餐的建立,其实我们能够更有目的性的来去分配我们的注意力
降低噪音
一个做AI的朋友文章中提到他对AI日新月异的新闻的看法:
其实我已经很久不关注那些开源高 Star 的 AI 研发的项目了,以前我经常会去看,似乎不看就会错过什么。但是后来发现,这个领域的上限实际是模型,在比 GPT 4 更具颠覆性的模型出来之前,自动化水平其实很难进一步提高,工程可以推动场景落地,但推动不了自动化的上限。想清楚这个后我就释怀了,也不会因为偶尔刷到“三大顶会”(量子位、机器之心、新智元)的低质量软文而导致整天战战兢兢,满脑子都是 FOMO 的情绪,可以沉下心来去做一些当下就能做的、更务实的事情。
不同的信息渠道采用不同的方式
泓君说她做播客之后第一个改变是看书的时间反而变多了。第二类变多就是我看新闻弹窗,比如说搜狐网易或者美国的这种 Apple News, Google News,只看这种每天的短新闻变多了,就只看当天发生了什么事。同时我的邮箱会有一个美国的有点类似于微信公号的这个订阅是邮箱订阅嘛,然后我订阅纽约时报,华尔街日报,The Information, 加一些稍微垂直一类的媒体。
我觉得基本上这些信息就构成了我能跟进我当天关注的一些热点事件的一个基本的信息需求。
有了这样的一个媒体套餐以后,比如说像 TikTok、抖音、小红书、YouTube 这些东西就变成了我的搜索平台了。它们对我来说是一个搜索工具。然后另外就比如说我在研究 AI 的时候,我就会去看 AI 领域的一些顶级学者的一些推特,然后我会在他们的关注列表里面去看他们关注了谁。
能力圈+好奇心
我在之前的文章如何最大化的利用好信息这篇文章中提到了一些策略,为了体系化的表达内容,我还是把内容再粘贴过来:
- 兴趣和好奇心
- 信息源跟着兴趣走
- 梳理清楚自己的信息渠道
- 固定信息源
- 每个领域只重点关注5个人
- 好奇心
上周我在微信群种看到有人推荐薛兆丰的万物经济学这个课程,当时我在想,如果我没看到这个群消息,会不会就错失了这个很有价值的课程,但是过度的关注各种消息渠道又会让自己的注意力被打散,我认为人有三种资源,第一是金钱,第二是时间,第三是注意力。其中时间比金钱宝贵,注意力比时间更重要。所以我不想让自己的注意力因为想获得一些信息变得分散,就有了这篇小短文,如何最有性价比的获得信息
对于信息的处理,我在网上见过两种类型的人:
- 第一种类型是完全基于算法推荐,平台推荐什么就看什么
- 第二种类型是尽可能的寻找各类信息源,构建RSS,生怕错过任何一条信息
我之前也曾是第二种,收藏尽可能多所谓的「知识」,记得那时候还在使用Google的Pocket作为稍后阅读工具,结果稍后阅读就会变成「永远不读」,但是还是控制不住自己的收,看到什么就会Send It Read later,后来总结出了自己的一套方法,今天分享一下怎么最有性价比的获得信息,整体来说有两点:固定信息源和好奇心
固定信息源
至少在当下,优质的信息都可以和某个人关联起来的,所以只关注自己的领域内最值得关注的5个人,这个策略会让你对于信息源的变得挑剔,并且最值得关注的5个人不会让你错过大部分优质的内容,又不会让过多的信息变得泛泛而谈,这个信息量的性价比可谓是相当的高,比如AI领域,如果你关注了:
- 吴恩达
- Andrej Karpathy
- Ilya Sutskever
- 宝玉
那么AI圈的一些新技术和深度的内容大概率不会错过,既有深度,又有时效性
好奇心
在即刻、微信公众平台、Twitter、微博、B站、YouTube等平台的算法推荐和自己主动浏览获得的信息是基于好奇心的探索,这里我讲一个孟岩的播客中的一个小故事:
有一篇最喜欢的文章:《攀爬错误的山》,在这篇文章里面, 他把我们的职业选择比喻成计算机科学里面的一个经典问题, 叫做爬山问题。如果你条件允许的话, 你依然可以闭上眼睛。我们想象一下我们被随机放在一个有很多大大小小的山峰的这样的山谷里, 那你最终的目标是到达这些山峰里面最高的那一座。好了, 但是限制来了, 因为雾气笼罩, 你只能看到周围的几米的距离。
我们再来重复一下, 就是你被丢到一个有大大小小的山峰的这样的一个山谷里面, 随机的, 不知道在哪, 每个人也都不一样。那你的目标是到达这些山峰中, 我们从飞机上可能能够看到最高的那一座, 对吧? 你的目标是攀爬到那一座上面去。但是因为雾气笼罩, 你只能看到周围几米的距离。你可以想想你该怎么办。Chris Dixon告诉我们说最简单的算法是在任何给定的时刻都朝着你能够走的更高的方向去迈进一步。对吧? 这个就是我们前面说的围绕着目标函数在做优化。
我想我说完这个你可能就明白了, 朝着能够让我走的更高的那个方向去迈出一步。这就好像是一个看似正确的目标函数。但是就像我们前面所说, 这个函数具有很大的欺骗性。如果我们恰恰好是从一个较低的山丘开始, 最终我们可能就会停在那个较低山丘的顶部, 而没有机会去探索那个最高的山丘的顶部了, 对不对? 一个稍微修改一点的版本的算法是什么呢?
是给你的过程增加一些随机性比如说你一开始有很多的随机性可以往各个方向去溜达然后随着时间的推移呢这些随机性的程度会减少这样在你开始有目的非随机的攀爬之前你有机会在较大的山的附近徘徊, 对吗? 好了, 那一个更好的算法是什么呢? 是增加方差。比如说, 将自己反复随机的放置在地形的不同部分, 方差越大越好, 然后开始爬山。并且关键的是, 在很多次尝试之后, 你可以停下来看看, 结合到自己收集的所有的信息, 看看究竟哪座山峰是最高的那座山峰。
李沐的这篇《用随机梯度下降来优化人生》文章我也很喜欢,他的观点和上面的文章也相互呼应,我引用原文的的三个点:
- 要有目标。你需要有目标。短的也好,长的也好。认真定下的也好,别人那里捡的也好。就跟随机梯度下降需要有个目标函数一样。
- 四处看看。每一步走的方向是你对世界的认识。如果你探索的世界不怎么变化,那么要么你的目标太简单,要么你困在你的舒适区了。随机梯度下降的第一个词是随机,就是你需要四处走走,看过很多地方,做些错误的决定,这样你可以在前期迈过一些不是很好的舒适区。
- 很远也能到达。如果你是在随机起点,那么做好准备前面的路会非常不平坦。越远离终点,越人迹罕见。四处都是悬崖。但随机梯度下降告诉我们,不管起点在哪里,最后得到的解都差不多。当然这个前提是你得一直按照梯度的方向走下去。如果中间梯度炸掉了,那么你随机一个起点,调整步子节奏,重新来。
目标是自己的能力圈,四处看看是好奇心,带着目标和好奇心一定会让你走下去
实践-如何打造自己的信息流
信息分类
- 一手知识:第一手的观察、实践,通常是直接的观察、实验和记录,例如日记、手稿、来自科学实验的数据,直接来自当事人的所见所闻所思。对于新闻媒体和学术研究,一手信息非常重要。一手信息的本质是证据,是知识生产的原材料。就像稻米之于饮食,泥土石头之于房子,第一手资料是知识生产在第一环节的素材。可以说,一手信息的本质是观察和实践。
- 二手知识:二手资料、二次文献已经不是直接的记录和观察,而是对一手信息的分析、综合、评价,在此基础上的整合、重构与创造。二手信息必须以一手信息为素材,但二手信息的本质是创造。例如,学者写的、论述自身领域研究和理论的书籍和论文(综述性质的书籍和论文),就属于二手信息;典型的二手信息还包括行业研究报告、专业的数据库等。二手信息是高质量、高层次认知活动的产物,需要分析、评价、综合、创造;二手信息有显著的信息增量价值,二手信息的通常特征是关注底层原理,结构化的系统梳理,深入而精彩的分析论证,深度而有原创性的思考。二手信息创造了新知,是人类探索知识、追求真理的主战场,可以说,二手信息的本质是创造。
- 三手知识:三手资料、三次文献通常是对二手信息进行忠实的、全面成体系的梳理和整合。它们以部分第一手资料和二手信息为素材,对一手信息和二手信息进行结构化、系统化的梳理和综合,通常来自非学者,大部分商业书籍都是如此。三手信息的特征,不是直接创造新知,而是整理和综合已有知识,通常无信息增量(例如维基百科、大学教科书);或者信息增量太少,所创造的新知和新思想不是内容主体部分(商业书籍)。
- 45678手知识:层级低于三手的其他信息。没必要分清楚到底是第10还是第11手,于是我统称为「45678手信息」。对三手信息的转述,就是四手信息,层层转述下去,子子孙孙无穷尽也,就像小朋友的传话游戏,没有人去溯源验证真伪,也没有规范的知识生产流程,自然就在信息层级的台阶上一路滚下去,从「我们用小手机获取新知识」传成了「我们每天都吃免费肉包子」,变成了低质量信息
不同的信息源做不同的事情
- 用四手信息作为思考起点
- 用三手信息快速学习:建立大局观,搭建知识树框架,在发现问题、明确学习目标的基础上,作为主题研究、有目标有方向学习的第一步,就是要快速对你的学习目标建立整体性认识。
- 用二手信息深度学习:深挖原理,把握关键概念、思维模型和重要理论,让知识树枝繁叶茂;
- 用一手信息作为证据:谈到一手信息,有人会认为一手信息质量最高,学习者要「站到知识源头」,去读学术论文,但是普通人在学习时选择学术论文,首先不现实,其次不必要,一手信息的本质是证据,是素材,是原始材料
高质量的二三手信息来自真才实学,是最好的学习材料,高质量的三手信息有向导价值,高质量的二手信息有最大的思想价值;三手信息是你快速入门、高效速搭建知识体系的信息源。二手信息是你做主题研究的重要来源、重要资料;
确定信息源:构建自己的信息源
上面介绍了很多,包括能力圈和好奇心,都是为了这一步做准备,只有你关注的能力圈才会产生信息源,关注哪些信息源,就取决于你的能力圈
- 书籍
- 视频源:视频和播客
- 网页文章(博客和微博等)
- 与人的沟通交流
打造自己的workflow:阅读
有了信息源之后就是阅读和整理,涉及的流程有几个步骤:
- 收集
- 筛选
- 定制
- 阅读
收集
收集是目的,可以通过RSS,也可以通过自己每日主动回顾的方式,安排好自己的节奏即可
我的阅读系统,包括几个关键工具:用 readwise reader来承载互联网阅读(包括文章、视频、推特、论文、电子书),用微信读书来读书,最后通过笔记软件进行整理
社交媒体也是一个可以使用的信息来源,例如,我们在Twitter 上,可以看到他们最新的动态和分享。看到好的内容,我不会使用 Twitter 自带的 bookmark 收藏机制,并且现在readwise支持Twitter的List,也可以将Twitter关注的List每日推送
筛选
收集阶段实现了信息洪流的“海纳百川”,但是,我们实际阅读需要少而精,这就需要我们进行手动筛选。
Readwise read 的 feed 页面中会不断收到新投递来的信息,每天用 5~10 分钟时间来筛选当天的新信息。
- 首先,按主题筛选:只看标题,从主题判断,如果是我感兴趣的,觉得有用的,我就会点进去大致浏览。
- 其次,按质量筛选:点进去之后,快速拖着浏览文章的整体结构,浏览段落的前几句话,浏览文章中的图片和图表,很容易就能判断文章的整体质量和内容丰富度。
- 如果文章通过了前两轮筛选,我就会把文章转到 inbox 中。feed 中的其他文章则一键清空,实现今日 feed 信息流的归零。在 readwise reader 中,这一步被称为“mark all as seen”,标记全部内容为“已见”,没有用“已读”二字,这个文案是准确的。
定制
现在AI出现之后,填补了很多RSS的问题,例如过载,我关注的bestblog就是一个很好的例子,他通过AI建立了一套workflow,让AI判断文章的质量,只推荐高质量的帖子,这也是一种定制
还有一种定制是「主题阅读」,通过建立标签(Tag)分类来阅读,包括文章、视频、播客、书籍、微博、Twitter等等,这个理念我上面也提到了,关注他的一切,和他建立「深度链接」
主动阅读
- 略
总结
这一篇从卡片盒笔记法种下了第一颗种子,到现在写出这篇文章已经3年时间了,今天花了3个小时的时间整理完成,我觉得可以达到自己80%的满意度了,在此借鉴了很多优秀的文章和书籍,其中包含了:笔记的方法、小能熊学习工作室的费曼学习法、信息茧房Wiki介绍和孟岩的播客,再次感谢