《社会心理学》半部读后感

浏览了前四章 ,关于:社会思维。有几个有趣的观点。

1、态度和行为,个人的态度可能跟实际的行为没有太大相关性,隐含态度、社会观念影响、所处环境可能会改变行为(违心行为的发生)。相应的,扮演的对象所发生的行为,往往影响态度的变化,比如处于一个模拟环境中,文明可能消失。

2、自我感知,自我感觉良好是人之本能,评判自己和评判别人总是不自觉的偏向自己。

3、看待别人的偏见,可能进一步为自己不自觉的收集偏见的证据。比如:设想对方存在某种方面的问题,交往过程就会不自觉偏向性发现该方面问题。

4、不断的重复行为训练过程,可能会改变态度。也只有通过行动改变,才能推动认知的改变。

《社会心理学》半部读后感

2021年的2020奥运会

昨天,奥委会和日本政府宣布2020奥运会延期到2021年,仍然叫 2020奥运会。
疫情的发展快到出乎意料,仿佛世界人民开始跟曾经的中国人民一样宅在家里。意大利已经很艰难,美国政府的不重视,进一步扩大了疫情的蔓延。

人类命运共同体,感受如此的强烈。美国优先的场景下,本届美国政府难堪大任。什么时候欧洲人民和东亚人民联合起来?“佛系”政策是会出乱子的,期望看到全球性大联合。

当2021年的2020奥运会开幕时,应该有个特别的感谢节目。

2021年的2020奥运会

Say hi to 2020

进入2020年,二十一世纪已经过了20年。“千年虫”问题仿佛还在耳边。20年前的BAT、google、fb还在萌芽;20年前有互联网泡沫,而如今的世界也存在很大的金融泡沫风险。

风险和机会共存,20年前的大型科技公司现在看似乎就苹果、微软转型成功了,雅虎、Sun消失了。没有一成不变的商业模式,可以预见20年后一定有几个大的公司出现,也会有大公司消亡。不过回头看2000 vs 2020 相比 1980 vs 2000,变化还是小了一些。

有了高铁让我们游的更多;
有了电商让我们花的更多;
有了微信让我们聊的更多;
有了搜索引擎让我们知道更多。

或许历史会记录这20年为互联网蓬勃发展的20年,我们的沟通方式已经从文本、电话变成语音、视频。相信下一个20年,5G、6G会让我们生活在更多元的的多媒体世界中。

Say hi to 2020,今年有奥运会。
Say hi to 2020,今年有更多精彩的故事。

Say hi to 2020

压在数据分析同学身上的”三座大山”

最近跟数据分析同学闲聊,收集了一波数据分析同学被挑战的问题。比较有趣的是,不同部门的数据同学提的问题,很大部分问题是重叠的。问题简述如下:

1、这个数据为啥不一致,靠谱不靠谱?
2、计算为啥这么慢,跑一段sql的事情要这么久么
3、筛选维度为啥不能自由组合,多选+汇总+展开都支持
4、数据需求就跑sql,为啥那么慢呢
5、虽然没数据,逻辑你先写吧
6、我要这个数据,下午给我
7、我们什么时候搞点机器学习项目
8、自己模仿跑sql,挑战结果不一致
9、报表数据不能跨年查询
10、报表上线后很长一段时间都会被反复追问口径和逻辑,用的哪个表,怎么算的
11、希望在报表侧自由选时间段并且数据是时间段内按人数去重汇总
...

有些问题比较类似,进行了合并,并命名为压在数据分析同学身上的"三座大山",再简述如下:

数据计算慢

1、查询慢,这个报表能不能用,跨年查询卡死了
2、计算慢,日报还没推送,今天还没出,为啥这么慢
3、实现慢,这个需求只要简单跑个sql,为啥那么慢

数据维度繁杂

1、导数支持,要汇总也要细分,更要明细,报表麻烦支持下
2、实时去重,希望根据不同时间,去重统计UV
3、多维支持,再加几个维度吧,现在十多个维度还有点少

数据准确性

1、指标差异,这2个指标看起来一样,数值对不上
2、对数差异,模仿跑了下sql,结果不一致,给我解释解释
3、逻辑验证,逻辑复杂,计算逻辑和口径无法确认准确性

暂不讨论解决方案,要完整的解决这些问题 ,底层计算方案、BI方案是需要review的。

不过,我们从中可以窥探出,需求方理解的数据需求实现,特别是PB数据需求实现,是有理解偏差的。可能很多产品或者前端同学对“大数据”意味着什么,并没有概念,所以需求就可能想当然。

简单挑几个点讲讲。

“数据计算慢”的问题,如果需求方说:“帮忙跑个sql”,并且附带一句:“这个需求很简单”,一般的数据分析师会默念或者画圈圈。“实现慢”是按需求者视角,不考虑实现者的需求并行负担。另外的真正的“计算慢”的问题一般跟实现相关,数据倾斜的概率比较大,数据分析师是要好好解决的。

“数据维度”的问题,从开源的实现方案看,apache kylin可以部分解决"数据维度"的问题,但是多维度也是需要预先定义好的。

只要统计数据又要明细数据是见过最多的统计需求,问题是,统计需求又要明细,那么意味着原始数据存储的量是特别大,必要性要好好评估的。往往指标数据、监控数据或者原始记录的需求放一起是不对。

“数据准确性”的问题,当然,准确性是数据分析的基础要求,往往挑战来自于不同的报表实现,过多的特殊逻辑导致。整个数据的DWS层需要统一管理,这样应用层只取一处数据可以缓解的这个问题。

压在数据分析同学身上的”三座大山”