《社会心理学》半部读后感

浏览了前四章 ,关于:社会思维。有几个有趣的观点。

1、态度和行为,个人的态度可能跟实际的行为没有太大相关性,隐含态度、社会观念影响、所处环境可能会改变行为(违心行为的发生)。相应的,扮演的对象所发生的行为,往往影响态度的变化,比如处于一个模拟环境中,文明可能消失。

2、自我感知,自我感觉良好是人之本能,评判自己和评判别人总是不自觉的偏向自己。

3、看待别人的偏见,可能进一步为自己不自觉的收集偏见的证据。比如:设想对方存在某种方面的问题,交往过程就会不自觉偏向性发现该方面问题。

4、不断的重复行为训练过程,可能会改变态度。也只有通过行动改变,才能推动认知的改变。

《社会心理学》半部读后感

2021年的2020奥运会

昨天,奥委会和日本政府宣布2020奥运会延期到2021年,仍然叫 2020奥运会。
疫情的发展快到出乎意料,仿佛世界人民开始跟曾经的中国人民一样宅在家里。意大利已经很艰难,美国政府的不重视,进一步扩大了疫情的蔓延。

人类命运共同体,感受如此的强烈。美国优先的场景下,本届美国政府难堪大任。什么时候欧洲人民和东亚人民联合起来?“佛系”政策是会出乱子的,期望看到全球性大联合。

当2021年的2020奥运会开幕时,应该有个特别的感谢节目。

2021年的2020奥运会

Say hi to 2020

进入2020年,二十一世纪已经过了20年。“千年虫”问题仿佛还在耳边。20年前的BAT、google、fb还在萌芽;20年前有互联网泡沫,而如今的世界也存在很大的金融泡沫风险。

风险和机会共存,20年前的大型科技公司现在看似乎就苹果、微软转型成功了,雅虎、Sun消失了。没有一成不变的商业模式,可以预见20年后一定有几个大的公司出现,也会有大公司消亡。不过回头看2000 vs 2020 相比 1980 vs 2000,变化还是小了一些。

有了高铁让我们游的更多;
有了电商让我们花的更多;
有了微信让我们聊的更多;
有了搜索引擎让我们知道更多。

或许历史会记录这20年为互联网蓬勃发展的20年,我们的沟通方式已经从文本、电话变成语音、视频。相信下一个20年,5G、6G会让我们生活在更多元的的多媒体世界中。

Say hi to 2020,今年有奥运会。
Say hi to 2020,今年有更多精彩的故事。

Say hi to 2020

聚类分析的过程和两个常用的聚类算法

聚类分析过程

一般聚类分析的数据源是需要相对干净的,即需要做统一的特征清洗、特征变换过程,即空值、非法值、异常值、类别变量等的处理。主要过程如下:

数据采集:我们可以认为是统一的ETL过程,这里涉及埋点、转发、存储、提取等过程。是典型的数据分析前置过程。

特征变换/特征选择:聚类对异常数据特别敏感,同时原始数据直接进入聚类分析不大现实。特征处理包含行维度、列维度的处理,行维度主要包括:空值、非法值、异常值等方面的处理,而列维度涉及降维处理,冗余的列对聚类影响较大,所以一般聚类分析之前会做一次PCA。

聚类分析、聚类评估:下文将重点举例描述

结果解读:无监督学习,一般没有label,聚类的数量也是未知的,需要结合业务知识进一步解读聚类结果,比如从用户画像维度进一步切分同个分类的数据,从统计维度挖掘特征。

知识发现:解读结果之后,需要落地实现或者输出报告,我们把这个过程称为知识发现的过程。聚类结果产生的label结果,往往可以作为监督学习的来源。

下面举两个经典的聚类分析算法进一步说明。

Kmeans

基于距离聚类的聚类算法

算法步骤:
1、根据设定分类数量,随机生成N个中心点
2、每个点计算与中心点距离,按最近距离合并分类
3、基于2重新计算每个分类的中心点
4、重复2~3,直到中心点收敛

sklearn实现

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3)
pred = kmeans.fit_predict(X)

聚类效果

GMM

高斯混合模型是几个高斯分布的叠加,每一个分布代表一个分类

算法步骤:
1、设定分类数量
2、对每一个高斯分布均值、方差随机初始化
3、计算每个样本的在各个高斯分布的概率、权重值,Expectation-step
4、根据最大似然重新估算高斯分布均值、方差,Maximization-step
5、重复3~4直到高斯分布均值和方差收敛

sklearn实现

from sklearn.mixture import GaussianMixture

gmm = GaussianMixture(n_components=3)
gmm = gmm.fit(X)
pred_gmm = gmm.predict(X)

聚类效果

模型评价

GMM和KMeans分类结果有一定的随机性,可能得到局部优化解,需要多次微调。
GMM是概率分类结果,可以对比topN分类,比如文档聚类;GMM计算代价更大,大数据集是个负担。

评估指标

聚类算法的评估主要衡量两个方面:同类紧密程度、类间分散程度;从不同指标看,同类越紧密、类间越分散,聚类效果越好
基本上为无监督聚类,所以“Rand Index”之类的指标不是太实用,常用EIBOW方法 ,根据SSE评估聚类效果,另外对于聚类结果评估可以采用以下两种方式:

1、Silhouette index

    s = (b-a)/max(a,b)
    ai:同分类内,单点与其他点的平均距离
    bi:分类中的点与最近分类点的平均距离
    a:所有点ai的均值
    b:所有点bi的均值

基于轮廓的衡量方法,可能不适合 Single link、Complete link、DBSCANE等聚类方法。

2、Calinski-Harabasz
CH指标通过“同类”、“类间”协方差矩阵的迹(各个变量的方差)衡量,计算速度较快。

聚类分析的过程和两个常用的聚类算法