大部分评分系统的通病是作为一个投票系统,它们基本不能满足参与其中的任一个体因素对于最终结果的影响必须尽可能的微小这一基本条件,从而使其满足中心极限定理(CLT)的要求(术语:林德伯格条件)使结果尽可能接近正态分布。
结果是票数越少说服力越低,票数多了又会产生抱团的羊群效应(例子:厨团票)依然没法满足说服力。最后几乎所有评分极端些的成了幂律分布,稍好些的成了偏斜分布(偏态分布)。
个人认为最终的解决方案还是得靠具体分析投票数据,通过数学手法给不同的票源按某种针对的标准进行不同权重参数的加权操作,调整不同的投票权重,进而最终调整其分布形态使其尽量好的符合正态,在这基础上观察平均值中位数众数等才有意义。而模型的说服力完全可以用分布的偏度(三阶中心距)来测量。
进一步推而广之:不失一般性(WLOG),我觉得完全可以把评分和播放量、萌战、销量啥的都统一到抽象的投票系统模型来分析,换句话说所有这些跟数字扯上关系的统计量实际都是概念上等价的,只是具体应用上的一些参数在不同情景下不同罢了。
当然现实很难在满足这样良好的理论条件下展开统计,所以大家都喜欢粗暴的认为样本量越大越有说服力,结果这种完全忽略样本的分布形态的简化方式造成了一切的争执。
对一个抽样统计的结果注入各种各样的主观情绪的最终恶果是使得人人“谈分色变”,视数字如视鬼神,否定包括销量、播放量在内的数值本身具有的客观现实意义,损害了统计学作为数理工具本身的客观唯物性。把一切判断留给自己的主观好恶,最终导致了唯心论甚嚣尘上的现状。
