虚红实绿吧 关注:31,727贴子:2,722,019

「Center效应估计、销量分析及预测」统计分析看乃团(一)

只看楼主收藏回复

本文乃吧首发。不逛乃吧的感兴趣的话可以在这里看看。
自2011年8月21日一期生结成以来,乃团已经走过了8年历程。8年间,71位姑娘喊着“努力,感谢,笑颜”的口号将一个又一个青春故事写入了人们的记忆。在被她们的故事带来的冲击一次又一次震撼之后,我时常想自己除了继续喜爱和支持她们之外还能做些什么。作为数据分析爱好者,看着描述乃团出道7年多来发展轨迹的众多数据鲜有人问津,我决定利用它们做些什么。这篇文章可能有些长,但这已经是对我利用收集的数据进行统计分析所得结果的一个相对精炼的总结。其中有些结论可能和我们分析数据之前的认知相悖,但这也正是利用数据揭示事物发展背后真相的有趣之处。如果你能拿出一点时间静下心来看看这篇文章的内容,相信会觉得物有所值。
这篇文章将解决如下几个问题:
1. 概述乃团销量和握手数据,提出数据中有趣的点。
你写太长我不看哦:个握完售部数可能是销量的重要影响因素,但绝非唯一因素。运营在不断更新对参加个握饭群规模的判断。
2. 不同Center人选对单曲总销量/初动(首周销量)会有影响吗?
你写太长我不看嗷:就1到23单数据反映的情况来讲,乃团到目前为止的center人选对销量的影响没有显著差异。飛鳥C的单曲初动全都比上一单低,这个“锅”真要她来背吗?不背。在考虑首场个握与发售日间距之后,center人选对初动的影响没有显著差异。
3. 究竟什么因素决定乃团销量的增长?
你写太长我不看哇:个握完售部数(反映个握带来的销量)、人气成员个握缺席总部数(反映全握带来的销量)、年效应(反映不以握手为目的购买的初回限定盘及通常盘的销量)。
4. 基于统计分析,23单销量下降的原因是什么?为什么24单大力推新?
你写太长我不看呐:因为23单所对应的19年的年效应比22单对应的18年的年效应低很多。基于统计分析,我认为23单销量降低的主因是不以握手为目的购买初回盘和通常盘的人少了。这在一定程度上说明饭群可能正随着人气成员毕业而发生变化。所以24单大力推新是有数据支撑的。详见文中分析。
5. 24单首周及总销量预测
你写太长我不看呦:为避免后人来看时开头就打脸,请列位移步文章第5部分自行观赏打脸现场。提示:有具体数值及预测区间。


IP属地:美国1楼2019-08-09 12:39回复
    1. 乃团与销量相关的主要数据概述
    虽然看这篇文章的人想必都已经对乃团有了相当程度的了解和兴趣,但毕竟不是人人都能将数据烂熟于胸。这部分将以三张图来概述乃团在销量和握手(个握)方面的发展情况。
    图1

    图1展现了乃团销量的变化。蓝线是首周销量,即所谓的初动。红线则是单曲总销量,为单曲发售期过了之后能够查到的最新销量。和大多人印象相符,乃团一直上行,其中6单,10单和20单的销量出现了较大涨幅。23单销量比上单下降(截止到19年7月31日),我会在后文的第4部分对其原因进行分析。从图1中还可看出,9单之前总销量和初动的变化趋势几乎完全一致,9单之后初动则比总销量经历更多变动。后文将指出这和首场个握距单曲发售日的时长有一定关联。


    IP属地:美国2楼2019-08-09 12:42
    收起回复
      图2

      谈到乃团乃至其他秋元康制作的偶像团的单曲销量,握手是一个绕不开的话题。大家基本可以就“握手部数是影响销量的重要因素”达成共识。图2蓝线表示乃团个握完售部数随单曲的变化,红线表示运营分配或计划的总握手部数的变化。这里面有两点比较有趣。第一,对比图一乃团单曲销量的增长势头,从18单起个握完售部数成下降趋势,销量下降的23单反而个握完售部数增多。这说明个握完售部数可能是销量的重要影响因素,但绝非唯一因素。个握完售部数下降销量还涨说明以下的一种或几种必然出现:个握每部人数增加了(由于乃团人气走高,staff推人越来越快,这种情况很有可能);购买初回限定盘参加全握的人多了;购买无握手券通常盘的人多了(乃团单曲实体销量有三块:带个握券的通常盘(需在forTune Music网站上参加抽选中选并付款购买)、带全握券的初回限定盘(即我们一般购买的Type A-D盘)、不带握手券的通常盘)。第二,运营在不断更新对参加个握饭群规模的判断。运营计划的个握总部数并非一直上涨,从11单开始已经越来越接近最终完售部数。这说明运营计划的个握总部数可以在一定程度上当成其对核心饭群规模的预期(后文有用)。


      IP属地:美国3楼2019-08-09 12:43
      回复
        图3

        图3表示个握完售率的变化(个握完售部数/个握计划部数),应该和图2一起看。完售率受到运营计划部数的影响很大,很多时候不是一个很有意义的指标。如果运营能对有多少人来握手估计准确,完售率将始终接近100%。
        了解了乃团销量和握手的大趋势之后,让我们从第2部分起深入探讨一下几个大多数人关心的问题。接下来用到的数据主要来自Oricon、乃木坂46日文Wikipedia、muranokuma blog(每个人每单的个握总数据、每单初动及总销量。作者还对每个人非完售部分的销量贡献做了估算,感兴趣的可看。本文只用真实确凿的数据。)以及Seto Kasumi Ameba Blog(包括从3单起每个人、每个握手场次的数据)。


        IP属地:美国4楼2019-08-09 12:43
        回复
          2. 不同Center人选对单曲总销量/初动(首周销量)有影响吗?
          不妨从大家可能最关心也争论最多的一个问题开始。如果直接比较不同人当C时的销量,我们可以很容易得出当C越晚销量越高的结论。这是事实。当然考虑到饭群一直在增长,把不同时间点销量的差异都归结到center身上是不对的。所以我们需要解决如下问题:在刨除时间差异的情况下,center的不同人选对销量影响如何?在此基础上,如果剔除每单个握、全握安排、握手人数、单曲主题等因素的差异,center对销量是否有影响?为了回答这些问题,我们来看表1。
          表1总结了三种加入不同时间效应的线性回归模型的结果。到目前为止,乃团的center有18单都由生駒、白石、西野、飛鳥中的一或两位担任。这几位每人都担任过至少4次center。考虑到剩下的几位center最多担任过一次,自变量中的变化过少,无法得出有统计意义的结果,故只用剩下的18单数据估计模型。全部23单的版本我也做了,对主要结果没有影响。


          IP属地:美国5楼2019-08-09 12:44
          回复

            表1三个模型中因变量(y)都为单曲总销量,自变量为标明成员是否为该单center的虚拟变量,以及表示不同季度和年份的虚拟变量。比如,6、13、17、20四单,“白石C”这个变量等于1,其它单该变量为0。双C的单曲,只有一个成员的虚拟变量为1。所以我做了把双C分别算到两人身上的不同版本来保证结果的稳健性。生駒被作为参考基准,所以没有出现在列表里。结果中的系数可以解读为该成员相对于生駒对销量的影响。以(1)为例,不剔除季度及年份差异的情况下,飛鳥当C的单曲比生駒当C的单曲销量平均要高77万多。如前所述,想要比较不同center人选对销量的影响,我们需要考虑时间因素。(2)中考虑了季度差异,季度效应并不显著,也不是我们关注的重点,所以没有放入结果。最重要的是年份。年份效应包括了每一年保持相对稳定且影响销量的变量,它包括了饭群规模、与其他偶像团竞争强度等因素的每年相对稳定的部分。(3)中可以看到,在考虑年份效应之后,三位C相对于生駒对销量并没有显著影响。


            IP属地:美国7楼2019-08-09 12:45
            回复
              至此,我们还不能急于下结论说四位C对销量影响差不多。(3)中用来估计center效应的变化来自每年特定的季度到季度center人选的变化。这个变化由运营主导,由于加入的年效应部分控制了不同时段饭群和市场竞争的不同,这部分变化和其它影响销量的市场因素关系不大,相对外生。估计结果有一定解读的意义。另外,虽然看上去加入了很多自变量,我们却只有18个观测值,会不会因为数据太少所以结果不显著?然而前面说了,真正用来估计center效应的变化来自每年特定的季度到季度center人选的变化,就乃团而言,除了初期,center几乎每单都有变化,我认为用来估计已经足够。表1中白西双C都归为白石,所以白石的估计结果标准误差小,西野的大。为了让结果更令人信服,我还做了将双C尽可能多地归给西野、飛鳥的版本,对结果没有什么影响。这也降低了对数据太少导致估计结果不显著的怀疑。
              前文提到除了时间差异外,也应该剔除每单个握、全握安排、握手人数、单曲主题等因素的差异。这个我也做了,在加入这些变量后,即使不控制时间效应,center效应也不显著。综上,我对这部分的结果比较有信心——就1到23单数据反映的情况来讲,乃团到目前为止的center人选对销量的影响没有显著差异。当然,这只是目前的C过多次的几位成员间相互比较的结果,并不是说谁C都对销量影响一样。能在众多优秀女孩中脱颖而出被选为团队代表本身就说明这几位都有过人资质。我们得到的是“出色”与“出色”相比的结果而已。如果让我去当C,可以很明确地预计对销量会有跟这几位十分不同的影响。


              IP属地:美国8楼2019-08-09 12:46
              回复
                虽然几位center对总销量影响没有显著差异,但是否对初动影响不同?图1中显示飛鳥C的单曲初动全都比上一单低,这个“锅”真要她来背吗?我们沿用对总销量的分析来分析center对初动销量的影响。

                解读方式完全和之前一样,只是因变量换成了初动销量。不再赘述,(1)-(3)比较发现几位center对初动的影响没有显著差异。虽然不显著,然而飛鳥和西野都有负系数,而且标准误差不大。以防万一,多试几种双C的归类方式。只有在把19单双C归给飛鳥的时候结果值得一说,大家来看表3。


                IP属地:美国9楼2019-08-09 12:46
                回复

                  表3中(1)飛鳥系数虽然没有星号,但已经在0.06的水平上显著了,差一点就要标星。初动销量里包含不少为了参加人气成员个握早早参加抽选并付款的人,所以抽选付款时间毫无疑问会影响初动销量。这里方便起见,我用每单首场个握举行的日期和新单发售日的差距来衡量这一点。此处的假设是,首场个握距离新单发售日越远,抽选安排和付款时间越晚。
                  不要小看个握日程变化的幅度,首场个握和发售日差距最小的是5单时期的3天,最长的是19单时期的102天。(2)中飛鳥结果不显著,而且需要将显著水平设定为0.4才能让结果“显著”。所以无锅可背。类似的,首场个握的地点也可能影响初动,比如23单首场个握选在完售率最低的宫城。控制这个因素后,结果也不显著。
                  这部分最后简单提一句,我也做了前一单、前二单、前三单center人选对当前单曲销量的影响,试图看center人选对后续饭群扩大的不同影响,结果也是没有显著差异。另外,除了季度效应之外,我还尝试了其它控制年度内时间效应的办法。一个是按照日本的学期制将一年分成三学期加暑假,另一个是直接按单曲发行顺序(春、夏、冬)分。这些都对结果没有影响。


                  IP属地:美国10楼2019-08-09 12:47
                  回复
                    3. 既然center人选对销量影响有限,究竟什么因素决定销量增长?
                    每个喜爱乃团的人都一定希望她保持好的发展态势,天长地久,至少等到真夏46岁毕业的那天。那么我们一定希望搞清楚:刨除center的因素,究竟什么决定销量增长?答案其实直接又有点无厘头——饭群增长。这样跟没回答一样的答案显然不是我们想要的。我们想知道在运营可以直接控制的范围内,有哪些因素可以影响销量。
                    首先是价格。7年间,带有全握券的初回限定盘从1单的1600日元“大涨”到23单的1850日元。涨幅15.6%。带有个握券的特典通常盘由1000元“暴涨”5%到1050元。虽然我在戏谑,但这个涨幅还真比我想的多。不过考虑到7年间饭群的增长情况、市场竞争的降低,这个涨幅恐怕不高。总之,我们不能指望7年间相当于十几块人民币的价格上涨对销量造成大幅影响。另外,在给定的一年中,这些价格基本不变,这意味着加入年份效应就可以完全控制价格变化的影响。根据数据的可获得性,我将加入如下变量:个握完售部数、个握总(分配)部数、抽选总次数、参加个握成员数、人气成员个握缺席部数、是否是毕业表题曲、人气毕业成员是否参加全握、个握总场次、全握总场次、是否表题曲双C以及时间效应。前文也提到乃团单曲实体销量分三部分:个握通常盘、带全握券的初回限定盘以及无握手券的通常盘。带“个握”字样的变量主要用来解释个握盘带来的销量。人气成员个握缺席部数、人气毕业成员是否参加全握、全握总场次则主要用来解释初回盘带来的全握销量。通常盘的销量以及不抱着握手目的购买的初回盘的销量将由时间效应来部分刻画。需要指出的是“人气成员个握缺席部数”这个变量。简单来讲,如果你想和白石西野这样的高人气成员握手,她们却个握部数削减或是不参加个握,你就只能多买初回盘去全握见她们。其具体计算方法见表4的注。“人气毕业成员是否参加全握”也值得加入,生駒、西野等成员最后一场全握的盛景大家想必都有耳闻。我们一起来看结果。


                    IP属地:美国11楼2019-08-09 12:48
                    回复


                      表4中可以看到,虽然(1)中用来解释个握和全握的变量都有一些统计上显著,但在加入年效应后显著性消失。这是因为在(2)中我们需要用每个变量中每年特定的季度到季度的变化进行估计,如果这个变化不多,结果就有很多噪声。换一种说法,个握完售部数中的变化主要由饭群规模变化左右,如果时间效应已经很好地控制了饭群规模,个握完售部数就不再具有解释力度。为了能得到有统计意义的结论,我们要牺牲一些不是很重要的变量。季度效应不显著,而且在考虑年效应的情况下,如果运营的预期相对准确,“个握总(分配)部数”等个握安排已经可以部分控制饭群规模在季度间的变化。所以我们拿掉季度效应。表题曲双C也没什么解释力度,故去掉。


                      IP属地:美国12楼2019-08-09 12:48
                      回复

                        我们来看表5中的结果。不加入年效应时,完售1部大概增加600销量。这和坊间认为的握手一部600人比较一致。然而,随着乃团人气大涨,推人staff的排云掌也是愈加纯熟,推人恐怕也越来越快,想必每部的人数增加了。Muranokuma在他博客的估算中也把每部对应的枚数从1单的600逐渐增加到了23单的750。另一方面,除了我们能看到的完售部数,没有完售的部分对应的销量也可能通过这个系数反应出来,所以最终结果肯定高于600。
                        (2)中我加入了年效应,可以看到系数统计上显著的有三个变量:个握完售部数、个握总场次和人气成员个握缺席部数。前两个对应个握,第三个对应全握。个握完售一部增加销量677,这个结果比较符合前面的判断。人气成员个握每缺席1部,销量增加1443。大大高于600。一来全握比个握推人快,二来这个变量是用来近似我们看不到的全握盘售卖情况的。考虑到交通和时间成本,很多人往往选择多买盘、一次握多个成员。全握还有披露新单全部歌曲完整版的mini live这个亮点。人气成员的出现对全握初回盘销量的推动是不容忽视的。有意思的是毕业表题曲和人气毕业成员参加全握在控制年效应后并不显著。这可能是因为这两种现象都在近年出现,和年份高度相关。控制了年效应后,这两个变量也就没什么变化了。换句话说,年效应控制了当年饭群规模的固定部分,给定这个饭群规模,即使有人气成员毕业,也不再有因为这个买盘并能够引起销量显著变化的饭了。
                        值得一提的是,由于加入的变量基本都是解释个握和全握的,销量的第三部分——通常盘和不以握手为目的购买的初回盘基本被年效应包括了。这并不完美,但考虑到(2)中的变量可以解释销量变化的99.9%(R2),这应该是个不错的结果。我将利用(2)在后文第5部分对24单销量进行打脸预测。


                        IP属地:美国13楼2019-08-09 12:49
                        回复

                          表6跟表5一样,只不过因变量(y)换成了初动。因为个握完售部数用的是单曲抽选截止后的最终结果,对初动的作用比总销量小是正常的。人气成员个握缺席部数对初动有负效应也好理解。人气成员缺席个握越多,在知道她们会参加全握的情况下,个握的吸引力就越低,很多人可能会多买初回盘准备参加全握而不是急着参加个握抽选,因而降低初动。


                          IP属地:美国14楼2019-08-09 12:50
                          回复
                            4.23单销量下降的原因是什么?为什么24单大力推新?
                            有了前文的基础,我们已经可以来分析一下23单和24单的情况。从我们的模型来看,为什么23单销量比22单低呢?由于四期生加入,23单的个握完售部数其实是增长的,由22单的696涨到765。但由于衛藤毕业以及飛鳥、梅澤个握比22单加了部,“人气成员个握缺席部数”这个变量由22单的220降低到204。当然这并不能抵消个握完售增加带来的增长。真正解释销量差异的在于年效应的降低。这说明个握和全握安排的差异不是23单销量比22低的原因。22单所对应的18年的年效应比其他年份都高的多,大约41万,而且和作为对比的12年比有显著差异。23单则回归到了和往年相近的水平(8万),而且标准误差大,不显著。虽然因为标准误差大不好对这个数值太认真,但我认为在控制个握和全握变量的情况下,年效应主要反映了不以握手为目的购买的初回盘和通常盘的销量(比12年多的部分)。同样年效应突出并且将将显著(在0.075水平上)的还有16年(18万)。这两年都有人气成员集中毕业,这看起来的确是个不以握手为目的的初回盘和通常盘销量增加的原因。综上,我认为23单销量降低的主因是不以握手为目的购买初回盘和通常盘的人少了。从估计结果上讲,由于年效应标准误差较大,我就不对这个判断过多强调了。但直觉上讲,这似乎是个合理的解释。
                            如果你认为我上面的判断有一定道理,那么也应该赞同有很多18年不参加握手但买盘的人选择不买23单。即使不考虑18年异常高的年效应,19年的年效应也比17年有所降低(注:标准误差大)。这在一定程度上说明饭群可能正随着人气成员毕业而发生变化。运营比我有更多更全面的数据,他们没有理由意识不到这一点。如此来看,24单大力推新是有数据支撑的。如果只看个握,乃团销量高枕无忧。但人气成员毕业导致的饭群的变化以及随之而来的对全握、非握手盘购买两大部分的冲击是很可观的。乃团想要稳住甚至继续提升销量只能推陈出新,大力吸引新饭。同时在人气成员毕业前尽量让她们参加全握。这些也体现了偶像团长时间稳定在高位的难点——不仅团会随着人气成员毕业进行世代交替,饭也会随着年龄增长、首推毕业世代交替。做好成员更新换代的本质是为了吸引新饭,尤其是和新人气成员年龄相近的饭。这样即使以后饭不是同一批人了,乃团也依然可以是国民女团。
                            话又说回来,考虑到18年的特殊性,23单销量绝对不差。而且我用的并不是23单总销量稳定之后的数据。估计结果只是暂时的。美月未参加23单个握但参加全握以及玲香毕业前最后的全握这两点都未计入我用的销量数据中,考虑这些之后,23单总销量还会提升。最后提一句个人很感兴趣的6单相比5单销量大幅上涨的原因。相比5单个握完售142,6单大幅提升至325,二期以两人一组的形式加入个握,也使得握手人数由33增加至了44,个握场次增加1场。根据我的模型,5、6两单个握方面的差异可以解释销量增长的90%左右。以生駒作为核心的前五单真的是失败的吗?我想数据分析的结果已经给出了答案。


                            IP属地:美国15楼2019-08-09 12:50
                            回复
                              5.24单首周及总销量预测
                              写这部分就是用来打脸的。第一,模型过拟合影响预测能力。第二,24单销量预测需要用到19年的年效应估计值,所以和23单的估计结果很有关系。由于23单最终销量并不知道,24单的预测也会受影响。第三,未来会发生模型里没有考虑的东西几乎是板上钉钉之事,预测自然打折扣。给自己找好台阶下之后,我们还是来预测一下24单初动及总销量,毕竟都做了不少事了,缺了这有趣的一步总觉得少点什么。先看之前估计的模型的拟合效果。
                              图4

                              图5

                              图4和5分别展示了模型的拟合结果。模型的拟合值基本和真实值重合。两个模型都可以解释超过99%的销量变化。当然这说明不了什么,对于单曲销量这种和时间高度关联的、而且比较宏观的数据,这是正常的。好了,上预测值吧。根据目前的估计结果,24单销量预测值为1126723。95%预测区间为[1050153,1203293]。即如果我们的模型是对的,真实销量有95%的可能在这个区间中。再看初动,预测值为962751,95%预测区间为[902846.69,1022655.9]。假如24单初动低于百万,我不会惊讶。但这意味着乃团下行了吗?并不。如果到时饭圈江湖因此兴起讨伐运营和四期生的血雨腥风,希望能有人记得这篇文章。如果初动超过百万,我希望多超一点,打脸打得越响越好。不过,玩笑之余,除了23单总销量不知道使得新单销量预测没有把握之外,我对之前的分析结果是有信心的。


                              IP属地:美国16楼2019-08-09 12:52
                              回复