T

akela's blog

Musical Theatre | Data Science | Random Stuff

Look, I Made Some Charts

桑剧数据可视化分析

titanictomato

13 分钟


  • 标题其实可以写成 LOOK, I MADE SOME CHARTS
  • 文中对“桑剧”的定义较为宽泛,除了由桑德海姆同时担任词曲作者的音乐剧外,还包括 West Side Story, Gypsy 等只参与了作词的剧目以及 Putting It Together, Sondheim on Sondheim 等 revue
  • 为行文方便,下文将使用 “剧目名称 ’年份后两位数字” 的格式来表述特定的制作(例如West Side Story '09指 West Side Story 2009年百老汇复排),同时分别将 A Funny Thing Happened on The Way to The Forum 和 Sunday in the Park with George 简称为 Forum 和 Sunday


百老汇联盟 (The Broadway League) 自 1984 年 6 月 10 日起每周都会公布各剧目当周的票房收入、观看人次、上座率等信息。我从百老汇联盟官网的研究与统计页面上爬取了截至 2020 年 3 月 8 日的所有历史数据,并单独针对桑剧绘制了一些图表,以直观比较各制作的演出场次、票房收入、上座率、平均票价等指标,分析其变化趋势。

1984 年至 2020 年这 36 年间共诞生了 25 部桑剧百老汇制作,其中Sunday '84, Into the Woods '87, Passion '94Sondheim on Sondheim '10是原版制作,其余均为复排或百老汇首演(如Assassins '04)。部分剧目有多部制作,详见下表。

表 1: 桑剧百老汇制作 (1984 - 2020)
剧目制作
Company’95, ’06, ’20
Gypsy’89, ’03, ’08
Sunday’84§, ’08, ’17
Follies’01, ’11
Into The Woods’87§, ’02
Sweeney Todd’89, ’05
West Side Story’09, ’20
其他Passion ’94§, Forum ’96, Putting It Together ’99, Assassins ’04, The Frogs ’04, Pacific Overtures ’04, A Little Night Music ’09, Sondheim On Sondheim ’10§
§:原版制作

1. 演出场次

下方为演出场次条形图,其中左侧的粉色条形代表预演,右侧的蓝色条形代表正式演出。West Side Story '20Company '20受新冠疫情影响暂时停演,这里统计的是它们截至 2020 年 3 月 8 日的场次数量。

桑剧百老汇制作 (1984 - 2020): 演出场次

图 1: 桑剧百老汇制作 (1984 - 2020): 演出场次

  • 近 36 年来最长演的桑剧是Into the Woods '84,在 1987 年 9 月 29 日至 1989 年 9 月 3 日的近两年时间里共进行了 43 场预演和 765 场正式演出
  • Passion '94从预演到关门只经历了不到十个月的时间,正式演出仅 280 场。Passion 也是目前为止演出时间最短的托尼奖最佳音乐剧
  • 复排中演出场次最多的是West Side Story '09,其次是Forum '96,随后是 Gypsy 在 1989 年和 2003 年的两次复排;这些剧目恰好都是桑德海姆较为早期的作品
  • Sweeney Todd '89Putting It Together '99外,其他正式演出少于 200 场的制作均为限期演出 (limited run)
  • 因饰演男主角的 Isaac Powell 膝盖受伤,West Side Story '20的原定开幕时间被推迟了两周,预演场次也因此罕见地达到了 77 场; 1984 年以来只有 Spider-Man: Turn off the Dark 有着更长的预演期(182 场)。

2. 票房收入

2 展示了各制作演出全程的总票房收入情况,左侧为原始数据,右侧则经过了通货膨胀校正,左右两侧条形的颜色分别代表着驻演剧院容量和每场演出的平均票房收入。校正通胀时所使用的指标是美国月度城镇居民消费价格指数,基期为 2020 年 3 月。

百老汇联盟首次发布周报时,Sunday '84开演已有 9 周,期间的 35 场预演和 36 场正式演出没有任何数据。我设法填补了这些缺失值(方法见文末),图中Sunday '84的票房收入只是由填补数据估算出的大致数值。

桑剧百老汇制作 (1984 - 2020): 票房收入

图 2: 桑剧百老汇制作 (1984 - 2020): 票房收入

  • 近36年来最吸金的桑剧百老汇制作是West Side Story '09,该制作演出全程的总票房收入达到了 9302.8 万美元。这主要得益于它长达 97 周的演出时间、庞大的场地规模(所在的 Palace Theatre 可容纳 1697 人)以及前期较为稳定的上座率
  • 截至 2020 年 3 月 8 日,West Side Story '20一共只进行了 77 场预演和 21 场正式演出,总收入却已超过近 36 年来半数的桑剧百老汇制作,场均收入高达 20.2 万美元注1。West Side Story 今年的这次复排自预演阶段开始就一直保持着 100% 的上座率,驻演场地又是全百老汇第二大、可容纳 1740 人的 Broadway Theatre,加之票价相对高昂(均价 108 美元,在同期的 22 部音乐剧里排名第 9),有这样的结果也可以说是不足为奇的
  • 排名前五的制作均使用了 1250 座以上的剧院;与此同时,这 25 部制作中只有Company '95Sweeney Todd '89使用了 750 座以下的剧院,而它们也正好是除Company '20以外总票房收入最低的两部制作;不过场地规模只是限制二者票房收入的原因之一,Sweeney Todd '89的上座率欠佳且票价极为低廉(详见第 4.2 节),而Company '95一共只进行了 111 场演出。
1 作为参考,部分热门剧目在 2019 年 3 月 9 日至 2020 年 3 月 8 日间演出的场均收入如下(已校正通胀,基期为 2020 年 3 月)
剧目场均收入 ($)
Hamilton37.6 万
The Lion King26.3 万
Wicked21.6 万
Hadestown15.6 万
Dear Evan Hansen14.8 万
The Book of Mormon13.6 万
The Phantom of the Opera12.6 万

3. 上座率

3.1 上座率 vs 日期

下图是周度上座率热图 (heatmap),图中颜色标尺的中间值为 70%,即上座率高于 70% 时颜色偏红,否则偏蓝,偏离 70% 越远颜色越深。因有站票销售,上座率有时会超过 100%。Sunday '84前 9 周数据缺失,在图中显示为灰色。

23 中的几处断点
  • Gypsy '89:1991 年 1 月 6 日在 St. James Theatre 闭幕,同年 4 月 11 日又在 Marquis Theatre 再次开演,先前已于 1990 年 7 月 29 日结束演出的 Tyne Daly 重返剧组继续饰演 Mama Rose
  • A Little Night Music '09:原计划在 Angela Lansbury (饰 Madame Armfeldt) 和 Catherine Zeta-Jones (饰 Desiree) 二人合同到期后结束演出,后因 Elaine Stritch 和 Bernadette Peters 前来接替相应角色而得已继续上演,新卡排练期间停演三周
  • Sunday '17:2017 年 3 月 13 日至 20 日停演一周
桑剧百老汇制作 (1984 - 2020):<br class='new_line'/>上座率周度变化图

图 3: 桑剧百老汇制作 (1984 - 2020):
上座率周度变化图

  • 换卡:上图中有 3 个用红色字体标示出的时间点,这几处上座率突变很有可能受到了换卡的影响;卡司更替详情见下表。
制作换卡
日期
角色旧卡新卡
Sunday ’841985 年
8 月 5 日
GeorgeHarry GroenerMandy Patinkin
Gypsy ’891990 年
7 月 29 日
RoseTyne DalyLinda Lavin
Forum ’961997 年
7 月 13 日
Pseudolus/
Prologus
Whoopi GoldbergDavid Alan Grier
  • 节假日:百老汇的观众数量具有很强的季节性,这里列举几个上座率波动较为明显的节假日

圣诞和新年假期是百老汇的传统旺季。1989 年 12 月 25 日至 31 日,Sweeney Todd '89的上座率从前周的 49% 陡增至 93%,随后又立即跌回 52%;2009 年末,West Side Story '09的上座率一直在 75% 上下徘徊,却在 12 月 21 日 至次年 1 月 3 日 的两周间突升至 94%;其他例子还有Into the Woods '87, Sweeney Todd '05Company '06

复活节前后,大批春假游客的到来常使得上座率短暂上升。图中标出了 4 个出现这种现象的年份。

劳动节 (Labor Day) 常被视为夏季旅游季结束的标志,节后纽约市游客数量大幅减少,百老汇客流量也会随之下滑。图 4 展示了 1984 年以来百老汇观剧人次在每年 7 月至 11 月间的变化情况;由图可知,绝大部分年份中,这 5 个月内观剧人数的最低点都出现在劳动节后首周(图中用粉色柱体标出)。

百老汇 7 月至 11 月间<br class='new_line'/>每周观剧人次 (1984 - 2019)

图 4: 百老汇 7 月至 11 月间
每周观剧人次 (1984 - 2019)

上方的热图中标出了 4 个出现这一现象的年份,下表为各点的具体数值。Forum '96Into the Woods '02劳动节后首周的上座率降幅均超过 40%,好在数周后票房就有所回暖;Into the Woods '87Gypsy '03都只下降了 22%,但人气自此减退,直到关门都再未恢复之前的水平。

劳动节
年份
制作前周
上座率
节后首周
上座率
1988Into The
Woods ’87
89%67% (-22%)
1996Forum ’9675%35% (-40%)
2002Into The
Woods ’02
76%32% (-44%)
2003Gypsy ’0388%66% (-22%)

3.2 上座率 vs 演出周数

下图与 3.1 节中的热图本质上并无差别,只是把横轴从周报发布日期换成了演出周数,并将各制作按演出时间长短排列。图上有一些符号,其中 “т” 表示在当周获得托尼奖,“+” 表示限期演出延长档期。

桑剧百老汇制作 (1984 - 2020): 上座率随演出周数变化图

图 5: 桑剧百老汇制作 (1984 - 2020): 上座率随演出周数变化图

  • 图中各制作可以大致分成三个梯队:
    • 第一梯队(正式演出 > 50 周):开演后的很长一段时间里都保持着较高的人气,后程热度逐渐减退以致最终关门
    • 第二梯队(正式演出 25 ~ 50 周):票房表现欠佳,上座率经常跌下 70%
    • 第三梯队(正式演出 < 25 周):多为限期演出,因场次有限,通常全程人气高涨
  • 临近末周时上座率通常会有所上升,例外仅有Gypsy '89
  • 托尼获奖后,Into the Woods '87, Gypsy '89, Passion '94Gypsy '08都迎来了上座率的小幅增长,不过 6 月本来就是就是这不一定是获奖有直接的联系
  • Sunday '08曾先后三次延长档期,新增场次的入座情况却明显大不如前,较之前下降了。其他加演的制作似乎就没有遇到这样的情况,如Assassins '04在加演期间一直保持着 90% 以上的上座率
  • 原版制作中Sunday '84的人气最为高涨自 1984 年 6 月 10 日起,该制作的上座率在一直维持在 100% 以上,直到同年 12 月 23 日才首次下滑至 95%;总共 70 周演出中只有 5 周的上座率低于七成,即便是最冷清的一周也售出了 65% 的门票
  • 同为原版制作,Passion '94在正式演出期间的上座率甚至不及预演,托尼获奖后入座情况虽有好转但也一直不温不火,倒数第三周时甚至一度跌至 35%,临近关门票房才稍有所回暖
  • 复排则要数Company '06最为惨淡,总共 35 周演出中只有 7 周上座率高于七成,中途一度连续 9 周入座不足半数,在当时的百老汇音乐剧中一直处于中下游水平,甚至有 14 周全百老汇垫底(参见图6
Company '06上座率与同期百老汇<br class='new_line'/>音乐剧整体入座情况对比图

图 6: Company ’06上座率与同期百老汇
音乐剧整体入座情况对比图

图中的红线代表Company '06的上座率,浅蓝色区域的上下边界以及中间的蓝线分别代表当周所有百老汇音乐剧上座率的中位数、最高值和最低值;" ◦ "表示Company '06是当周上座率最低的音乐剧

4. 平均票价

用每周的票房收入除以观剧人次计算当周的平均票价,所得结果见图 79,其中前者未校正通胀,后者使用了基期为 2020 年 3 月的 CPI-U 进行校正。

4.1 校正通货膨胀前的价格

桑剧百老汇制作(1984 - 2020): 平均票价<br class='new_line'/>(未经通胀校正)

图 7: 桑剧百老汇制作(1984 - 2020): 平均票价
(未经通胀校正)

  • 受通胀影响,近年来的桑剧票价单从数字来看自然是一路走高,今年场场售罄的West Side Story '20一直保持着 100 美元以上的均价,而 36 年前同样一票难求的Sunday '84在当时平均“仅”售 40 美元
  • A Little Night Music '09换卡后的平均票价较之前大约下降了 30 美元。据 playbill.com,Elaine Stritch 和 Bernadette Peters 接替后,该制作的最高票价从之前的 350 美元下调到了 297 美元,其他档次的票价或许也经历了相应的调整。Gypsy '89迁至 Marquis Theatre 后也出现了类似的状况
  • 节假日价格波动

通常会涨价,图中涨幅较为明显的有 1990, 2006, 2010, 2012等年份

一些票务代理商会提前囤票,临近节日时再以高价卖出,因此情人节前后常出现较大涨幅。2010年的情人节正好落在周日,当周上演的 17 部音乐剧全部涨价,且有多部剧目涨幅超过 20%,West Side Story '09就在其之列(见图 8 )。次周大多数剧目的票价都有所回落,但降幅均在 15% 以内,只有A Little Night Music '09 平均票价下跌了 59.5 美元

通常会涨价,但 2010 年复活节A Little Night Music '09的平均票价非但没有上涨,还下跌了 50 美元左右,而当周上演的 24 部音乐剧中只有 4 部价格下跌

2010 年情人节和复活节前后<br class='new_line'/>百老汇音乐剧平均票价变化情况

图 8: 2010 年情人节和复活节前后
百老汇音乐剧平均票价变化情况

4.2 校正通货膨胀后的价格

桑剧百老汇制作 (1984 - 2020): 平均票价<br class='new_line'/>(已校正通胀,基期:2020年3月)

图 9: 桑剧百老汇制作 (1984 - 2020): 平均票价
(已校正通胀,基期:2020年3月)

9 中所有票价都已换算至2020年3月的价格水平。以下均指校正后的价格:

  • 除了由通货膨胀引发的价格上涨外,这些年来桑剧、或者说百老汇音乐剧整体的票价水平本身也有所上升(见图 10 ):上世纪八十年代的四部制作的平均票价从未超过 100 美元,而进入 2010 年代后,即便是后期上座率不及七成的Follies '11的平均票价也几乎从未跌下过 100 美元;像A Little Night Music '09Sunday '17这样的热门剧目更是有着高达 130 美元的平均票价
桑剧与百老汇音乐剧整体平均票价对比图<br class='new_line'/>(已校正通胀,基期:2020年3月)

图 10: 桑剧与百老汇音乐剧整体平均票价对比图
(已校正通胀,基期:2020年3月)

10 中阴影区域的上下边界以及中间的灰色折线分别代表当周所有百老汇音乐剧平均票价的最高值、最低值和中位数。由图可知,桑剧门票大多处于中等价位;Sunday '84, Forum '96A Little Night Music '09前期票价较为高昂,后程逐渐降至中等水平; Sweeney Todd '89, Pacific Overtures '04, Sunday '08, Sondheim on Sondheim '10票价较为低廉

  • 演出后期票价一般会逐渐下跌
  • 因制作规模较小而有着“斯微尼陶德” (“Teeney Todd”) 昵称的Sweeney Todd '89是近 36 年来票价最为低廉的桑剧制作,演出期间平均票价从未超过 70 美元↩︎

5. 综合比较

下图综合展示了上文提到的四个指标。图中的横轴总演出场次(含预演),纵轴为票房收入;圆圈大小代表演出全程的平均票价,颜色代表上座率中位数。计算相关系数和拟合回归线时剔除了因疫情停演的West Side Story '20Company '20

桑剧百老汇制作 (1984 - 2020): 综合比较

图 11: 桑剧百老汇制作 (1984 - 2020): 综合比较

  • 图中回归线的斜率是 0.11(95% 置信区间:[0.087, 0.129], p值 < 0.001),也就是说 1984 年以来在百老汇上演的桑剧每多演一场,票房收入平均增加 11 万美元
  • West Side Story '09的场均收入远高于其他演出场次相近的制作。可能的解释包括:
    • 上演年份较晚,票价较为高昂
    • Sunday '84Into the Woods '87所在剧院分别只有 771 和 1282 个座位,而West Side Story '09驻演的 Palace Theatre 可容纳 1697 人,入座七成时依旧就可以卖出 1188 张门票
  • 上座率中位数低于 75% 的制作几乎都在 200 ~ 400 场正式演出之后关门,唯一的例外是作为revue的Putting It Together '99
  • 对比同一部桑剧的多部制作:
    • Gypsy:共三次复排,年份越靠后演出时间越短,还越来越不叫座
    • Company:95 版大受欢迎,06 版是近 36 年来入座情况最糟的桑剧制作,上座率中位数只有 61%(也就是说有接近一半的时间上座率不及六成);2020 版还未正式开幕就被迫停止演出,
    • Sunday:同样是越新近的制作演出场次越少,但票房表现均较佳:原版制作演出 600 余场后,上座率中位数仍高达 99%;08版加演场次入座情况不比前期,但依旧有近半时间上座率高于九成;17 版几乎场场售罄,平均票价还高达 147 美元

Bonus: 剧作家

这部分和前文关联不大且写得比较随意就扔在最后了。将1984年以来的桑剧百老汇制作按剧本作者归类,分别计算校正通胀后的总票房收入、总演出场次并绘制条形图,所得结果见图 1213

票房收入方面,Arthur Laurents 凭 West Side Story 和 Gypsy 几次颇为成功的复排将其他剧作家远远地甩在身后,比位居次席的 James Lapine 高出了约 100 万美元。Burt Shevelove 和 Larry Gelbart 一部Forum '96的收入恰好和 Hugh Wheeler 名下三部制作的收入之和相当。

桑剧剧本作者:票房收入

图 12: 桑剧剧本作者:票房收入

桑剧剧本作者:总演出场次

图 13: 桑剧剧本作者:总演出场次

在演出场次上,Lapine 以 110 场的微弱优势反超了 Laurents,不过这也说明前者作品的场均收入不比后者;若将来West Side Story '20能够顺利恢复演出,Laurents 很快又会超过 Lapine 重回榜首(划掉的这句是我 6 月份的时候写的,看看我那时候有多天真)

George Furth 和 James Goldman 也交换了排名次序。几次复排过后,Follies 比 Company 少演了59场,总收入却高出了 1200 万美元。这一方面是因为 Follies 每次复排都要比 Company 晚上五至六年,,

表 2: Company 与 Follies 复排
驻演剧院容量对比
剧目制作剧院容量
Company’95Criterion Center Stage Right499
’06Ethel Barrymore Theatre1046
’20Jacobs Theatre1030
Follies’01Belasco Theatre995
’11Marquis Theatre1612

一些nbcs的技术细节

  • 爬取数据时使用了 Python 的 selenium 和 BeautifulSoup; 作图时主要使用的是 R 的 ggplot2, ggrepel, gridExtra 等包
  • 数据清洗

Gypsy '891989 年 10 月 29 日一周的总观剧人次被错误地记录为 1617 (驻演场地 St. James Theatre 的容量为 1617 人),查询 playbill.com 后将这一数值修改为 5824

原始数据中 1996 年 5 月 26 日以前的上座率大量显示为 0%;从 playbill.com: Broadway Grosses 获取剧院容量数据后,依据 上座率 = 每周观剧人次 / (每周演出场次 × 剧院容量) × 100% 填补了这些缺失值

(1) 1984 年 4 月 2 日(周一)至 5 月 1 日(周二)的 4 周零 2 天时间里共进行了 35 场预演,推测这几周的演出场次为 8,8, 9(复活节周末),8,2;5 月 2 日至 6 月 3 日的 4 周零 5 天时间里共进行了 36 场正式演出,推测这几周的场次为 6(开幕首周只有 5 天是正式演出),7,7,8,8 (2) 用每周收入除以演出场次得到场均票房收入 (3) 利用Sunday '84已有的 1984 年 6 月 10 日之后的的数据,假设前 9 周数据缺失,以均方误差 (Mean Squared Error, MSE) 为评价指标,比较均值、中位数、插值法、移动平均法等 11 种方法的拟合效果,最终选用窗口大小 k = 3 的简单移动平均 (Simple Moving Average) 来填补场均票房收入的缺失值 (4) 将场均收入和演出场次相乘得到每周票房收入

移动平均法 MSE <br class='new_line'/>随窗口大小 k 变化图

图 14: 移动平均法 MSE
随窗口大小 k 变化图

表 3: 不同缺失值填补方法的 MSE
缺失值填补方法MSE
Simple Moving Average (k = 3)53372.4
Linear Weighted Simple Moving Average (k = 3)54004.6
Exponential Weighted Simple Moving Average (k = 3)54801.0
Structural Model & Kalman Smoothing56638.3
Linear Interpolation57142.9
Stine Interpolation57142.9
Next Observation Carried Backward57142.9
Spline Interpolation340075.1
ARIMA State Space Representation & Kalman Smoothing1437261.5
Median Value35043295.4
Mean Value40578613.7
  • 封面上的三张图分别是
    • 正文中Company '06与同期其他百老汇音乐剧上座率对比图的简化版
    • Sunday '84平均票价分布图(下图左)
    • Sunday '84, Into the Woods '87, Passion '94三部原版制作音乐剧的上座率箱线图(下图右)

  • 10 以及剧作家一节的两张条形图的配色均取自《大碗岛的星期天下午》


最后扔几张废稿:

每年桑剧演出场次数量(含预演)

图 15: 每年桑剧演出场次数量(含预演)

桑剧百老汇制作(1984 - 2020): 上座率小提琴图

图 16: 桑剧百老汇制作(1984 - 2020): 上座率小提琴图

最新文章/Recent Posts

分类/Categories