• 全国中文核心期刊
  • 中国科技核心期刊
  • 美国工程索引(EI)收录期刊

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于信息熵的水文站网优化准则的应用与评价

李禾澍 王栋 王远坤

李禾澍, 王栋, 王远坤. 基于信息熵的水文站网优化准则的应用与评价[J]. 水科学进展, 2020, 31(2): 224-231. doi: 10.14042/j.cnki.32.1309.2020.02.008
引用本文: 李禾澍, 王栋, 王远坤. 基于信息熵的水文站网优化准则的应用与评价[J]. 水科学进展, 2020, 31(2): 224-231. doi: 10.14042/j.cnki.32.1309.2020.02.008
LI Heshu, WANG Dong, WANG Yuankun. Application and assessment of entropy-based criterions for hydrometric network optimization[J]. Advances in Water Science, 2020, 31(2): 224-231. doi: 10.14042/j.cnki.32.1309.2020.02.008
Citation: LI Heshu, WANG Dong, WANG Yuankun. Application and assessment of entropy-based criterions for hydrometric network optimization[J]. Advances in Water Science, 2020, 31(2): 224-231. doi: 10.14042/j.cnki.32.1309.2020.02.008

基于信息熵的水文站网优化准则的应用与评价

doi: 10.14042/j.cnki.32.1309.2020.02.008
基金项目: 

国家重点研发计划资助项目 2016YFC0401501

国家自然科学基金资助项目 41571017

详细信息
    作者简介:

    李禾澍(1993—) , 女 , 山东济南人 , 博士研究生 , 主要从事统计水文学研究。E-mail : heshu.li@smail.nju.edu.cn

    通讯作者:

    王栋 , E-mail : wangdong@nju.edu.cn

  • 中图分类号: TV11

Application and assessment of entropy-based criterions for hydrometric network optimization

Funds: 

The study is financially supported by the National Key R & D Program of China 2016YFC0401501

The National Natural Science Foundation of China 41571017

图(6) / 表 (1)
计量
  • 文章访问数:  47
  • HTML全文浏览量:  9
  • PDF下载量:  13
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-05-22
  • 网络出版日期:  2019-12-07
  • 刊出日期:  2020-03-01

基于信息熵的水文站网优化准则的应用与评价

doi: 10.14042/j.cnki.32.1309.2020.02.008
    基金项目:

    国家重点研发计划资助项目 2016YFC0401501

    国家自然科学基金资助项目 41571017

    作者简介:

    李禾澍(1993—) , 女 , 山东济南人 , 博士研究生 , 主要从事统计水文学研究。E-mail : heshu.li@smail.nju.edu.cn

    通讯作者: 王栋 , E-mail : wangdong@nju.edu.cn
  • 中图分类号: TV11

摘要: 将基于信息熵的四类水文站网优化准则, 即熵-互信息(H-T)准则、联合熵-总相关(H-C)准则、联合熵-互信息-总相关(H-T1-C/H-T2-C)准则以及信息传递指数(TI)准则, 应用于太湖西南山丘区雨量站网, 对四类准则进行对比和评价。以2007—2016年日降水序列为样本, 根据各优化准则, 分别采用3种数值离散化方法计算站点秩次, 分析秩次相关性、对多目标准则中指标权重的敏感性以及秩次年际变化。结果表明, H-C准则对应秩次的代表性最好, 对指标权重的敏感度最低, 秩次年际变化小; H-T2-C准则对指标权重最敏感, 秩次年际变化显著。H-C准则有利于反映基于信息熵的基本优化原则(增大信息量和降低冗余度), 而H-T2-C准则有利于体现决策偏好。

English Abstract

李禾澍, 王栋, 王远坤. 基于信息熵的水文站网优化准则的应用与评价[J]. 水科学进展, 2020, 31(2): 224-231. doi: 10.14042/j.cnki.32.1309.2020.02.008
引用本文: 李禾澍, 王栋, 王远坤. 基于信息熵的水文站网优化准则的应用与评价[J]. 水科学进展, 2020, 31(2): 224-231. doi: 10.14042/j.cnki.32.1309.2020.02.008
LI Heshu, WANG Dong, WANG Yuankun. Application and assessment of entropy-based criterions for hydrometric network optimization[J]. Advances in Water Science, 2020, 31(2): 224-231. doi: 10.14042/j.cnki.32.1309.2020.02.008
Citation: LI Heshu, WANG Dong, WANG Yuankun. Application and assessment of entropy-based criterions for hydrometric network optimization[J]. Advances in Water Science, 2020, 31(2): 224-231. doi: 10.14042/j.cnki.32.1309.2020.02.008
  • 水文站网提供的降水、径流、水位等信息是水资源管理和水科学研究的基础。优化水文站网的布设有利于提高收集信息的效率, 保证水文模拟的精度, 降低不确定性[1]。国内的站网规划主要采取暴雨中心法和抽站法等[2-3]。近年来, 信息熵方法在国外水文站网研究中得到广泛应用, 其基本原则是通过站点优选, 增加站网可容纳的信息量, 并降低信息冗余度[4]。目前, 基于信息熵建立的各优化准则主要发展和应用于世界范围内自然条件差异较大的研究区。为探究其适用性和一致性, 有必要在同一研究区内开展对各准则的应用和评价研究。

    信息熵方法在早期多为单目标准则形式, 如Mishra和Coulibaly[5]提出了用耦合多元回归的信息传递指数(TI)识别径流量测站显著性的方法, Yeh等[6]提出了耦合克里金插值的熵-互信息(H-T)准则。Alfonso等[7]引入用于量化多变量信息冗余度的总相关指标, 建立了联合熵-总相关(H-C)准则, 应用于水位监测站网的优化。此后各类包含联合熵、互信息、总相关等指标的多目标优化准则得以建立, 如Li等[8]提出的联合熵-互信息-总相关(H-T1-C/H-T2-C)准则以及Samuel等[9]提出的CRDEMO准则等。多目标方法具有结构清晰、含义明确、易于耦合非熵指标以及容许决策偏好等优势[10], 在近年研究中被普遍应用[11-13]。国内研究中, 李禾澍等[14]用由联合熵、互信息和Nash-Sutcliffe效率系数构成的评价函数, 探讨伊洛河流域的流量站网优化;徐鹏程[15]结合信息熵和Copulas函数研究了上海市的雨量站网优化;袁艳斌等[16]将冗余度引入多目标准则进行流量站网优化的研究。目前国内尚无关于各类信息熵优化准则的对比研究, 国外相关研究也十分有限。

    本文将四类基于信息熵的水文站网优化准则, 包括熵-互信息(H-T)准则、联合熵-总相关(H-C)准则、联合熵-互信息-总相关(H-T1-C/H-T2-C)准则以及信息传递指数(TI)准则, 应用于太湖流域西南部山丘区的雨量站网。根据各准则生成的站点秩次进行了相关性分析, 探究了数值离散化方法对站点秩次的影响、秩次对多目标准则中指标权重的敏感性以及秩次的年际变化。

    • 信息熵是随机变量不确定性的度量[17], 在水文序列的分布推断、水文模型参数估计、水文频率分析等领域有广泛应用。在水文站网中, 信息熵可用于量化站点所测得的水文序列(如降水量、流量等)所包含的信息。假设某一水文序列用随机变量XS表示, 其概率密度函数(PDF)为p(x), 则X的熵为

      $$ H({\rm{x}}) = - \sum\limits_{i = 1}^n {p({x_i})logp({x_i})} $$ (1)

      式中: n为样本容量;H(X)又称作X的边缘熵。

      推广到多变量的情形, 对于d维随机变量X1, X2, …, Xd, 联合熵定义为

      $$ H({X_1}, {X_2}, ..., {X_d}) = - \sum\limits_{i = 1}^{{n_1}} {\sum\limits_{j = 1}^{{n_2}} {...\sum\limits_{k = 1}^{{n_d}} {p({x_{1, i}}, {x_{2, j}}, ..., {x_{d, k}})logp({x_{1, i}}, {x_{2, j}}, ..., {x_{d, k}})} } } $$ (2)

      式中: p(x1, i, x2, j, …, xd, k)为d维随机变量的联合概率密度函数;n1, n2, …, nd为样本容量。应用于水文站网中, H(X)和H(X1, X2, …, Xd)可分别表示单个或多个站点所包含的信息量。

      当随机变量具有相关性时, 给定一个变量的信息, 对另一变量认识的不确定性将会缩减, 即两变量之间存在信息重叠。重叠的信息量可用互信息(又称传递信息)表示, 其定义为

      $$ T(X, Y) = \sum\limits_{i = 1}^m {\sum\limits_{j = 1}^n {p({x_i}, {y_j})log\frac{{p({x_i}, {y_j})}}{{p({x_i})p({y_j})}}} } $$ (3)

      互信息可用于衡量两站点之间的信息冗余量(又称信息传递量)。同时, 不确定性程度的缩减量用条件熵表示:

      $$ H(X|Y) = - \sum\limits_{i = 1}^m {\sum\limits_{j = 1}^n {p({x_i}, {y_j})logp({x_i}|{y_j})} } $$ (4)

      式中: p(xi|yj)为已知变量Y的取值时, 变量X取值的条件概率。且有:

      $$ H(X|Y) = H(X) - T(X, Y) $$ (5)

      Alfonso等[7]在2010年引入了总相关指标, 可量化多变量序列的信息冗余度, 表示为多变量的边缘熵之和与联合熵的差值, 即

      $$ C({X_1}, {X_2}, ..., {X_d}) = \sum\limits_{i = 1}^d {H({X_1}, {X_2}, ..., {X_d})} $$ (6)

      图  1  信息熵基本度量(熵、联合熵、互信息、条件熵、总相关)示意

      Figure 1.  Diagram of basic entropy measures (entropy, joint entropy, transinformation, conditional entropy, total correlation)

    • 本文选取水文站网优化中应用较广泛的四类准则作对比分析, 即熵-互信息(H-T)准则、联合熵-总相关准则(H-C)、熵-互信息-总相关(H-T1-C, H-T2-C)准则以及信息传递指数(TI)准则(共5种)。表 1归纳了四类准则对应的信息熵指标、目标函数及优化原则等。对单目标准则, 可通过熵指标对站点排序, 逐个选入站点;对多目标准则, 可对不同指标施以权重系数λ, 根据求得目标函数值对站点排序。

      表 1  四类基于信息熵的水文站网优化准则

      Table 1.  Four classes of entropy based optimization criterions for hydrometric networks

      来源 名称 类型 信息熵指标及目标函数* 优化原则
      Yeh等[6] H-T

      首站:maxF=max{H(XS1)}
      i个站:minF=min{T[(XS1, XS2, …, XSi-1), XSi]}
      (2≤in)
      首站选取边缘熵最大的站点;第i(2≤in)个站点选取与已选(i-1)个站的互信息T最小的站点
      Alfonso等[7] H-C

      $ \left\{ \begin{array}{l} {F_1} = H({X_{{s_1}}}, {X_{{s_2}}}, ...{X_{{s_m}}})\\ {F_2} = C({X_{{s_1}}}, {X_{{s_2}}}, ...{X_{{s_m}}}) \end{array} \right.$
      maxF=max{λF1-(1-λ)F2}
      增大信息量(联合熵H);降低冗余度(总相关C)
      H-T1-C $ \left\{ \begin{array}{l} {F_1} = H({X_{{s_1}}}, {X_{{s_2}}}, ...{X_{{s_m}}})\\ {F_2} = \sum\limits_{i = 1}^{n - m} {T({X_{{s_1}}}, {X_{{s_2}}}, ..., {X_{{s_m}}};{X_{{R_i}}})} \\ {F_3} = C({X_{{s_1}}}, {X_{{s_2}}}, ...{X_{{s_m}}}) \end{array} \right.$
      maxF=max{λ(F1+F2)-(1-λ)F2
      Li等[8]

      增大信息量(联合熵H)、增大入选与未选站点间的信息传递量(互信息T);降低冗余度(总相关C)
      H-T2-C $ \left\{ \begin{array}{l} {F_1} = H({X_{{s_1}}}, {X_{{s_2}}}, ...{X_{{s_m}}})\\ {F_2} = T({X_{{s_1}}}, {X_{{s_2}}}, ..., {X_{{s_m}}};{X_{{R_1}}}, {X_{{R_2}}}, ..., {X_{{{\rm{R}}_{n - m}}}})\\ {F_3} = C({X_{{s_1}}}, {X_{{s_2}}}, ...{X_{{s_m}}}) \end{array} \right.$
      maxF=max{λ(F1+F2)-(1-λ)F3
      Mishra和
      Coulibaly[5]
      TI

      F=T(Xi, ${\hat X_1}$) (1≤in)
      其中${\hat X_1}$为以Xi为响应变量, 以除Xi外的站点为解释变量, 用多元线性回归方法对Xi进行拟合所得序列
      根据F值对站点排序, 与站网的互信息T小的站点优先级高
      注:*用Xi(i=1, 2, …, n)表示包含n个测站的水文站网中各站所测得的水文变量(如径流量、降水量等), 同时代指各站;XS1, XS2, …, XSm表示站点优选过程中已入选的m个站点, XR1, XR2, …, XRn-m表示未入选的n-m个站点;λ为指标权重系数, 0≤λ≤1。
    • 为计算信息熵的值, 需对变量序列作离散化处理。熵值与选取的离散化方法及参数有关。研究中常用的离散化处理方式主要包括[13] :

      (1) 地板函数取整方法(FFR) :

      $$ {X_q} = aG(\frac{{2x + a}}{{2a}}) $$ (7)

      式中: x为原观测值;xq为离散化后的数值; G(·)为地板函数,即对自变量向下取整;a为函数参数。

      (2) 等箱宽的直方图离散方法(EWH)。箱宽可采用Scott或Sturges两种计算方法:

      $$ {w_{{\rm{sc}}}} = 3.49s{N^{ - 1/3}} $$ (8)
      $$ {w_{st}} = \frac{{{R_x}}}{{1 + {{\log }_2}N}} $$ (9)

      式中: wscwst代表箱宽;sx的标准差;N为样本容量;Rxx的极差。

    • 研究区域位于太湖流域西南部山丘区(图 2), 面积为5 930.9 km2, 北临界岭山脉, 西南为天目山脉, 属中亚热带季风气候, 降水集中在5—9月, 年平均气温为16~18 ℃, 年降水量为1 100~1 150 mm。区域内设45个雨量站。本文选用2007—2016年的日降水量观测序列进行研究。

      图  2  研究区位置及雨量站分布

      Figure 2.  Location of the study area and distribution of the rainfall monitoring stations

    • 设计FFR (a=1, 5, 10)和EWH-Sc、EWH-St共5种离散化情形, 根据四类优化准则H-T、H-C、H-T1-C/H-T2-C、TI对研究区45个雨量站排序, 计算站点秩次的Kendall相关系数。多目标准则中的权重系数λ取0.25、0.50、0.75分别计算。由图 3(j)图 3(k), 在H-T和TI两类准则下, 采用不同离散化方法计算的秩次相关性较高(大于0.5)。由图 3(a)图 3(i), 多目标准则H-C、H-T1-C和H-T2-C准则下的秩次相关系数整体低于H-T和TI的情形, 且受λ取值影响。当λ值增大, 即增加目标函数中信息量的权重时, 秩次的相关性将减弱。同准则下, 用FFR(a=5)方法和EWH-Sc方法进行数值离散所得到的站点秩次与其他情形下秩次的相关性较高, 优化结果的代表性较好。

      图  3  各优化准则下5种离散化条件对应站点秩次的相关矩阵

      Figure 3.  Correlation matrix plots of station ranks corresponding to five discretization conditions under each optimization criterion

      图 4为在FFR(a=5)和EWH-Sc离散化条件下, 根据四类优化准则进行站点排序所得的秩次相关性, 可见不同优化准则呈现显著的秩次差异。由H-C准则所得站点秩次与其他准则的相关性最高, 表明H-C准则具有较好的代表性。H-C与H-T准则具有最高的两两相关系数, 在两种离散化条件下分别为0.70和0.82;其次为H-C与H-T1-C准则, 相关系数均为0.69。H-T2-C准则的站点秩次与其他准则相关性最低, 大部分低于0.50, 即该准则下的优化结果与其他准则相差最大。

      图  4  FFR(a=5)和EWH-Sc离散化条件下各类优化准则对应站点秩次的相关矩阵

      Figure 4.  Correlation matrix plots of station ranks corresponding to each optimization criterion under discretization conditions FFR(a=5) and EWH-Sc

    • 多目标准则H-C、H-T1-C和H-T2-C中的权重系数λ反映优化中对信息量、信息传递量和冗余度的偏好程度, 图 5为站点秩次对λ敏感性的分析结果。由图 5可见, 部分站点秩次稳定, 如G19和G24;少数站点秩次波动较大, 如G14秩次随λ的增大而升高, G40的秩次则随λ的增大而降低。H-T2-C准则对参数λ最敏感, 对应的站点秩次变化明显, 优化结果方案受决策偏好的影响最大;H-C准则对应的站点秩次最为稳定。秩次变化与离散化方法的选取有关, 对H-T1-C准则, 采用FFR(a=5)方法比采用EWH-Sc方法进行数值离散所得结果的秩次波动更显著, 表明EWH-Sc方法使水文变量的实测序列损失一部分信息, 从而使联合熵和冗余度指标对权重系数λ的敏感度降低。

      图  5  不同λ取值下多目标准则H-C、H-T1-C和H-T2-C对应的站点秩次变化

      Figure 5.  Variation of station ranks with the shifting of parameter λ in multi-objective criterions H-C, H-T1-C and H-T2-C

    • 为探究站点秩次的年际变化, 利用2007—2016年各年的降水观测子序列, 分别根据各优化准则对站点排序, 并计算历年子序列对应的站点秩次与用10年全序列计算所得秩次的Kendall相关系数, 结果如图 6所示。由各优化准则所得的站点排序结果均呈现年际变化, 但波动程度有所差异。TI和H-C准则的优化结果相对稳定, 在单目标准则TI和H-T下, 子序列与全序列计算所得的站点秩次相关系数最高;多目标准则H-T1-C和H-T2-C的站点排序结果的年际变化显著, 其中在H-T2-C准则下, 采用子序列与全序列计算所得秩次的相关性最低;H-C准则下秩次的年际变化较小, 秩次的相关系数最为稳定。

      图  6  各类准则下由历年子序列与全序列计算所得站点秩次的Kendall秩相关系数

      Figure 6.  Kendall's correlation coefficients of station ranks calculated with sub-sequences and the complete sequence under each criterion

    • (1) 单目标准则H-T和TI的指标易于计算, 优化过程简单, 站点秩次与其他各类准则的相关性低, 代表性弱, 但秩次变化受样本序列长度的影响较小。

      (2) 多目标准则中H-C准则的代表性最强, 站点秩次在年际间稳定, 对指标权重λ的敏感度最低;H-T2-C准则与其他准则所得站点秩次的相关性最低, 对权重λ的敏感性最高, 年际变化显著。

      综上所述, H-C准则能较好地反映基于信息熵的基本优化原则(增大信息量和降低冗余度);而H-T2-C准则能较好地体现决策偏好。

参考文献 (16)

目录

    /

    返回文章
    返回