VValue at risk and the diversification dogma
Arturo Erdely ∗ Facultad de Estudios Superiores Acatl´anUniversidad Nacional Aut´onoma de M´exico [email protected]
Abstract
The so-called risk diversification principle is analyzed, showing that its convenience depends on individualcharacteristics of the risks involved and the dependence relationship among them.
Keywords: value at risk, loss aggregation, comonotonicity, diversification.
A popular proverb states don’t put all your eggs in one basket and it is implicitly based on a principle (let’s call it that way momentarily) of risk diversification which could have the following “justification”:Suppose it is needed to take 2 n eggs from point A to point B, walking distance, and that there are onlytwo alternatives available, either one person carrying all the eggs in one basket, or two people with n eggseach in separate (and independent) baskets. The proverb suggests that there is a higher risk with the singleperson alternative since if he/she happens to stumble and fall we would have a total loss, while with thesecond alternative only half of the eggs would be lost, and in a worst case scenario (with lower probability)where the two people fall the loss would be the same as in the first alternative, anyway.Let X be a random variable which counts how many eggs are lost under the first alternative (onebasket), and let Y account for the same but for the second alternative (two baskets). Let 0 < θ < X and Y arediscrete random variables such that P ( X ∈ { , n } ) = 1 and P ( Y ∈ { , n, n } ) = 1 , with point probabilities P ( X = 2 n ) = θ, P ( X = 0) = 1 − θ, P ( Y = 2 n ) = θ , P ( Y = n ) = 2 θ (1 − θ ) , and P ( Y = 0) = (1 − θ ) . Certainly the probability of facing the maximum loss of 2 n eggs has a higher probability under the firstalternative, but it is also true that the no loss probability is also higher under such alternative. Moreover: P ( Y >
0) = θ + 2 θ (1 − θ ) = θ (2 − θ ) > θ = P ( X > , which means that there is a higher probability of suffering a (partial or total) loss under the second alter-native. Therefore... does it mean that it is better to put all the eggs in one basket? If a single trip isgoing to take place, the answer would be yes, but if the same trip is going to be repeated a large number oftimes we should analyze the long run average loss, which would be E ( X ) = 2 nθ for the first alternative, and E ( Y ) = 2 nθ + 2 nθ (1 − θ ) = 2 nθ for the second alternative, that is, in the long run there is no differencebetween the two alternatives.Is it never more convenient to diversify in two baskets? If the probability of stumbling and falling with2 n eggs is the same as with half of them (which might be true up to certain value of n ) then the proverbis certainly wrong, but maybe for a sufficiently large value of n we should consider different probabilities of ∗ Personal website https://sites.google.com/site/arturoerdely a r X i v : . [ q -f i n . R M ] S e p alling and breaking the eggs, say θ for the first alternative and θ for the second one, with θ > θ . Thislast condition leads to E ( X ) > E ( Y ) and in such case it is more convenient to diversify if a large numberof trips are going to be made. But for a single trip decision the condition θ > θ is not enough to preferdiversification unless θ (2 − θ ) < θ , since θ < θ (2 − θ ) . The main purpose of the present work is to show that the common belief that risk diversification is always better is more a dogma rather than a general principle that has been proved, and that the correctview is to state that risk diversification may be better, as good as, or worse than lack thereof, depending onthe risks involved and the dependence relationship among them. Let X be a continuous random variable, with strictly increasing distribution function F X , that representsan economic loss generated by certain events covered by insurance or related to investments. Without lossof generality we consider amounts of constant value over time (inflation indexed, for example). As a pointestimation for a potential loss we may use the mean or the median. In the present work the median ispreferred since it always exists for continuous random variables and it is robust, in contrast with the meanthat may not exist or could be numerically unstable under heavy-tailed probability distributions. Using thequantile function (inverse of F X ) we calculate the median as M ( X ) = F − X ( ) since P ( X ≤ M ( X )) = . Definition 2.1.
The excess of loss for a continuous loss random variable X is the random variable: L := X − M ( X ) . As suggested by McNeil et al. (2015) one way to interpret a risk measure is as the required additionalrisk capital % ( L ) to cover a loss in excess of what it was originally estimated. In the specialized literature onthis subject there are many properties for risk measures that are considered as “desirable” or “reasonable”,though some concerns have been raised for some of them. Definition 2.2.
A risk measure % is monotone if for any excess of loss random variables L and L suchthat P ( L ≤ L ) = 1 we have that % ( L ) ≤ % ( L ) . McNeil et al. (2015) and several other authors consider monotonicity as a clearly desirable property sincefinancial positions that involve higher risks under any circumstance should be covered by more risk capital.Positions such that % ( L ) ≤ Definition 2.3.
A risk measure % is translation invariant if for any excess of loss random variable L andany constant c we have that % ( L + c ) = % ( L ) + c. This property is also considered as desirable by McNeil et al. (2015) and other authors under the followingargument: the uncertainty associated to L := L + c totally depends on L since c is fixed, % ( L ) is theadditional risk capital required to cover an excess of loss under L and therefore it would be enough to addthe fixed amount c in order to cover for L . Definition 2.4.
A risk measure % is subadditive if for any excess of loss random variables L and L wehave that % ( L + L ) ≤ % ( L ) + % ( L ) . A system of principles or tenets; doctrine. A specific principle of a doctrine put forth, such as by a church.
Source:
WordReference Random House Learner’s Dictionary of American English c (cid:13) always reduces risk, which is more a dogma rather than somethingproved to be true under all circumstances. We may counter argue that for some risks there could be some sortof pernicious interaction that generates additional risk to the individual ones, so it may be also argued that itis better for a risk measure not to be subadditive, so that whenever it happens that % ( L + L ) > % ( L )+ % ( L )then it becomes clear that diversification is not convenient in such case. Definition 2.5.
A risk measure % is positively homogeneous if for any excess of loss random variable L andany constant λ > % ( λL ) = λ% ( L ) . With regard to this property McNeil et al. (2015) and other authors mention that in case subadditivityhas been accepted as reasonable then for any positive integer n it should be accepted that % ( nL ) = % ( L + · · · + L ) ≤ n% ( L ) (1)and since there is no diversification “benefit” (because just a single risk source is involved) then the highestvalue would be attained in (1), that is equality. The same authors acknowledge there is some criticism aboutthis property since for sufficiently large values of λ we should have % ( λL ) > λ% ( L ) to penalize for a highconcentration of risk in a single source of it. Definition 2.6. % is a coherent risk measure if it satisfies Definitions 2.2 through 2.5.The adjective “coherent” in this definition is somehow overbearing since it implicitly suggests that anyrisk measure that does not satisfy this definition would be incoherent despite the fact there is some debateand concerns about two of the four properties it requires. There are other additional properties that havebeen proposed in some contexts, see McNeil et al. (2015) or Denuit et al. (2005), but for the purpose of thisarticle the above mentioned ones are enough. As suggested by McNeil et al. (2015) we may interpret % ( L ) as the additional risk capital to cover for apotential excess of loss with L, but in practice such interpretation could be easily unachievable. Consider,for example, an insurance portfolio with certain face amounts for each issued policy. The only way toguarantee that the insurance company has enough resources to pay the claims under all possible scenarioswould require the total reserve to be equal to the sum of all the face amounts in such portfolio.In practice, specially under the Basel Accords and
Solvency II frameworks, what is calculated is theamount of risk capital that has an acceptable high probability (but strictly less than 1) of covering an excessof loss that might face an insurance or financial institution. Who determines how much is “acceptable”?Typically the regulatory authority, but each company may decide to use probability levels even higher thanthe regulatory ones.
Definition 3.1.
Value at Risk of level 0 < α < L is a risk measuredefined as VaR α ( L ) := F − L ( α )where F − L is the quantile function of L, that is the inverse of the probability distribution function of L. In other words, a level α Value at Risk associated to a continuous random variable is the amount thatsuch variable would not exceed with probability α. It should be noticed that the median is a Value at Riskof level α = . roposition 3.1. VaR is a monotone, translation invariant, and positively homogeneous risk measure.Proof: a) Let X and Y be random variables such that P ( X ≤ Y ) = 1 . Then for any value x ∈ R : P ( X ≤ x ) = P ( X ≤ x < Y ) + P ( X ≤ Y ≤ x ) ≥ P ( { X ≤ Y } ∩ { Y ≤ x } ) = P ( Y ≤ x ) , that is F X ( x ) ≥ F Y ( x ) . Let x α := VaR α ( X ) and y α := VaR α ( Y ) . Then α = F X ( x α ) ≥ F Y ( x α ) andsince α = F Y ( y α ) and distribution functions are non decreasing, necessarily x α ≤ y α and thereforeVaR α ( X ) ≤ VaR α ( Y ) . b) Let X be a continuous random variable with strictly increasing distribution function F X and let c ∈ R be any given constant. Define the random variable Y := X + c , its probability distribution functionis: F Y ( y ) = P ( Y ≤ y ) = P ( X + c ≤ y ) = P ( X ≤ y − c ) = F X ( y − c ) . Let x α := VaR α ( X ) and y α := VaR α ( Y ) . Then: F X ( x α ) = α = F Y ( y α ) = F X ( y α − c ) , and since F X is strictly increasing then x α = y α − c which is equivalent to VaR α ( X ) + c = VaR α ( Y ) =VaR α ( X + c ) . c) Let X be a continuous random variable with strictly increasing distribution function F X and let λ > Y := λX, its probability distribution function is: F Y ( y ) = P ( Y ≤ y ) = P ( λX ≤ y ) = P ( X ≤ y/λ ) = F X ( y/λ ) . Let x α := VaR α ( X ) and y α := VaR α ( Y ) . Then: F X ( x α ) = α = F Y ( y α ) = F X ( y α /λ ) , and since F X is strictly increasing then x α = y α /λ which is equivalent to λ VaR α ( X ) = VaR α ( Y ) =VaR α ( λX ) . (cid:3)(cid:3)(cid:3) It should be noticed that VaR is proved to be positively homogeneous without a subadditivity argumentas in (1). In fact, VaR is not generally subadditive as it will become clear in a following section, but it willbe also argued that this should not be considered as a disadvantage.
Example 3.1.
Let X be a Pareto continuous random variable with parameters β > δ > . Its probabilitydensity function is given by: f X ( x | β, δ ) = δβ δ x δ +1 , x > β, and therefore its probability distribution function: F X ( t ) = Z t −∞ f X ( x | β, δ ) dx = δβ δ Z tβ dxx δ +1 = 1 − (cid:18) βt (cid:19) δ , t > β. The quantile function of X is the inverse of F X , that is F − X ( u ) = β (1 − u ) − /δ for 0 < u < M ( X ) = VaR / ( X ) = F − X ( ) = 2 /δ β. The level α > VaR for the excess ofloss L = X − M ( X ) is given by:VaR α ( L ) = VaR α ( X − M ( X )) = VaR α ( X ) − M ( X ) = β [(1 − α ) − /δ − /δ ] . Thus, with probability α the excess of loss will not exceed the amount VaR α ( L ) . Notice that if α → − thenVaR α ( L ) → + ∞ , which would require an infinite risk capital, something impossible in practice, and insteada value α < α = 0 . , though it is not clear how a particular value of α is considered “safe enough” in some sense.4s an additional comment for this last example, the mean for the Pareto model may no exist, it onlydoes when δ > E ( X ) = βδ/ ( δ −
1) which implies that for values of δ sufficientlyclose to 1 it is possible to have E ( X ) > VaR α ( X ) for any given value α < δ → E ( X ) = + ∞ . Since parameter δ controls tail heaviness of this probability distribution (lower δ values imply heavier righttail) this exemplifies a comment at the beginning of the previous section in the sense that it is better to usethe median instead of the mean. Consider n excess of loss random variables L , . . . , L n where L i = X i − M ( X i ) for i ∈ { , . . . , n } as inDefinition 2.1. It is of interest to calculate VaR of the aggregation of such random variables: L = L + · · · + L n = n X i = 1 X i − n X i = 1 M ( X i ) = S − c , (2)where the random variable S := P ni = 1 X i and the constant c := P ni = 1 M ( X i ) . In this case we getVaR α ( L ) = VaR α ( S ) − c so this last calculation essentially depends on obtaining or estimating the prob-ability distribution function of S, that is F S , because VaR α ( S ) = F − S ( α ) . Since S is a transformation ofthe n -dimensional random vector ( X , . . . , X n ) it is necessary to know either the joint probability distri-bution function F X ,...,X n ( x , . . . , x n ) = P ( X ≤ x , . . . , X n ≤ x n ) or its joint probability density function f X ,...,X n ( x , . . . , x n ) ≥ P [ ( X , . . . , X n ) ∈ B ] = Z · · · Z B f X ,...,X n ( x , . . . , x n ) dx · · · dx n . A very popular probabilistic model is the multivariate Normal distribution, which undoubtedly has verynice mathematical properties that makes it very attractive for analysis and simplified calculations, but inpractice it is usually inappropriate for the following reasons: • All the univariate marginal distributions have to be
Normal . Very often excess of loss random variablesexhibit such a probabilistic behavior that are easily rejected by standard statistical normality tests,specially for heavier tails than the
Normal distribution. • The multivariate Normal is completely unable to consider tail dependence that very often is presentamong risks in finance and insurance, which consists in an important increase of the dependence degreeunder extreme values of the random variables involved.These two flaws combined usually lead to a significant underestimation of the total aggregated risk. Instead,more flexible models have been explored, such as the ones built by means of copula functions which allowfor any kind and distinct marginal univariate distributions and also account for tail dependence. Gettinginto the details of copula modeling is beyond the scope of the present article, the interested reader shouldrefer to Nelsen (2006) for a book on basic copula theory, and the books by McNeil et al. (2015) and Denuit et al. (2005) for applications of copulas in finance and insurance risk modeling.In two following sections, calculation of aggregated VaR will be considered in two extreme cases: perfectpositive dependence (comonotonicity) and complete absence of dependence (that is, independence). Forsimplicity, but without loss of generality, it is considered the aggregation of two excess of loss randomvariables, that is L = L + L where L = X − M ( X ) and L = Y − M ( Y ) , which is equivalent to L = S − c with S := X + Y and c := M ( X ) + M ( Y ) and therefore VaR α ( L ) = VaR α ( S ) − c. Comonotonicity
The following result comes from the works by Hoeffding (1940) and Fr´echet (1951) and it is known as the
Fr´echet-Hoeffding bounds for joint probability distribution functions, which for simplicity is stated for thebivariate case:
Lemma 5.1. (Fr´echet–Hoeffding) If ( X, Y ) is a random vector with joint probability distribution function F X,Y ( x, y ) = P ( X ≤ x, Y ≤ y ) and marginal distribution functions F X ( x ) = P ( X ≤ x ) and F Y ( y ) = P ( Y ≤ y ) then: H ∗ ( x, y ) := max { F X ( x ) + F Y ( y ) − , } ≤ F X,Y ( x, y ) ≤ min { F X ( x ) , F Y ( y ) } =: H ∗ ( x, y ) , where the lower bound H ∗ and the upper bound H ∗ are both joint distribution functions and therefore infimumand supremum for all bivariate joint distribution functions. Definition 5.1.
Two random variables X and Y are comonotone or perfectly positively dependent if thereexists a strictly increasing function g such that P [ Y = g ( X )] = 1 . Proof of the following lemma may be found in Nelsen (2006) as Theorem 2.5.4 and following commentthereof:
Lemma 5.2. (Nelsen, 2006) Let X and Y be continuous random variables with marginal distribution func-tions F X and F Y , respectively, and joint distribution function F X,Y . Then X and Y are comonotone if andonly if F X,Y is equal to the Fr´echet-Hoeffding upper bound.
Now the main result for this section:
Theorem 5.1. If X and Y are continuous comonotone random variables then:VaR α ( X + Y ) = VaR α ( X ) + VaR α ( Y ) . Proof:
Since X and Y are comonotone there exists a strictly increasing function g such that P [ Y = g ( X )] = 1 , hence the distribution function of Y may be expressed as: F Y ( y ) = P ( Y ≤ y ) = P [ g ( X ) ≤ y ] = P [ X ≤ g − ( y )] = F X ( g − ( y )) . By Lemma 5.2 we get: F X,Y ( x, y ) = min { F X ( x ) , F Y ( y ) } = min { F X ( x ) , F X ( g − ( y )) } . Define S := X + Y, then its distribution function satisfies: F S ( s ) = P ( S ≤ s ) = P ( X + Y ≤ s ) = P ( X + g ( X ) ≤ s ) = P ( Y ≤ s − X ) . Since P [ Y = g ( X )] = 1 then F X,Y is a singular distribution because all the probability is distributed alongthe curve y = g ( x ) and therefore F S ( s ) is equal to the value of F X,Y at the intersection point ( x ∗ , y ∗ ) betweenthe increasing curve y = g ( x ) and the decreasing line y = s − x, for all s ∈ Ran g, which requires g ( x ) = s − x and hence the intersection point is ( x ∗ , g ( x ∗ )) where x ∗ is the solution to the equation x + g ( x ) = s whichwill be denoted as x ∗ = h ( s ) . Since g is strictly increasing so it is h which has inverse h − ( x ) = x + g ( x ) . Then: F S ( s ) = F X,Y ( x ∗ , g ( x ∗ )) = min { F X ( x ∗ ) , F X ( g − ( g ( x ∗ ))) } = F X ( h ( s )) , and consequently:VaR α ( X + Y ) = VaR α ( S ) = F − S ( α ) = h − ( F − X ( α ))= F − X ( α ) + g ( F − X ( α )) = VaR α ( X ) + VaR α ( Y ) (cid:3)(cid:3)(cid:3) orollary 5.1. If X and Y are continuous comonotone random variables, then for the excess of loss randomvariables L := X − M ( X ) and L := Y − M ( Y ) we have that:VaR α ( L + L ) = VaR α ( L ) + VaR α ( L ) . Proof:
VaR α ( L + L ) = VaR α ( X + Y − M ( X ) − M ( Y )) = VaR α ( X + Y ) − M ( X ) − M ( Y )= VaR α ( X ) − M ( X ) + VaR α ( Y ) − M ( Y ) = VaR α ( L ) + VaR α ( L ) (cid:3)(cid:3)(cid:3) Example 5.1.
Let X be a Pareto random variable with parameters β = 1 and δ > Y := X . Since Y = g ( X ) with g ( x ) = x a strictly increasing function on Ran X = ]1 , + ∞ [ then X and Y are comonotone, with Ran Y = ]1 , + ∞ [ also. Making use of the formulas in Example 3.1 we obtain: F Y ( y ) = P ( Y ≤ y ) = P ( X ≤ y ) = P ( X ≤ √ y )= F X ( √ y ) = 1 − (cid:18) y (cid:19) δ/ , y > , which implies that Y is also a Pareto random variable but with parameters β = 1 and δ/ , therefore:Var α ( X ) = (1 − α ) − /δ , Var α ( Y ) = (1 − α ) − /δ . Now let S := X + Y = X + X where Ran S = ]2 , + ∞ [ and we get: F S ( s ) = P ( S ≤ s ) = P ( X + X ≤ s ) = P (cid:0) X ≤ ( √ s − / (cid:1) = F X (cid:0) ( √ s − / (cid:1) = 1 − (cid:0) / ( √ s − (cid:1) δ , s > , from where we obtain for any 0 < α < α ( X + Y ) = VaR α ( S ) = F − S ( α ) = (1 − α ) − /δ + (1 − α ) − /δ = Var α ( X ) + Var α ( Y ) , as expected. (cid:3)(cid:3)(cid:3) In contrast with the comonotonicity case where such property always implies that the VaR of the sum isequal to sum of the individual VaRs, under lack of dependence (independence) it is not possible to establisha general formula that relates the VaR for a sum of independent random variables to the individual VaRs,it will depend on each particular case, as it is shown in the following three examples:
Example 6.1.
Let X and Y be independent and identically distributed Pareto random variables withparameters β = 1 and δ = 1 such that the right tail of their distributions is heavy enough for non existenceof a mean. Again applying formulas from Example 3.1 we get VaR α ( X ) = (1 − α ) − = VaR α ( Y ) where0 < α < X, Y ) is the product ofthe marginal densities: f X,Y ( x, y ) = f X ( x ) f Y ( y ) = 1 x y , x > , y > . Let S := X + Y then Ran S = ]2 , + ∞ [ and its distribution function: F S ( s ) = P ( S ≤ s ) = P ( X + Y ≤ s ) = P ( Y ≤ s − X ) = Z Z y ≤ s − x f X,Y ( x, y ) dxdy = Z s − x − Z s − x y − dydx = 1 − s − s log( s − , s > . s ∗ := VaR α ( X ) + VaR α ( Y ) = 2 / (1 − α ) > . Then: F S ( s ∗ ) = α − (1 − α ) (cid:18) α − α (cid:19) < α , which implies that for any 0 < α < α ( X ) + VaR α ( Y ) = s ∗ < F − S ( α ) = VaR α ( S ) = VaR α ( X + Y ) . Despite total absence of dependence between the random variables the right tails of their distributions areheavy enough such that the diversification effect is definitely not convenient: the VaR of the sum is greaterthan the sum of the individual VaRs, in this particular case. (cid:3)(cid:3)(cid:3)
Example 6.2.
Now let X and Y be independent and identically distributed Normal (0 ,
1) random variables.Their distribution function is expressed as:Φ( z ) = 1 √ π Z z −∞ e − t / dt. The tails of this distribution are not as heavy as in the previous example, and it has finite mean andvariance. Then the random variable S := X + Y has Normal (0 ,
2) distribution, which is the same as √ X since a linear transformation of a Normal random variable is still
Normal and E ( √ X ) = √ E ( X ) = 0 and V ( √ X ) = 2 V ( X ) = 2 . Therefore the distribution function of S may be expressed as: F S ( s ) = P ( S ≤ s ) = P ( √ X ≤ s ) = P ( X ≤ s/ √
2) = Φ( s/ √ , and its quantile function as F − S ( u ) = √ − ( u ) , < u < . Consequently, for any 0 < α < α ( X + Y ) = VaR α ( S ) = F − S ( α ) = √ − ( α ) < − ( α ) = VaR α ( X ) + VaR α ( Y ) . In contrast with the previous example, the VaR of this sum of random variables is strictly less than the sumof the individual VaRs, and therefore in this particular case diversification is clearly convenient. (cid:3)(cid:3)(cid:3)
Example 6.3.
Lastly, let X and Y be independent and identically distributed Exponential random variableswith parameter equal to 1 . The right tail of this distribution is not as heavy as in Example 6.1 but certainlyheavier than in Example 6.2, with finite mean and variance. Their marginal probability density function is f ( x ) = e − x , x > , and the corresponding distribution function F ( x ) = 1 − e − x , x > , hence VaR α ( X ) = − log(1 − α ) = VaR α ( Y ) where 0 < α < . By independence the joint density function of the random vector(
X, Y ) is the product of the marginal densities: f X,Y ( x, y ) = f X ( x ) f Y ( y ) = e − ( x + y ) , x > , y > . Let S := X + Y, then Ran S = ]0 , + ∞ [ and its distribution function is: F S ( s ) = P ( X + Y ≤ s ) = Z Z y ≤ s − x f X,Y ( x, y ) dxdy = Z s e − x Z s − x e − y dydx = 1 − e − s (1 + s ) , s > . By the way, calculating the derivative of F S ( s ) we get f S ( s ) = se − s , s > , which is a density of a Gamma (2 ,
1) random variable. Let s ∗ := VaR α ( X ) + VaR α ( Y ) = − − α ) . Then: g ( α ) := F S ( s ∗ ) = 1 − (1 − α ) (cid:0) − − α ) (cid:1) , < α < . .0 0.2 0.4 0.6 0.8 1.0 . . . . . . a g ( a ) l Figure 1: Graph of g ( α ) = F S (cid:0) − − α ) (cid:1) in Example 6.3.By numerical approximation it is obtained that g ( α ) = α if and only if α ≈ . , see Figure 1, g ( α ) < α if α < . g ( α ) > α if α > . , which implies thatVaR α ( X ) + VaR α ( Y ) < VaR α ( X + Y ) if α < . α ( X + Y ) if α ≈ . > VaR α ( X + Y ) if α > . α level for VaR, in contrastwith the two previous examples. (cid:3)(cid:3)(cid:3) The main conclusion in the present work is that diversification is not always convenient. As shown inthe examples, risk diversification may result better, worse or equivalent to lack thereof, depending on theindividual risks involved and the dependence relationship between them, and even on the desired risk level.In particular, as a consequence of Theorem 5.1, if two continuous random variables are comonotone then wecan guarantee that the VaR is always equal to the sum of the individual VaRs. But for independent randomvariables everything may happen.Moreover, it is argued that the fact VaR is not subadditive is more and advantage: in case the VaR ofa sum is greater than the sum of individual VaRs we would be detecting a specially pernicious combinationof risks on which is not convenient to diversify, while under “coherent” risk measures as in Definition 2.6where subadditivity is always present it would not possible to detect such a harmful risk combination.
Bibliography
Denuit, M., Dhaene, J., Goovaerts, M., Kaas, R. (2005)
Actuarial Theory for Dependent Risks.
Wiley(Chichester).Fr´echet, M. (1951) Sur les tableaux de corr´elation dont les marges sont donn´ees.
Ann. Univ. Lyon ,(Sect. A Ser. 3), 53–77. 9oeffding, W. (1940) Masstabinvariante Korrelationstheorie. Schriften des Matematischen Instituts und desInstituts f¨ur Angewandte Mathematik der Universit¨at Berlin , 179–223.McNeil, A.J., Frey, R., Embrechts, P. (2015) Quantitative Risk Management.
Princeton University Press(New Jersey).Nelsen, R.B. (2006)
An Introduction to Copulas.
Springer (New York).10 alor en riesgo y el dogma de la diversificaci´on
Arturo Erdely * Facultad de Estudios Superiores Acatl´anUniversidad Nacional Aut´onoma de M´exico [email protected]
Resumen
Se analiza el principio de diversificaci´on de riesgos y se demuestra que no siempre resulta mejor que nodiversificar, pues esto depende de caracter´ısticas individuales de los riesgos involucrados, as´ı como de larelaci´on de dependencia entre los mismos.
Palabras clave: valor en riesgo, agregaci´on de p´erdidas, comonotonicidad, diversificaci´on.
1. Introducci´on
Un refr´an popular sugiere que no pongas todos los huevos en una misma canasta y lleva impl´ıcito un principio (llam´emoslo as´ı moment´aneamente) de diversificaci´on de riesgos que m´as o menos tendr´ıa lasiguiente “justificaci´on”: Supongamos que necesitamos trasladar 2 n huevos caminando de un punto A a unpunto B y que tenemos acceso a dos alternativas, la primera, recurrir a una persona con una sola canastacon capacidad para la totalidad de los 2 n huevos, y la segunda, recurrir a dos personas, cada una con unacanasta con capacidad para n huevos, que de forma separada e independiente har´ıan dicho traslado. Elmencionado refr´an sugiere que hay mayor riesgo en la primera alternativa, pues si la persona tropieza en elcamino, se romper´ıa la totalidad de los 2 n huevos (p´erdida total), y en cambio bajo la segunda alternativasi una de las personas tropieza s´olo se perder´ıa la mitad, y ser´ıa muy mala suerte que ambas tropezaran, encuyo caso la p´erdida agregada ser´ıa de todos modos la misma que si la persona de la primera alternativatropezara.Sea X una variable aleatoria que cuantifica (en n´umero de huevos) la p´erdida bajo la primera alternativa(una sola canasta), y sea Y la que cuantifica la p´erdida bajo la segunda (dos canastas). Sea 0 < θ < X, Y son variables aleatorias discretas tales que P ( X ∈ { , n } ) = 1 y P ( Y ∈ { , n, n } ) = 1 , con probabilidades puntuales P ( X = 2 n ) = θ, P ( X = 0) = 1 − θ, P ( Y = 2 n ) = θ , P ( Y = n ) = 2 θ (1 − θ ) , P ( Y = 0) = (1 − θ ) . Si bien la probabilidad de tener la p´erdida m´axima 2 n es mayor bajo la primeraalternativa que bajo la segunda, notemos que la probabilidad de no tener p´erdida alguna bajo la primeraalternativa tambi´en es mayor que bajo la segunda. M´as a´un, notemos que P ( Y >
0) = θ + 2 θ (1 − θ ) = θ (2 − θ ) > θ = P ( X > , lo que quiere decir que es m´as probable que suframos alg´un tipo de p´erdida (parcial o total) bajo la segundaalternativa que bajo la primera. Entonces... ¿es mejor poner todos los huevos en la misma canasta? Si eltraslado de los huevos se va a realizar una sola vez, la respuesta ser´ıa afirmativa, pero si el mismo trasladova a realizarse un n´umero muy grande de veces entonces deber´ıamos analizar la p´erdida promedio de largo * Sitio personal en internet https://sites.google.com/site/arturoerdely a r X i v : . [ q -f i n . R M ] S e p lazo , que en este caso ser´ıa E ( X ) = 2 nθ para la primera alternativa, y E ( Y ) = 2 nθ + 2 nθ (1 − θ ) = 2 nθ para la segunda alternativa, es decir, a largo plazo no habr´ıa diferencia entre ambas alternativas.Entonces... ¿nunca conviene diversificar en dos canastas? Si la probabilidad de tropezar y romper loshuevos es la misma con 2 n huevos que con la mitad de ellos (que bien podr´ıa ser razonable hasta ciertovalor de n ) entonces el proverbio fallar´ıa, pero quiz´as para un n´umero n suficientemente grande deber´ıamosconsiderar probabilidades distintas de tropezar y romperlos, digamos θ para la primera alternativa y θ parala segunda, con θ > θ . Esta ´ultima condici´on implicar´ıa que E ( X ) > E ( Y ) y en tal caso s´ı es convenientediversificar, siempre que se realice un n´umero muy grande de traslados. Pero si se realiza un solo trasladoentonces la condici´on θ > θ no ser´ıa suficiente para que convenga diversificar, a menos que θ (2 − θ ) < θ , ya que θ < θ (2 − θ ) . En el presente trabajo se pretende demostrar que la creencia com´un en que diversificar riesgos siempre es mejor que no hacerlo, es m´as un dogma que un principio universal cient´ıficamente comprobado, yque lo correcto es decir que diversificar riesgos puede resultar mejor, peor o igual, seg´un el tipo de riesgosinvolucrados y la relaci´on de dependencia entre ellos.
2. Medidas de riesgo
Sea X una variable aleatoria continua, con funci´on de distribuci´on de probabilidades estrictamentecreciente F X , que representa p´erdida econ´omica derivada de eventos contemplados en un contrato de seguroo inversi´on. Para efectos pr´acticos y sin p´erdida de generalidad consideraremos cantidades monetarias a valorconstante en el tiempo (por ejemplo, indexadas a la inflaci´on). Como una estimaci´on puntual de la p´erdidapuede utilizarse alguna medida de tendencia central como la media (esperanza) o la mediana, por ejemplo.Utilizaremos la mediana porque siempre existe para variables aleatorias continuas y es robusta, en contrastecon la media que puede no existir o bien ser inestablemente grande bajo distribuciones de probabilidad concolas muy pesadas. La mediana se calcula por medio de la funci´on de cuantiles (inversa de F X ), esto es M ( X ) = F − X ( ) ya que P ( X ≤ M ( X )) = . Definici´on 2.1. La p´erdida en exceso a lo inicialmente estimado para una variable aleatoria continua X que representa p´erdidas es tambi´en una variable aleatoria que se define: L := X − M ( X ) . Como se sugiere en McNeil et al. (2015) una de entre varias formas para interpretar una medida de riesgo es como la cantidad de capital adicional necesario para hacer frente a una p´erdida en exceso que pudierapresentarse, misma que denotaremos % ( L ) . Hay varias propiedades que en la literatura especializada sesugieren como “deseables” o “razonables” para cualquier medida de riesgo, algunas quiz´as son intuitivamenterazonables, otras en ocasiones generan algunos cuestionamientos.
Definici´on 2.2.
Una medida de riesgo % es mon´otona si para cualesquiera variables aleatorias de p´erdidaen exceso L y L tales que P ( L ≤ L ) = 1 se cumple % ( L ) ≤ % ( L ) . Respecto a esta propiedad, McNeil et al. (2015) y diversos autores consideran que la monotonicidad esobviamente deseable ya que posiciones o transacciones financieras que involucren mayores p´erdidas, bajocualquier escenario, requieren mayor capital de riesgo. Posiciones tales que % ( L ) ≤ Proposici´on tenida por cierta y como principio innegable. Conjunto de creencias de car´acter indiscutible y obligado paralos seguidores de cualquier religi´on.
Fuente:
Real Academia Espa˜nola, http://dle.rae.es/?id=E4earE8 efinici´on 2.3. Una medida de riesgo % es invariante bajo traslaci´on si para cualquier variable aleatoriade p´erdida en exceso L y una constante cualquiera c se cumple que % ( L + c ) = % ( L ) + c. Tambi´en esta propiedad es considerada como obviamente deseable por McNeil et al. (2015) y otros autoresbajo un argumento como el siguiente: la incertidumbre asociada a L := L + c depende totalmente de L, no de c, y por tanto si % ( L ) es el capital adicional necesario para hacer frente a una p´erdida en exceso quepudiera presentarse con L basta agregarle c para contar con el capital de riesgo necesario para cubrir loan´alogo con L . Definici´on 2.4.
Una medida de riesgo % es subaditiva si para cualesquiera variables aleatorias de p´erdidaen exceso L y L se cumple que % ( L + L ) ≤ % ( L ) + % ( L ) . La propiedad anterior no es considerada “obviamente razonable” ya que existen debates al respecto.Uno de los argumentos a favor es que diversificar siempre reduce el riesgo, lo cual es m´as un dogma quealgo que haya sido formalmente demostrado que ocurre bajo cualquier circunstancia, adem´as de que surgela duda sobre si cierto tipo de interacci´on entre dos o m´as posibles fuentes de p´erdida pudieran generarp´erdidas adicionales a las que de por s´ı y de forma individual pueden generar. Al contrario, es opini´on dequien escribe que es mejor que una medida de riesgo no sea subaditiva, ya que si en un momento dado ocurreque % ( L + L ) > % ( L ) + % ( L ) estar´ıamos detectando una combinaci´on de riesgos especialmente perniciosa,y que por ello debi´eramos evitar. Definici´on 2.5.
Una medida de riesgo % es positivamente homog´enea si para cualquier variable aleatoriade p´erdida en exceso L y cualquier constante λ > % ( λL ) = λ% ( L ) . Respecto a esta propiedad McNeil et al. (2015) y otros autores comentan que en caso de que se hayaaceptado como razonable la subaditividad entonces para cualquier entero positivo n se tendr´ıa que aceptar % ( nL ) = % ( L + · · · + L ) ≤ n% ( L ) (1)y como no hay “beneficio” por diversificaci´on al tratarse de la misma fuente de p´erdida se alcanzar´ıa elm´aximo valor posible en (1), es decir igualdad. Los mismos autores reconocen la cr´ıtica que existe respectoa esta propiedad ya que hay quienes opinan que en ciertos contextos y con valores suficientemente grandesde λ deber´ıa cumplirse que % ( λL ) > λ% ( L ) para penalizar una elevada concentraci´on del riesgo. Definici´on 2.6. % es una medida coherente de riesgo si cumple con las Definiciones 2.2 a 2.5.El adjetivo “coherente” en la definici´on anterior resulta un tanto chocante, ya que impl´ıcitamente calificade incoherente a cualquier medida de riesgo que no la cumpla, a pesar de que existen cuestionamientosrazonables sobre dos de las cuatro propiedades que exige. Existen propiedades adicionales que tambi´en sehan propuesto en diversos contextos, v´ease el ya multicitado libro de McNeil et al. (2015) o bien Denuit etal. (2005), pero para el alcance que se pretende en el presente art´ıculo lo anterior es suficiente.
3. Valor en riesgo
Si bien podemos interpretar a % ( L ) como el capital de riesgo necesario para hacer frente a una p´erdidaen exceso que pudiera presentarse con L, tal y como lo proponen McNeil et al. (2015), en la pr´actica dichainterpretaci´on podr´ıa f´acilmente resultar inviable. Pensemos, por ejemplo, en una cartera de p´olizas de segurocon determinadas sumas aseguradas. La ´unica forma de garantizar que se cuenta con suficientes recursosecon´omicos para hacer frente a todas las posibles reclamaciones es que el total de reservas de la compa˜n´ıade seguros fuese exactamente igual a la suma de todas las sumas aseguradas en dicha cartera.3o que usualmente se busca en la pr´actica, especialmente bajo los esquemas de los Acuerdos de Basilea y Solvencia II , es contar con un capital de riesgo que tenga una probabilidad “aceptablemente alta” (peroestrictamente menor que 1) de cubrir el total de p´erdida en exceso que pudiera enfrentar una entidad finan-ciera o de seguros. ¿Qui´en determina cu´anto es “aceptablemente alto”? T´ıpicamente la autoridad reguladoradel sector que corresponda, aunque adicionalmente cada entidad financiera o de seguros est´a en libertad deaplicar niveles de probabilidad a´un mayores a los que como m´ınimo solicite el regulador. Definici´on 3.1.
Se denomina valor en riesgo de nivel 0 < α < L a la medidade riesgo denotada y definida como VaR α ( L ) := F − L ( α )donde las siglas VaR corresponden en idioma ingl´es a Value at Risk y F − L es la funci´on de cuantiles de lavariable aleatoria continua L, esto es, la funci´on inversa de la funci´on de distribuci´on de probabilidades de L. Dicho de otra forma, el valor en riesgo de nivel α asociado a una variable aleatoria continua es unacantidad que dicha variable no exceder´a con probabilidad α. N´otese que la mediana es un valor en riesgo denivel . Proposici´on 3.1.
La medida de riesgo VaR es mon´otona, invariante bajo traslaci´on y positivamente ho-mog´enea.Demostraci´on: a) Sean
X, Y variables aleatorias continuas tales que P ( X ≤ Y ) = 1 . Entonces para todo valor x ∈ R : P ( X ≤ x ) = P ( X ≤ x < Y ) + P ( X ≤ Y ≤ x ) ≥ P ( { X ≤ Y } ∩ { Y ≤ x } ) = P ( Y ≤ x ) , es decir F X ( x ) ≥ F Y ( x ) . Sean x α := VaR α ( X ) , y α := VaR α ( Y ) . Entonces α = F X ( x α ) ≥ F Y ( x α ) ycomo tambi´en α = F Y ( y α ) y las funciones de distribuci´on son mon´otonas crecientes, necesariamente x α ≤ y α y por lo tanto VaR α ( X ) ≤ VaR α ( Y ) . b) Sea X una variable aleatoria continua con funci´on de distribuci´on de probabilidades F X estrictamentecreciente y sea c ∈ R una constante cualquiera. Definiendo una variable aleatoria Y := X + c tenemosque su funci´on de distribuci´on de probabilidades resulta ser: F Y ( y ) = P ( Y ≤ y ) = P ( X + c ≤ y ) = P ( X ≤ y − c ) = F X ( y − c ) . Sean x α := VaR α ( X ) , y α := VaR α ( Y ) . Entonces: F X ( x α ) = α = F Y ( y α ) = F X ( y α − c ) , y como F X es estrictamente creciente entonces necesariamente x α = y α − c lo cual equivale aVaR α ( X ) + c = VaR α ( Y ) = VaR α ( X + c ) . c) Sea X una variable aleatoria continua con funci´on de distribuci´on de probabilidades F X estrictamentecreciente y sea λ > Y := λX tenemos que su funci´onde distribuci´on de probabilidades resulta ser: F Y ( y ) = P ( Y ≤ y ) = P ( λX ≤ y ) = P ( X ≤ y/λ ) = F X ( y/λ ) . Sean x α := VaR α ( X ) , y α := VaR α ( Y ) . Entonces: F X ( x α ) = α = F Y ( y α ) = F X ( y α /λ ) , y como F X es estrictamente creciente entonces necesariamente x α = y α /λ lo cual a su vez equivale a λ VaR α ( X ) = VaR α ( Y ) = VaR α ( λX ) . (cid:3)(cid:3)(cid:3) Cons´ultese, por ejemplo,
Un marco global para la evaluaci´on de la solvencia del asegurador,
Informe del Grupo de Trabajopara la Evaluaci´on de la Solvencia del Asegurador de la Asociaci´on Actuarial Internacional (2009).
Ejemplo 3.1.
Sea X una variable aleatoria continua Pareto con par´ametros β > δ > . Su funci´on dedensidad de probabilidades es: f X ( x | β, δ ) = δβ δ x δ +1 , x > β, y por tanto su funci´on de distribuci´on de probabilidades resulta ser: F X ( t ) = Z t −∞ f X ( x | β, δ ) dx = δβ δ Z tβ dxx δ +1 = 1 − (cid:18) βt (cid:19) δ , t > β. La funci´on de cuantiles de X es la inversa de F X , esto es F − X ( u ) = β (1 − u ) − /δ para 0 < u < M ( X ) = VaR / ( X ) = F − X ( ) = 2 /δ β. Calculemos ahora el valor enriesgo de nivel α > para la p´erdida en exceso L = X − M ( X ) :VaR α ( L ) = VaR α ( X − M ( X )) = VaR α ( X ) − M ( X ) = β [(1 − α ) − /δ − /δ ] . As´ı, con probabilidad α la p´erdida en exceso no exceder´a la cantidad VaR α ( L ) . N´otese que si α → − entonces VaR α ( L ) → + ∞ , lo cual requerir´ıa un capital de riesgo infinito, algo imposible en la pr´actica, yes por ello que normalmente se elige un valor α < α = 0 . , aunque no queda claroc´omo especificar un valor α que refleje un cierto nivel abstracto de “tranquilidad”.Como comentario adicional respecto al ejemplo anterior, la esperanza para el modelo Pareto no siempreexiste, solo existe cuando δ > E ( X ) = βδ/ ( δ −
1) lo cual implica que convalores de δ suficientemente cercanos a 1 por la derecha es posible que E ( X ) sea mayor que VaR α ( X ) paracualquier valor dado α < δ → E ( X ) = + ∞ . Como el par´ametro δ controla el grado de pesadezen la cola de la distribuci´on de probabilidad en este modelo (a menor valor de δ mayor pesadez) esto ilustrael comentario al inicio de la secci´on anterior en el sentido de que es m´as conveniente utilizar la mediana enlugar de la media.
4. Agregaci´on de p´erdidas
Consideremos ahora n variables aleatorias de p´erdida en exceso L , . . . , L n en donde cada una se expresacomo en la Definici´on 2.1, es decir L i = X i − M ( X i ) para i ∈ { , . . . , n } . Supongamos que es de inter´escalcular el valor en riesgo para la agregaci´on o suma de dichas variables: L = L + · · · + L n = n X i = 1 X i − n X i = 1 M ( X i ) = S − c , (2)en donde se definen la variable aleatoria S := P ni = 1 X i y la constante c := P ni = 1 M ( X i ) . En este casotendr´ıamos que VaR α ( L ) = VaR α ( S ) − c por lo que dicho c´alculo dependende esencialmente de poderobtener o estimar la funci´on de distribuci´on de probabilidades de S, es decir F S , ya que VaR α ( S ) = F − S ( α ) . Como S es una transformaci´on del vector aleatorio n -dimensional ( X , . . . , X n ) entonces para la obtenci´ono estimaci´on de F S se requiere una distribuci´on de probabilidades conjunta que capture adecuadamentelas dependencias entre las variables aleatorias que integran dicho vector aleatorio, ya sea una funci´on dedistribuci´on conjunta de probabilidades F X ,...,X n ( x , . . . , x n ) = P ( X ≤ x , . . . , X n ≤ x n ) o bien una funci´onde densidad de probabilidades conjunta f X ,...,X n ( x , . . . , x n ) ≥ P [ ( X , . . . , X n ) ∈ B ] = Z · · · Z B f X ,...,X n ( x , . . . , x n ) dx · · · dx n .
5n modelo probabil´ıstico muy popular es la distribuci´on de probabilidad
Normal multivariada , que sibien tiene propiedades matem´aticas que la hacen muy atractiva para el an´alisis y simplificar c´alculos, resultacon mucha frecuencia un modelo inapropiado por las siguientes razones:Las distribuciones marginales univariadas deben todas tener distribuci´on
Normal . Con frecuencia lasvariables de p´erdida exhiben distribuciones de probabilidad que son rechazadas por pruebas estad´ısticasde normalidad, t´ıpicamente por tener colas m´as pesadas.La distribuci´on
Normal multivariada es incapaz de incorporar dependencia en las colas ( tail dependence en idioma ingl´es), una caracter´ıstica que con frecuencia se observa entre variables asociadas a riesgosen seguros y finanzas y que consiste en un incremento importante en el grado de dependencia bajovalores extremos de las variables involucradas.Estas dos deficiencias conducen a una subestimaci´on del riesgo total agregado, lo que ha motivado la b´usque-da de modelos probabil´ısticos m´as flexibles, como los que se pueden construir por medio de funciones c´opula ,mismos que permiten utilizar distribuciones marginales univariadas de cualquier tipo y distintas para cadavariable involucrada, y adem´as incorporar dependencia en las colas (tail dependence). Entrar al detalle deesto ser´ıa motivo de otro art´ıculo, por lo pronto simplemente se hace referencia a Nelsen (2006) cuyo libroes considerado fundamental para la comprensi´on de la teor´ıa b´asica de funciones c´opula, y nuevamente loslibros de McNeil et al. (2015) o bien Denuit et al. (2005) para su aplicaci´on en finanzas y seguros. Para unabreve introducci´on a funciones c´opula puede revisarse Erdely (2009).En las dos secciones siguientes se analizar´a el c´alculo del valor en riesgo de una agregaci´on de varia-bles aleatorias en dos casos extremos: dependencia positiva perfecta (comonotonicidad) y ausencia totalde dependencia (independencia). Por simplicidad pero sin p´erdida de generalidad analizaremos el caso dela agregaci´on de dos variables de p´erdida en exceso, esto es L = L + L donde L = X − M ( X ) y L = Y − M ( Y ) , que podemos expresar como L = S − c donde S := X + Y y c := M ( X ) + M ( Y ) y portanto VaR α ( L ) = VaR α ( S ) − c.
5. Comonotonicidad
El siguiente es un resultado consecuencia de los trabajos de Hoeffding (1940) y Fr´echet (1951) cono-cido como cotas de Fr´echet-Hoeffding para funciones de distribuci´on de probabilidad conjunta, que porsimplicidad aqu´ı lo restringimos al caso bivariado:
Lema 5.1. (Fr´echet–Hoeffding) Si ( X, Y ) es un vector aleatorio con funci´on de distribuci´on conjunta F X,Y ( x, y ) = P ( X ≤ x, Y ≤ y ) y funciones de distribuci´on marginales F X ( x ) = P ( X ≤ x ) y F Y ( y ) = P ( Y ≤ y ) entonces: H ∗ ( x, y ) := m´ax { F X ( x ) + F Y ( y ) − , } ≤ F X,Y ( x, y ) ≤ m´ın { F X ( x ) , F Y ( y ) } =: H ∗ ( x, y ) , en donde la cota inferior H ∗ y la cota superior H ∗ son ambas funciones de distribuci´on conjunta y por tantoconstituyen ´ınfimo y supremo de todas las funciones de distribuci´on conjunta bivariadas. Definici´on 5.1.
Se dice que dos variables aleatorias
X, Y son comon´otonas o bien que tienen dependenciapositiva perfecta si existe una funci´on g estrictamente creciente tal P [ Y = g ( X )] = 1 . La demostraci´on del siguiente lema puede consultarse en Nelsen (2006) como Teorema 2.5.4 y comentarioposterior, mismo que resulta necesario para el teorema principal de esta secci´on:6 ema 5.2. (Nelsen, 2006) Sean
X, Y variables aleatorias continuas con funciones de distribuci´on marginal F X y F Y , respectivamente, y funci´on de distribuci´on conjunta F X,Y . Entonces
X, Y son comon´otonas si ys´olo si F X,Y es igual a la cota superior de Fr´echet-Hoeffding.
A continuaci´on, el resultado principal de esta secci´on:
Teorema 5.1. Si X, Y son variables aleatorias continuas y comon´otonas entonces:VaR α ( X + Y ) = VaR α ( X ) + VaR α ( Y ) . Demostraci´on:
Como
X, Y son comon´otonas entonces existe una funci´on g estrictamente creciente tal que P [ Y = g ( X )] = 1 , por lo que la funci´on de distribuci´on de Y puede expresarse como: F Y ( y ) = P ( Y ≤ y ) = P [ g ( X ) ≤ y ] = P [ X ≤ g − ( y )] = F X ( g − ( y )) . Aplicando el Lema 5.2 tenemos que: F X,Y ( x, y ) = m´ın { F X ( x ) , F Y ( y ) } = m´ın { F X ( x ) , F X ( g − ( y )) } . Si se define S := X + Y entonces su funci´on de distribuci´on de probabilidades satisface lo siguiente: F S ( s ) = P ( S ≤ s ) = P ( X + Y ≤ s ) = P ( X + g ( X ) ≤ s ) = P ( Y ≤ s − X ) . Como P [ Y = g ( X )] = 1 entonces F X,Y es una distribuci´on singular ya que toda la probabilidad se encuentraconcentrada sobre la curva y = g ( x ) y por lo tanto F S ( s ) es igual al valor acumulado por F X,Y en el puntode intersecci´on ( x ∗ , y ∗ ) de la curva creciente y = g ( x ) con la recta decreciente y = s − x, para todo valor s ∈ Ran g, lo cual requiere que g ( x ) = s − x y por tanto el punto de intersecci´on es ( x ∗ , g ( x ∗ )) donde x ∗ es la soluci´on de la ecuaci´on x + g ( x ) = s que denotaremos x ∗ = h ( s ) . Como g es estrictamente crecienteentonces h tambi´en lo es y tiene inversa h − ( x ) = x + g ( x ) . Entonces: F S ( s ) = F X,Y ( x ∗ , g ( x ∗ )) = m´ın { F X ( x ∗ ) , F X ( g − ( g ( x ∗ ))) } = F X ( h ( s )) , y por lo tanto: VaR α ( X + Y ) = VaR α ( S ) = F − S ( α ) = h − ( F − X ( α ))= F − X ( α ) + g ( F − X ( α )) = VaR α ( X ) + VaR α ( Y ) (cid:3)(cid:3)(cid:3) Corolario 5.1. Si X, Y son variables aleatorias continuas comon´otonas que representan p´erdidas, entoncespara las variables aleatorias de exceso de p´erdida L := X − M ( X ) y L := Y − M ( Y ) se cumple que:VaR α ( L + L ) = VaR α ( L ) + VaR α ( L ) . Demostraci´on:
VaR α ( L + L ) = VaR α ( X + Y − M ( X ) − M ( Y )) = VaR α ( X + Y ) − M ( X ) − M ( Y )= VaR α ( X ) − M ( X ) + VaR α ( Y ) − M ( Y ) = VaR α ( L ) + VaR α ( L ) (cid:3)(cid:3)(cid:3) jemplo 5.1. Sea X una variable aleatoria Pareto con par´ametros β = 1 y δ > Y := X . Como Y = g ( X ) con g ( x ) = x una funci´on estrictamente creciente sobre Ran X =]1 , + ∞ [ entonces X, Y son comon´otonas, con Ran Y = ]1 , + ∞ [ tambi´en. Aprovechando las f´ormulas delEjemplo 3.1 obtenemos: F Y ( y ) = P ( Y ≤ y ) = P ( X ≤ y ) = P ( X ≤ √ y )= F X ( √ y ) = 1 − (cid:18) y (cid:19) δ/ , y > , lo cual implica que Y tiene distribuci´on de probabilidad Pareto pero con par´ametros β = 1 y δ/ , y portanto: Var α ( X ) = (1 − α ) − /δ , Var α ( Y ) = (1 − α ) − /δ . Ahora se define la variable aleatoria S := X + Y = X + X donde Ran S = ]2 , + ∞ [ y se obtiene: F S ( s ) = P ( S ≤ s ) = P ( X + X ≤ s ) = P (cid:0) X ≤ ( √ s − / (cid:1) = F X (cid:0) ( √ s − / (cid:1) = 1 − (cid:0) / ( √ s − (cid:1) δ , s > , de donde para todo valor 0 < α < α ( X + Y ) = VaR α ( S ) = F − S ( α ) = (1 − α ) − /δ + (1 − α ) − /δ = Var α ( X ) + Var α ( Y ) , como era de esperarse. (cid:3)(cid:3)(cid:3)
6. Independencia
En contraste con el caso de comonotonicidad donde dicha caracter´ıstica implica necesariamente que elvalor en riesgo de una suma de variables aleatorias es igual a la suma de los valores en riesgo individuales, bajoausencia total de dependencia (es decir, independencia) no es posible establecer de forma general qu´e tipode relaci´on existir´a entre el valor en riesgo de dicha suma y la suma de los valores en riesgo individuales,depender´a de cada caso particular, y para demostrarlo bastar´a con los siguientes tres ejemplos:
Ejemplo 6.1.
Sean
X, Y variables aleatorias independientes e id´enticamente distribuidas
Pareto con par´ame-tros β = 1 y δ = 1 , que con dichos valores de los par´ametros la cola derecha de la distribuci´on de probabilidades suficientemente pesada como para que esperanza y varianza no existan. Aprovechando las f´ormulas delEjemplo 3.1 obtenemos que VaR α ( X ) = (1 − α ) − = VaR α ( Y ) donde 0 < α < X, Y ) es igual al producto de las densidadesmarginales, esto es: f X,Y ( x, y ) = f X ( x ) f Y ( y ) = 1 x y , x > , y > . Si se define la variable aleatoria S := X + Y entonces Ran S = ]2 , + ∞ [ y su funci´on de distribuci´on deprobabilidades es: F S ( s ) = P ( S ≤ s ) = P ( X + Y ≤ s ) = P ( Y ≤ s − X ) = Z Z y ≤ s − x f X,Y ( x, y ) dxdy = Z s − x − Z s − x y − dydx = 1 − s − s log( s − , s > . Sea s ∗ := VaR α ( X ) + VaR α ( Y ) = 2 / (1 − α ) > . Entonces: F S ( s ∗ ) = α − (1 − α ) (cid:18) α − α (cid:19) < α ,
8o cual implica que para todo valor 0 < α < α ( X ) + VaR α ( Y ) = s ∗ < F − S ( α ) = VaR α ( S ) = VaR α ( X + Y ) . A pesar de la ausencia de dependencia alguna entre las variables aleatorias involucradas, las colas de susdistribuciones individuales son suficientemente pesadas como para que el efecto de diversificaci´on resul-te inconveniente, pues el valor en riesgo de su suma resulta mayor que la suma de los valores en riesgoindividuales. (cid:3)(cid:3)(cid:3)
Ejemplo 6.2.
Ahora sean
X, Y variables aleatorias independientes e id´enticamente distribuidas
Nor-mal (0 ,
1) cuya funci´on de distribuci´on de probabilidades se obtiene mediante:Φ( z ) = 1 √ π Z z −∞ e − t / dt. Las colas de esta distribuci´on de probabilidades no son tan pesadas como las del ejemplo anterior y tieneesperanza y varianza finitas. Es un conocido y elemental resultado de probabilidad que la variable aleatoria S := X + Y tiene distribuci´on de probabilidad Normal (0 ,
2) y por ello S tiene la misma distribuci´onde probabilidad que √ X ya que cualquier transformaci´on lineal de una variable aleatoria Normal siguesiendo
Normal y adem´as E ( √ X ) = √ E ( X ) = 0 y V ( √ X ) = 2 V ( X ) = 2 . Por lo anterior, la funci´on dedistribuci´on de probabilidades de S puede expresarse de la siguiente manera: F S ( s ) = P ( S ≤ s ) = P ( √ X ≤ s ) = P ( X ≤ s/ √
2) = Φ( s/ √ , y su funci´on de cuantiles mediante F − S ( u ) = √ − ( u ) , < u < , por lo que para todo valor 0 < α < α ( X + Y ) = VaR α ( S ) = F − S ( α ) = √ − ( α ) < − ( α ) = VaR α ( X ) + VaR α ( Y ) . En contraste con el ejemplo anterior, el valor en riesgo de esta suma de variables aleatorias independientes esmenor que la suma de los valores en riesgo individuales, y por tanto en este caso particular la diversificaci´onresulta conveniente. (cid:3)(cid:3)(cid:3)
Ejemplo 6.3.
Finalmente sean
X, Y variables aleatorias independientes e id´enticamente distribuidas
Expo-nencial est´andar (par´ametro igual a 1). La cola derecha de esta distribuci´on de probabilidad no es tan pesadacomo la del Ejemplo 6.1 pero s´ı m´as pesada que en el Ejemplo 6.2, y tiene esperanza y varianza finitas. Sufunci´on de densidad de probabilidades es f ( x ) = e − x , x > , su funci´on de distribuci´on F ( x ) = 1 − e − x , x >
0y VaR α ( X ) = − log(1 − α ) = VaR α ( Y ) donde 0 < α < . Adem´as, por independencia, la funci´on de densidadconjunta del vector aleatorio (
X, Y ) es igual al producto de las densidades marginales, esto es: f X,Y ( x, y ) = f X ( x ) f Y ( y ) = e − ( x + y ) , x > , y > . Si se define la variable aleatoria S := X + Y entonces Ran S = ]0 , + ∞ [ y su funci´on de distribuci´on deprobabilidades es: F S ( s ) = P ( X + Y ≤ s ) = Z Z y ≤ s − x f X,Y ( x, y ) dxdy = Z s e − x Z s − x e − y dydx = 1 − e − s (1 + s ) , s > . Y de hecho derivando F S ( s ) la funci´on de densidad resultante es f S ( s ) = se − s , s > , que corresponde auna distribuci´on de probabilidad Gamma (2 , . Sea s ∗ := VaR α ( X ) + VaR α ( Y ) = − − α ) . Entonces: g ( α ) := F S ( s ∗ ) = 1 − (1 − α ) (cid:0) − − α ) (cid:1) , < α < . .0 0.2 0.4 0.6 0.8 1.0 . . . . . . a g ( a ) l Figura 1: Gr´afica de g ( α ) = F S (cid:0) − − α ) (cid:1) en el Ejemplo 6.3.Por aproximaci´on num´erica es verificable que g ( α ) = α si y s´olo si α ≈ . , ver Figura 1, que g ( α ) < α si α < . g ( α ) > α si α > . , lo cual implica queVaR α ( X ) + VaR α ( Y ) < VaR α ( X + Y ) si α < . α ( X + Y ) si α ≈ . > VaR α ( X + Y ) si α > . α de valor enriesgo deseado, situaci´on que no ocurri´o en los dos ejemplos anteriores. (cid:3)(cid:3)(cid:3)
7. Conclusiones
La principal conclusi´on del presente an´alisis es que resulta falsa la idea de que diversificar riesgos siemprees mejor que no hacerlo. Como se pudo ilustrar en diversos ejemplos, diversificar riesgos puede resultar mejor,peor o igual que no hacerlo, dependiendo de las caracter´ısticas individuales de los riesgos involucrados, dela relaci´on de dependencia entre ellos, e incluso hasta del nivel de riesgo deseado. En particular, comoconsecuencia del Teorema 5.1, si dos variables aleatorias continuas son comon´otonas entonces s´ı es posibleafirmar que en general el valor en riesgo de la suma es igual a la suma de los valores en riesgo individuales.Pero en el caso de variables aleatorias independendientes puede resultar mejor, peor o igual diversificar,dependiendo de las distribuciones de probabilidad de los riesgos involucrados.Por lo anterior, se argumenta tambi´en que la no subaditividad del VaR es m´as una ventaja que desventaja,pues en aquellos casos en que el VaR de una agregaci´on de riesgos resulte mayor que la suma de los VaRindividuales estar´ıamos obteniendo inmediatamente informaci´on sobre cierto tipo de interacci´on entre riesgosque conviene evitar. En cambio, con medidas “coherentes” de riesgo como en la Definici´on 2.6 donde lasubaditividad est´a garantizada, no tendr´ıamos aviso alguno sobre interacciones de riesgo perniciosas.
Bibliograf´ıa
Denuit, M., Dhaene, J., Goovaerts, M., Kaas, R. (2005)
Actuarial Theory for Dependent Risks.
Wiley(Chichester). 10rdely, A. (2009) C´opulas y dependencia de variables aleatorias: una introducci´on.
Miscel´anea matem´atica , 7–28.Fr´echet, M. (1951) Sur les tableaux de corr´elation dont les marges sont donn´ees. Ann. Univ. Lyon , (Sect.A Ser. 3), 53–77.Hoeffding, W. (1940) Masstabinvariante Korrelationstheorie. Schriften des Matematischen Instituts und desInstituts f¨ur Angewandte Mathematik der Universit¨at Berlin , 179–223.McNeil, A.J., Frey, R., Embrechts, P. (2015) Quantitative Risk Management.
Princeton University Press(New Jersey).Nelsen, R.B. (2006)