1.数据挖掘核心算法之一--回归

2.中心数据库设计

3.分形理论简述

4.国际石油市场风险度量及其溢出效应检验方法

5.概率论与数理统计 这本书需要高数基础么

6.线性回归有什么用处和作用?

石油走向预测_石油价格预测时间序列模型应用

针对我国的能源研究现状,我们认为,我国未来的能源经济学研究大致应有以下几个方向:

——能源消费与我国经济增长的相关性。在Ramsey模型的框架下,在生产函数中引入能源要素,然后根据历年的资本、劳动、能源、物质、社会生产总值的变动计算经济的均衡增长路径。或者是建立计量模型,根据时间序列数据考察能源密度、劳动力密度与全要素生产率的相关关系,以及资本、劳动、物质和能源的替代弹性(包括中长期)的符号与大小。

——估计能源需求函数,建立能源需求的研究框架。考察影响需求的各个因素(包括经济周期的影响),根据历年电力、石油等能源的产量变化得到各种能源品消费组合的变动。

——根据我国能源定价体制,估计能源价格波动方程。1998年,国家对原油、成品油价格形成机制进行了重大改革,改变了单一定价,开始推行市场化定价模式,与国际接轨。影响油价的经济因素和政治因素也更加复杂了,我们需要关注的如:石油需求、替代品的价格、石油的预测和可开量、性能与储量、世界政治形势、石油的控制权、石油投资、各国及石油组织的垄断策略等等,也可以研究我国能源价格与世界能源价格的相关性和滞后性。

——研究能源行业的产业组织结构和供给效率。例如,研究能源消耗密度与工业结构的演进趋势、生产结构是否随着时间趋于更高的能源密度等,以及对于国内石油、电力、煤炭等垄断性的能源行业建立垄断竞争模型。

——分析能源冲击对宏观经济各变量的影响、价格波动导致的受益与损失。还有,研究能源消费对环境的冲击所导致的社会变化,以及进一步的能源立法。

——研究能源进口战略、替代战略与国家经济安全。利用石油期货市场等国际资本市场规避风险,保证国家石油安全。

——建立包含能源在内的可计算一般均衡模型,进行能源政策分析。目前国际上涉及能源的CGE模型主要是环境政策方面。我们可以在CGE模型中引入能源生产和能源消费,进而模拟分析能源政策对经济各部门的影响。

数据挖掘核心算法之一--回归

一、研究区概况

(一)自然地理与社会经济概况

研究区位于松嫩平原西部齐齐哈尔市内,嫩江东侧,北临富裕县,东接林甸和杜尔伯特蒙古族自治县,南部是泰来县。研究区地理坐标:东经123°53′~124°15′,北纬47°10 ′~47°24′,东西长27.39 km,南北宽26.32 km,总面积为720.9 km2,海拔高度一般在200~500 m 之间。地形以平原为主,地势呈马蹄型,东南两侧高、中间低,由北向南逐渐降低。齐齐哈尔市属寒温带大陆性季风气候,南部属温暖干旱农业气候区,中部属温和半干旱农业气候区,北部属温凉半湿润农业气候区。年平均气温在0.7~4.2℃之间,南北相差3.5℃左右。年降水量在400~550 mm 之间,年平均无霜期122~151 d。齐齐哈尔地区土壤主要有暗棕壤、黑土、黑钙土、草甸土、沼泽土、草甸碱土、砂土。齐齐哈尔市大部分土壤具有热量高、透性好、质地轻的特点。

齐齐哈尔市是以重型机械、冶金工业为主体的东北地区老工业基地之一,是黑龙江省第二大城市,具有包括化工、轻工、纺织、建材、食品、电子、医药等门类齐全的工业体系,是黑龙江省西部地区的政治、经济、科技、文化教育、商贸中心和重要的交通枢纽,全市辖7个区、1个市、8个县,人口561.1×104人(市区143.9×104人)。

(二)水文地质概况

齐齐哈尔市位于嫩江低平原,地貌上跨越冲积倾斜平原、冲积-河谷平原、冲积-湖积低平原3个地貌单元。水文地质条件较为复杂,地层由巨厚的白垩纪、新近纪陆相碎屑岩沉积物和第四纪砂、砂砾石为主的松散堆积物组成。

研究区第四系松散堆积物较厚,一般160~190 m。在40~60 m处普遍存在一层弱透水的亚粘土或亚砂土层,厚度一般小于7 m,将区内含水层分隔成水力特征有明显差异的上部潜水和下部承压水。上部潜水含水层厚度24.3~43.0 m,含水介质以砂砾石为主,次为中粗砂、中细砂,夹数层亚粘土、亚砂土透镜体,水位埋深2~5 m,水量丰富,单井涌水量大于2000 m3/d。下部承压水含水层较厚,中更新统含水层厚度一般70~85 m,含水介质为含砾中粗砂、砂砾石,下更新统含水层厚度一般20~50 m,含水介质为含砾中粗砂、中细砂。水位埋深3~5 m,水量较丰富,北部单井涌水量大于2000 m3/d,南部及东南部单井涌水量1200~2000 m3/d。

潜水主要补给来源为大气降水渗入补给、河水渗入补给、侧向径流补给及灌溉水回渗补给,主要排泄方式是人工开、蒸发、越流补给承压水。承压水的主要补给来源为上部潜水的越流补给、侧向径流补给,主要排泄方式为人工开和侧向径流排泄。

区内第四系潜水和承压水均为中性低矿化重碳酸型淡水。pH 值一般在6.6~8.36之间;TDS潜水为230~800 mg/L,承压水为140~380 mg/L;总硬度:潜水120~500 mg/L,承压水90~170 mg/L;水化学类型两者基本相同,均以HCO3-Ca、HCO3-Ca—Na、HCO3-Na—Ca型为主,其次为HCO3-Ca—Mg型水。由于潜水已经受到比较严重的污染,水化学类型变得比较复杂,在中心城区-大民屯-榆树屯一带形成了一种以含大量硝酸盐和氯化物为特征的污染水化学类型。另外,受原生环境影响,含水层中普遍有淤泥质亚粘土夹层,其淤泥质中有机质分解,形成还原环境,使介质中高价铁、锰还原成低价铁、锰,因此,地下水中铁、锰含量普遍较高,但含量年变化不大。

(三)地下水水质监测数据

本次研究水质监测数据主要来源于齐齐哈尔市地质环境监测站设置的地下水动态长观井1998~2002年枯水期的水质分析结果,水质监测点共31个,其中潜水14个、承压水17个(表13—14、表13—15)。监测的项目主要有pH、总硬度、氨氮、硝酸盐、亚硝酸盐、砷、汞、铬、铅、氟、镉、铁、锰、硫酸盐、氟化物、铜、锌、碘化物等。齐齐哈尔市地下水水质评价与污染预警系统,实现了对这些监测数据的增加、修改、删除、查询等基本管理功能,见图13—7。

表13—14 齐齐哈尔市地下水潜水水质监测资料统计表

表13—15 齐齐哈尔市地下水承压水水质监测资料统计表

(四)研究区空间信息

空间信息包括研究区地理底图、岩性分布图、地下水水质预警参数分区图、水源地及污染源分布图和土地利用现状图(见图13—8~图13—10)。

图13—7 齐齐哈尔地区地下水水质监测数据管理

图13—8 研究区空间信息界面

图13—9 研究区地形示意图

原比例尺1:50000

图13—10 研究区包气带岩性分布示意图

原比例尺1∶50000

二、齐齐哈尔市地下水水质评价

用国家标准、模糊综合评判、BP神经网络三种方法分别对每年的潜水和承压水进行评价。评价结果既有数据表格,也有等值线和等值面图。如图13—11是2002年潜水用BP神经网络评价方法得到的评价结果表格,图13—12是1998年潜水用国家标准综合评价得到的等值线图。

图13—11 2002年潜水BP神经网络评价结果

图13—12 1998年潜水国家标准综合评价等值线示意图

评价结果表明,齐齐哈尔市地下水水质具有以下特点:

(1)区内超标组分有:氨氮、硝酸盐、亚硝酸盐、砷、总硬度、氯化物、硫酸盐、铁、锰。

(2)“三氮”污染严重,14个潜水监测点中氨氮超标的有10个,最高含量2.35 mg/L(100号点2000年),超水质标准的8倍;硝酸盐超标的有7个,最高含量444.12 mg/L(228号点2002年),超水质标准的4倍;亚硝酸盐超标的有12个,最高含量1.680 mg/L(2号点2002年),超水质标准的24.6倍。

(3)局部地方总硬度超标(15、27、228号点),最高含量1043.67 mg/L(228号点2002年);局部地方砷超标(2、27、183号点),最高含量0.079 mg/L(27号点2001年)。

(4)区内地下水中铁、锰含量普遍较高,这主要是受原生环境控制,区内含水层中多有淤泥质亚粘土夹层,其淤泥质中有机质分解,形成还原环境,使介质中高价铁、锰还原成低价铁、锰物质,因此,地下水中铁、锰含量普遍较高,但历年变化不大。

三、齐齐哈尔市地下水水质预测

利用系统提供的灰色模型GM(1,1)和时间序列分析两种预测模型,可以对全部井的水质同时进行预测,也可以根据年份、点号、水期、水层等条件对特定井的水质进行预测。其中灰色模型GM(1,1)适合于对水质进行中短期预测,见图13—13。时间序列分析适合于对水质进行中长期预测,利用时间序列分析进行预测之前,除了要选择预测的点号,水期及含水层之外,还要为预测设置相应的权值。权值的设定范围理论上为0~1,但在应用中权值的设定应根据客观具体情况。如果相临年份之间的数据差异比较大时,设置较大的权值;反之,设置较小的权值。一般权值大小不宜超过0.3,见图13—14。

四、齐齐哈尔地区地下水污染风险评价

(一)含水层固有脆弱性评价

将含水层固有脆弱性评价的7个评价因子数据进行处理,绘成7张图件。

图13—13 灰色预测结果

图13—14 时间序列分析预测结果

(1)含水层埋深D

含水层埋深信息主要来自钻孔数据,利用克里金插值后得到含水层埋深空间分布图,然后按照评价标准表13—2重新分类。齐齐哈尔地区潜水含水层埋深一般在2~5 m,含水层埋深分级见图13—15。

(2)净补给量R

净补给量=降水入渗系数×多年平均有效降雨量(mm),齐齐哈尔地区的多年平均有效降雨量为419.9 mm,入渗系数按大小分为五个区,自西向东依次为0.30、0.05、0.23、0.18、0.07。将计算结果按照评价标准重新分类后得到净补给量分级图,见图13—16。

图13—15 含水层埋深分级示意图

图13—16 净补给量分级示意图

(3)含水层介质类型A

齐齐哈尔地区含水层岩性主要为砂砾石、细砂夹砾石、细砂、含砾中粗砂、含砾中细砂、含砾粗砂、中砂、粉细砂及含砾中砂土,其对应的特征值见表13—16。含水层介质类型分级见图13—17。

表13—16 含水层介质类型特征值

(4)土壤介质类型S

齐齐哈尔地区土壤介质类型主要有砂、亚砂土、亚粘土、黄土状亚粘土、杂填土。其对应的特征值见表13—17。含水层介质类型分级见图13—18。

表13—17 土壤介质类型分级标准

图13—17 含水层介质类型分级示意图

图13—18 土壤介质类型分级示意图

(5)地形坡度T

地形坡度是由高程点高程通过空间分析中的表面分析而计算出的坡度图,齐齐哈尔地区坡度分级见图13—19。

(6)包气带介质类型J

齐齐哈尔地区包气带介质类型主要有砂、亚砂土、黄土状亚粘土、亚粘土。其对应的特征值见表13—18。包气带介质类型分级见图13—20。

表13—18 包气带介质类型特征值

图13—19 地形坡度分级示意图

图13—20 包气带介质类型分级示意图

(7)含水层渗透系数C

含水层渗透系数划分为四个区,其分级标准参考表13—2,级别与脆弱性结论的对应关系见表13—19,分级见图13—21。

表13—19 级别与脆弱性结论的对应关系

将得到的各评价指标的分类图按下列公式加权叠加,得出齐齐哈尔地区含水层固有脆弱性分区图,见图13—22。

图13—21 含水层渗透系数分级示意图

图13—22 齐齐哈尔地区含水层固有脆弱性分区示意图

(二)污染源荷载风险评价

齐齐哈尔市污染源荷载风险评价是以2000年的资料进行的,该市2000年污染物排放总量为33 044.39 t,其中化学需氧量21 149.77 t,悬浮物11 576.81 t,石油类223.31 t,挥发酚59.46 t,氰化物103.39 t,六价铬2.04 t,砷7.30 t,硫化物15.05 t。主要排污区是龙沙区。

市区化肥农药使用情况(1999年),化肥施用量13 750 t,其中氮肥7563 t、钾肥2275 t、磷肥953 t、复合肥2959 t、农药使用量295 t。

工业固体废物与城市垃圾:固体废物主要集中在铁锋区和龙沙区。“九五”工业固体废物共15种,1335.58×104t,其中以粉煤灰、炉渣、冶炼废渣、危险废物、尾矿为主,计950.41×104t,占总量的71.31%。2000年各种固体废物如下:危险废物3.3206×104t,冶炼废渣9.30×104t,粉煤灰125.04×104t,炉渣54.01×104t,煤矸石0.01×104t,其他68.63×104t,合计260.31×104t。

2000年固体废物利用情况:危险废物2.68×104t,冶炼废渣7.58×104t,粉煤灰74.83×104t,炉渣53.85×104t,其他64.46×104t,合计203.41×104t。

“九五”末期,危险废物的数量由初期的8.878×104t下降到3.3206×104t,综合利用量2.68× 104t,利用率为80.71%,处置量0.6403×104t,处置率为99.99%,排放量0.000226×104t,仅占总量的0.0068%。危险废物的产生主要分布在富拉尔基、龙沙和碾子山区的机械电气、电子设备制造业和其他行业。区域分布高度集中,富拉尔基区占危险废物总量的99.86%。

2000年生活垃圾产生量71×104t,其中填埋处理21.7×104t,一般处理14.2×104t,简易处理35.1×104t。齐齐哈尔市废水排放量见表13—20。

表13—20 齐齐哈尔市废水排放量 (单位:104t)

齐齐哈尔北三区(铁锋区、龙沙区、建华区)共有红星、黎明、向阳生活垃圾处理厂三座,南山垃圾堆放场一座。其中黎明垃圾处理厂和南山垃圾堆放场占地面积大于30 000 m2,红星垃圾处理厂占地面积40 000 m2(3个池子)。向阳垃圾处理厂占地面积20 000 m2。红星、黎明、向阳三座垃圾无害化处理厂的卫生填埋区共计6个,总建筑面积121900 m2,容积1 463 000 m3。从2000年5月12日起红星、黎明、向阳三座无害化处理厂陆续建成投入使用,日处理生活垃圾800 t,到目前为止共处理中心城区生活垃圾近100×104t、吸排垃圾渗滤液12.5×104t、建筑垃圾150 000 m3。2003年10月1日医疗废物集中处置项目正式开工建设,建成投入使用后,中心城区医疗废物将实行无害化集中处置。

齐齐哈尔市城市氧化塘始建于10年,位于市中心区域西南17.5 km的旧江套处,氧化塘西侧靠嫩江左岸,尾部和嫩江接通。全部工程由明渠、氧化-储存塘、闸门、抽水泵站等构筑物组成,明渠全长6 km,渠与塘首结合部设泵站一座,塘首至塘尾泄水闸门全长9.3 km。

氧化塘北起新立屯黄沙滩,南至昂昂溪区大五福玛,占旧河道面积8 km2,平均水面约5.6 km2,丰水期近7 km2。它承担着城区60×104人口的城市混合污水的自理净化。齐齐哈尔氧化塘建塘初期日接纳污水10×104m3,经1986年改建,日接纳污水达25×104m3。1998年受嫩江大洪水破坏,1999年修复清淤后,日接纳污水能力达46×104m3。因此齐齐哈尔地区主要的污染源为红星、黎明、向阳生活垃圾处理厂、工人屯工业固体废弃物堆放场以及氧化塘和排污渠。系统运行后,得到的齐齐哈尔地区污染源荷载风险见图13—23。

(三)污染危害性评价

根据齐齐哈尔土地利用现状图,将居民所在地的地下水视为饮用,菜地、水田、农田等区域的地下水视为非饮用,其余地区为不使用。系统得到的齐齐哈尔地区污染危害性见图13—24。

(四)污染风险评价

将含水层固有脆弱性、污染源荷载风险、污染危害性评价结束后,将三者综合考虑叠加,得到齐齐哈尔地区污染风险图,具体评价方法见表13—10,通过计算机运算,评价结果见图13—25。其中“0”表示低风险,“1”表示中等风险,“2”表示高污染风险。

图13—23 齐齐哈尔地区污染源荷载风险示意图

图13—24 齐齐哈尔地区污染危害性示意图

五、齐齐哈尔地下水污染预警

地下水污染预警综合考虑了地下水水质现状、地下水水质变化趋势、地下水污染风险三方面的因素,共有45种可能出现的状态,通过计算机的分析计算可以确定不同的状态。预警的结果用警度来表达,“0”表示“无警”;“1”~“4”依次为“轻度预警”、“中度预警”、“重度预警”和“巨度预警”,结果表示地下水的污染的威胁程度越来越严重。

(一)单项预警

通过地下水水质评价发现,齐齐哈尔地区地下水中的氨氮、硝酸盐、亚硝酸盐、砷、总硬度、铁、锰超标现象比较严重,其中铁、锰主要受原生环境控制,历年变化不大。因此对于水质单因子预警可对氨氮、硝酸盐、砷进行预警。

以砷为例,首先从数据库中提取评价因子的浓度值,其次根据国家标准(GB/T14848—93)进行观测井中该因子的水质现状评价,通过空间插值得到该因子在研究区的空间分布图作为水质现状结果,见图13—26。然后利用Daniel的Spearman秩相关系数法分析观测井中该因子浓度多年变化趋势,空间插值后得到变化趋势分布图,见图13—27;最后由现状分布图、变化趋势图,污染风险图经计算机系统分析计算后获得预警结果图,见图13—28。

图13—25 齐齐哈尔地区污染风险示意图

图13—26 齐齐哈尔地区砷现状分布示意图

图13—27 齐齐哈尔地区砷变化趋势示意图

图13—28 齐齐哈尔地区砷污染预警结果示意图

研究区大部分区域砷浓度不超标,但西南部有三个观测井砷浓度达到五类水标准,而且多年监测结果表明有进一步恶化的趋势,因此该区域属于巨警区,污染十分严重。另外市区附近砷浓度符合三类水标准,历年无明显变化趋势,但污染风险高,因此该区域属于重警区,需重点关注。

氨氮、硝酸盐污染预警结果见图13—29,氨氮污染面积较小,硝酸盐污染十分严重,部分区域总硬度属于重警。

图13—29 齐齐哈尔地区氨氮、硝酸盐污染预警结果示意图

(二)综合预警

图13—30是齐齐哈尔地区地下水水质现状图,由图可以看出,研究区东部浅层地下水水质为三类水,研究区西部浅层地下水水质为四类水,已无法饮用。通过分析各监测井的水质污染综合指数变化趋势,顾甸车站附近的27号监测井的水质有所好转,位于查哈诺村的41号监测井的水质呈恶化趋势,其余监测井的水质无明显变化,见图13—31。图13—32为齐齐哈尔地区地下水污染预警图,由于该地区浅层地下水普遍已经遭受了污染,地下水中三氮的浓度达到了四类或五类水的标准,所以计算结果受地下水的现状影响较大,在市区及附近以重度、巨度预警为主。在市区东部预警以轻度、中度为主。

图13—30 齐齐哈尔地区地下水水质现状示意图

图13—31 齐齐哈尔地区地下水水质变化趋势分布示意图

图13—32 齐齐哈尔地区地下水污染预警结果示意图

实际上,地下水污染预警系统应该用于地下水未污染的地区,以起到预防污染的作用。而在齐齐哈尔地下水普遍遭受不同程度污染的地区,使用污染预警系统的作用和意义受到限制,发挥不出预警作用。

(三)齐齐哈尔地下水污染原因及防治措施

1.地下水污染原因

齐齐哈尔地区第四系潜水受到较严重的污染,主要污染原因有以下几点:

(1)地下水污染预警的巨警、重警区大部分靠近氧化塘、嫩江和劳动湖,地下水动态监测资料证实嫩江和劳动湖常年补给地下水,被污染塘、江、湖水直接渗透污染了第四系潜水。

(2)区内含水层埋深一般小于4.5 m,包气带岩性多为亚粘土、亚砂土和粉细砂,区内工业渗坑、井、生活污水井遍布,每年有11 720 t工业废水和生活污水通过渗坑、渗井渗入地下,造成了地下水污染。

(3)近郊区菜田和农业区长期大量施用农药、化肥,据统计每年使用化肥达17 531 t、农药178 t,这些化肥、农药灌溉水或雨水下渗污染地下水。

(4)工业废渣、生活垃圾等固体废物的堆放和土地填埋是地下水的重要的点污染源,据统计区内每年排放工业废渣186×104t,生活垃圾63 t。这些废渣和垃圾未经无害化处理,大多无防渗措施,在大气降水的淋滤作用下,可产生大量的含多种污染物质的渗滤液,这些渗滤液向下通过包气带可直接渗入含水层中,是造成第四系潜水污染的重要途径。

2.地下水污染防治措施

(1)严禁工业废水超标排放,提高氧化塘和排污染渠道的防渗标准,防止污水渗入地下。

(2)加速城市排水设施建设,完善排水系统,逐步取消城市生活污水渗井和简易厕所,严禁用渗坑(井)的形式排放工业废水。

(3)加快城市垃圾处理厂建设,提倡科学种田,合理施肥(可增加施肥次数,减少每次的施肥量),适量灌溉。

(4)搞好城市绿化,不仅可美化环境、调节气候,还能吸收土壤中的氨氮,减少对地下水的污染。

中心数据库设计

数据挖掘核心算法之一--回归

回归,是一个广义的概念,包含的基本概念是用一群变量预测另一个变量的方法,白话就是根据几件事情的相关程度,用其中几件来预测另一件事情发生的概率,最简单的即线性二变量问题(即简单线性),例如下午我老婆要买个包,我没买,那结果就是我肯定没有晚饭吃;复杂一点就是多变量(即多元线性,这里有一点要注意的,因为我最早以前犯过这个错误,就是认为预测变量越多越好,做模型的时候总希望选取几十个指标来预测,但是要知道,一方面,每增加一个变量,就相当于在这个变量上增加了误差,变相的扩大了整体误差,尤其当自变量选择不当的时候,影响更大,另一个方面,当选择的俩个自变量本身就是高度相关而不独立的时候,俩个指标相当于对结果造成了双倍的影响),还是上面那个例子,如果我丈母娘来了,那我老婆就有很大概率做饭;如果在加一个,如果我老丈人也来了,那我老婆肯定会做饭;为什么会有这些判断,因为这些都是以前多次发生的,所以我可以根据这几件事情来预测我老婆会不会做晚饭。

大数据时代的问题当然不能让你用肉眼看出来,不然要海量计算有啥用,所以除了上面那俩种回归,我们经常用的还有多项式回归,即模型的关系是n阶多项式;逻辑回归(类似方法包括决策树),即结果是分类变量的预测;泊松回归,即结果变量代表了频数;非线性回归、时间序列回归、自回归等等,太多了,这里主要讲几种常用的,好解释的(所有的模型我们都要注意一个问题,就是要好解释,不管是参数选择还是变量选择还是结果,因为模型建好了最终用的是业务人员,看结果的是老板,你要给他们解释,如果你说结果就是这样,我也不知道问什么,那升职加薪基本无望了),例如你发现日照时间和某地葡萄销量有正比关系,那你可能还要解释为什么有正比关系,进一步统计发现日照时间和葡萄的含糖量是相关的,即日照时间长葡萄好吃,另外日照时间和产量有关,日照时间长,产量大,价格自然低,结果是又便宜又好吃的葡萄销量肯定大。再举一个例子,某石油产地的咖啡销量增大,国际油价的就会下跌,这俩者有关系,你除了要告诉领导这俩者有关系,你还要去寻找为什么有关系,咖啡是提升工人精力的主要饮料,咖啡销量变大,跟踪发现工人的工作强度变大,石油运输出口增多,油价下跌和咖啡销量的关系就出来了(单纯的例子,不要多想,参考了一个根据遥感信息获取船舶信息来预测粮食价格的真实案例,感觉不够典型,就换一个,实际油价是人为操控地)。

回归利器--最小二乘法,牛逼数学家高斯用的(另一个法国数学家说自己先创立的,不过没办法,谁让高斯出名呢),这个方法主要就是根据样本数据,找到样本和预测的关系,使得预测和真实值之间的误差和最小;和我上面举的老婆做晚饭的例子类似,不过我那个例子在不确定的方面只说了大概率,但是到底多大概率,就是用最小二乘法把这个关系式写出来的,这里不讲最小二乘法和公式了,使用工具就可以了,基本所有的数据分析工具都提供了这个方法的函数,主要给大家讲一下之前的一个误区,最小二乘法在任何情况下都可以算出来一个等式,因为这个方法只是使误差和最小,所以哪怕是天大的误差,他只要是误差和里面最小的,就是该方法的结果,写到这里大家应该知道我要说什么了,就算自变量和因变量完全没有关系,该方法都会算出来一个结果,所以主要给大家讲一下最小二乘法对数据集的要求:

1、正态性:对于固定的自变量,因变量呈正态性,意思是对于同一个答案,大部分原因是集中的;做回归模型,用的就是大量的Y~X映射样本来回归,如果引起Y的样本很凌乱,那就无法回归

2、独立性:每个样本的Y都是相互独立的,这个很好理解,答案和答案之间不能有联系,就像掷硬币一样,如果第一次是反面,让你预测抛两次有反面的概率,那结果就没必要预测了

3、线性:就是X和Y是相关的,其实世间万物都是相关的,蝴蝶和龙卷风(还是海啸来着)都是有关的嘛,只是直接相关还是间接相关的关系,这里的相关是指自变量和因变量直接相关

4、同方差性:因变量的方差不随自变量的水平不同而变化。方差我在描述性统计量分析里面写过,表示的数据集的变异性,所以这里的要求就是结果的变异性是不变的,举例,脑袋轴了,想不出例子,画个图来说明。(我们希望每一个自变量对应的结果都是在一个尽量小的范围)

我们用回归方法建模,要尽量消除上述几点的影响,下面具体讲一下简单回归的流程(其他的其实都类似,能把这个讲清楚了,其他的也差不多):

first,找指标,找你要预测变量的相关指标(第一步应该是找你要预测什么变量,这个话题有点大,涉及你的业务目标,老板的目的,达到该目的最关键的业务指标等等,我们后续的话题在聊,这里先把方法讲清楚),找相关指标,标准做法是业务专家出一些指标,我们在测试这些指标哪些相关性高,但是我经历的大部分公司业务人员在建模初期是不靠谱的(真的不靠谱,没思路,没想法,没意见),所以我的做法是将该业务目的所有相关的指标都拿到(有时候上百个),然后跑一个相关性分析,在来个主成分分析,就过滤的差不多了,然后给业务专家看,这时候他们就有思路了(先要有东西激活他们),会给一些你想不到的指标。预测变量是最重要的,直接关系到你的结果和产出,所以这是一个多轮优化的过程。

第二,找数据,这个就不多说了,要么按照时间轴找(我认为比较好的方式,大部分是有规律的),要么按照横切面的方式,这个就意味横切面的不同点可能波动较大,要小心一点;同时对数据的基本处理要有,包括对极值的处理以及空值的处理。

第三, 建立回归模型,这步是最简单的,所有的挖掘工具都提供了各种回归方法,你的任务就是把前面准备的东西告诉计算机就可以了。

第四,检验和修改,我们用工具计算好的模型,都有各种设检验的系数,你可以马上看到你这个模型的好坏,同时去修改和优化,这里主要就是涉及到一个查准率,表示预测的部分里面,真正正确的所占比例;另一个是查全率,表示了全部真正正确的例子,被预测到的概率;查准率和查全率一般情况下成反比,所以我们要找一个平衡点。

第五,解释,使用,这个就是见证奇迹的时刻了,见证前一般有很久时间,这个时间就是你给老板或者客户解释的时间了,解释为啥有这些变量,解释为啥我们选择这个平衡点(是因为业务力量不足还是其他的),为啥做了这么久出的东西这么差(这个就尴尬了)等等。

回归就先和大家聊这么多,下一轮给大家聊聊主成分分析和相关性分析的研究,然后在聊聊数据挖掘另一个利器--聚类。

分形理论简述

5.2.2.1 数据库

根据该系统的开发需求,按照数据库的功能和作用将其分为风险查询类、风险评价类、系统管理类三大类(萨师煊等,2000)。主要数据见表5.5。

表5.5 海外油气与金属矿产开发风险管理系统的主要数据表

续表

5.2.2.2 数据仓库

油价数据来源于美国能源部(DOE)下属的能源信息署(EIA)网站、中石油(CNPC)网站和《华尔街日报》(WSJ)网站提供的油价数据,油价序列本身就是一个不规则的时间序列,油价数据具有以下几个特点。

(1)数据的一致性差

油价数据格式多样,存在数据冗余,主要体现在:使用的数据格式均不相同,并且各个子系统相对独立。在网站单独作用的情况下,一般都没有问题,但要将这些不同系统或不同时期的数据集中起来综合利用,就可能出现数据不齐全、不一致或重复的现象。

(2)数据存放的分散

油价数据来源多,缺乏统一管理,没有一种相应的网页数据自动化抓取操作实现数据的本地化操作过程。

(3)数据开发不充分

大容量数据导致对数据的开发利用不充分,缺乏对获取的数据如各分析机构制定的期货合约元数据进行各种深层次分析、综合、提炼、挖掘和展现的应用,因此很难对丰富的统计数据进行二次开发利用。

根据油价数据中所包含的油气产品种类、油气产品合约制定日期、油气产品的价格类型、不同市场下油气产品价格的差异等,能够加深对油价走势的了解。油价的这种与时间相关性、不可修改性,以及集成的性质,使得我们用多种角度对原始数据进行理解,并真实反映其特性,也让我们发现使用一种整合的技术对油价进行精确预测十分必要。

数据仓库的构建流程如图5.13所示由下至上逐步实现。

图5.13 数据仓库构建流程

1)数据源。

A.数据源的复杂性。数据分散在数据库管理系统、电子表格、电子邮件系统、电子文档甚至纸上。系统中要求集的3个数据源中,EIA 网站存储在网页上的油价相关更新较慢,虽然提供了各市场日、周、月、年的油价数据下载,但是下载完成之后的表格字段格式时常发生变化,这为实现自动获取数据并下载到本地自动入库的要求增加了难度;中石油网站数据除上述只显示3条数据之外,网站上会将访问流量过大的IP地址列入黑名单使其不能继续下载到本地进行保存,为这些数据建立统一的模型将会耗费很大精力。

B.数据的有效性。由于存在经验局限,如何处理数据的空值、不同时间间隔时间字段格式,入库时应注意的问题等,如果应用程序没有检验数据的有效性,会对数据多维显示产生极大影响,因此也归结为数据源数据质量问题。

C.数据的完整性。数据源上的数据并不那么明显或者容易获得。油价是高度敏感的数据,因此各个网站虽然提供了各个油品交易市场的日、月或年数据,但是完整性并不能充分保证,根据企业政策的不同,有时对要获得的数据,需花费大量精力。为此,要对不同的数据源进行建库,以保证所获数据的完整性。

2)数据处理。

高效的多维数据集展示离不开底层数据源数据的精确获取,或者叫做数据理解和数据清洗。于是系统在基于元数据获取、加工、入库和多维数据集展示上实现预期的要求。

A.ETL。该功能是整个油价数据仓库的核心之一,主要功能是按照事先定义的数据表对应关系从相关系统表中抽取数据(Extraction),经过数据清洗和转换(Transform),最终把正确的数据装载到数据仓库的源数据中(Load),作为以后应用的基础。

B.数据转换。该功能是在数据抽取过程中按照定义的规则转换数据,避免了数据在分析时的多样性,保证数据一致性。

C.数据集成。该功能主要是把油价信息数据仓库系统的源数据,按照事先定义的计算逻辑以主题的方式重新整合数据,并以新的数据结构形式存储。

3)数据存储。

星型模型(星型架构)是数据仓库开发中多维展现重要的逻辑结构,构成星型模型的几个重要特征是:维、度和属性,在实际应用中表示为事实表和维度表。在油价数据中,各市场的期现货价格表为数据仓库的事实表,油品类型、合约规定日期等为维度表。

油价数据仓库星型模型的设计方案如下:

A.事实表。数据库表中EIA的期现货价格表(包括日、周、月、年表)作为数据仓库中的事实表,根据不同时间维度构成多个星型模型,即星座模型。这些价格表中以市场编号、油气产品类型、期货合约日期、价格单位度量衡编号作为主键和外键与其他维度表相连,形成多维展示联动的基础,以油价数据和其他事实数据为记录数据,作为主要输出结果。

B.维度表。根据市场、油品、价格数据、度量衡和类型作为油气数据仓库中多维分析的角度和目标。

图5.14以EIA的日期货数据表作事实表为例,构建星型模型,其他不同时间维度的模型结构图与此图基本相同。

图5.14 以EIA数据为例的日期货价格星型模型

以星型模型设计为基础,完善数据存储中操作型数据存储(ODS)的原型设计,提供DB-DW之间中间层的数据环境,可实现操作型数据整合和各个系统之间的数据交换。

国际石油市场风险度量及其溢出效应检验方法

分形几何(Fractal Geometry)的概念是由曼德布罗特(B.B.Mandelbrot.15)在15年首先提出的.几十年来,它已经发展成为一门新型的数学分支.这是一个研究和处理自然与工程中不规则图形的强有力的理论工具,它的应用几乎涉及自然科学的各个领域,甚至于社会科学,并且实际上正起着把现代科学各个领域连接起来的作用,分形是从新的角度解释了事物发展的本质.

分形(fractal)一词最早由B.B.Mandelbrot于15年从拉丁文fractus创造出来,《自然界中的分形几何》(Mandelbrot,1982)为其经典之作.最先它所描述的是具有严格自相似结构的几何形体,物体的形状与标度无关,子体的数目N(r)与线性尺度(标度r)之间存在幂函数关系,即N(r)∝1/rD.分形的核心是标度不变性(或自相似性),即在任何标度下物体的性质(如形状,结构等)不变.数学上的分形实际是一种具有无穷嵌套结构的极限图形,分形的突出特点就是不存在特征尺度,描述分形的特征量是分形维数D.不过,现实的分形只是在一定的标度范围内呈现出自相似或自仿射的特性,这一标度范围也就称为(现实)分形的无标度区,在无标度区内,幂函数关系始终成立.

分形理论认为,分形内部任何一个相对独立的部分,在一定程度上都是整体的再现和相对缩影(分形元),人们可以通过认识部分来认识整体.但是分形元只是构成整体的单位,与整体相似,并不简单地等同于整体,整体的复杂性远远大于分形元.更为重要的是,分形理论指出了分形元构成整体所遵循的原理和规律,是对系统论的一个重要的贡献.

从分析事物的角度来看,分形论和系统论体现了从两个极端出发达到对事物全面认识的思路.系统论从整体出发来确立各部分的系统性质,从宏观到微观考察整体与部分的相关性;而分形论则是从部分出发确立整体性质,沿着从微观到宏观的方向展开.系统论强调部分对整体的依赖性,而分形论则强调整体对部分的依赖性,两者的互补,揭示了系统多层次面、多视角、多方位的****,丰富和深化了局部与整体之间的辩证关系.

分形论的提出,对科学认识论与方法论具有广泛而深远的意义.第一,它揭示了整体与部分之间的内在联系,找到了从部分过渡到整体的媒介与桥梁,说明了部分与整体之间的信息“同构”.第二,分形与混沌和现代非线性科学的普遍联系与交叉渗透,打破了学科间的条块分割局面,使各个领域的科学家团结在一起.第三,为描述非线性复杂系统提供了简洁有力的几何语言,使人们的系统思维方法由线性进展到非线性,并得以从局部中认识整体,从有限中认识无限,从非规则中认识规则,从混沌中认识有序.

分形理论与耗散结构理论、混沌理论是相互补充和紧密联系的,都是在非线性科学的研究中所取得的重要成果.耗散结构理论着眼于从热力学角度研究在开放系统和远离平衡条件下形成的自组织,为热力学第二定律的“退化论”和达尔文的“进化论”开辟了一条联系通道,把自然科学和社会科学置于统一的世界观和认识论中.混沌理论侧重于从动力学观点研究不可积系统轨道的不稳定性,有助于消除对于自然界的确定论和随机论两套对立描述体系之间的鸿沟,深化对于偶然性和必然性这些范畴的认识.分形理论则从几何角度,研究不可积系统几何图形的自相似性质,可能成为定量描述耗散结构和混沌吸引子这些复杂而无规则现象的有力工具,进一步推动非线性科学的发展.

分形理论是一门新兴的横断学科,它给自然科学、社会科学、工程技术、文学艺术等极广泛的学科领域提供了一般的科学方法和思考方式.就目前所知,它有很高程度的应用普遍性.这是因为,具有标度不变性的分形结构是现实世界普遍存在的一大类结构,该结构的含义十分丰富,它不仅指研究对象的空间几何形态,而是一般地指其拓扑维(几何维数)小于其测量维数的点集,如点的分布,能量点的分布,时间点的分布,过程点的分布,甚至是意识点、思维点的分布.

分形思想的基本点可以简单表述如下:分形研究的对象是具有自相似性的无序系统,其维数的变化是连续的.从分形研究的进展看,近年来,又提出若干新的概念,其中包括自仿射分形、自反演分形、递归分形、多重分形、胖分形等等.有些分形常不具有严格的自相似性,正如定义所表达的,局部以某种方式与整体相似.

分形理论的自相似性概念,最初是指形态或结构的相似性,即在形态或结构上具有相似性的几何对象称为分形,研究这种分形特性的几何称为分形几何学.随着研究工作的深入发展和领域的拓展,又由于一些新学科,如系统论、信息论、控制论、耗散结构理论和协同论等相继涌现的影响,自相似性概念得到充实与扩展,把信息、功能和时间上的自相似性也包含在自相似性概念之中.于是,把形态(结构)、或信息、或功能、或时间上具有自相似性的客体称为广义分形.广义分形及其生成元可以是几何实体,也可以是由信息或功能支撑的数理模型,分形体系可以在形态(结构)、信息和功能各个方面同时具有自相似性,也允许只在某一方面具有自相似性;分形体系中的自相似性可以是完全相似,这种情况是不多见的,也可以是统计意义上的相似,这种情况占大多数,相似性具有层次或级别上的差别.级别最低的为生成元,级别最高的为分形体系的整体.级别愈接近,相似程度越好,级别相差愈大,相似程度越差,当超过一定范围时,则相似性就不存在了.

分形具有以下几个基本性质:

(1)自相似性是指事物的局部(或部分)与整体在形态、结构、信息、功能和时间等方面具有统计意义上的相似性.

(2)适当放大或缩小分形对象的几何尺寸,整个结构并不改变,这种性质称为标度不变性.

(3)自然现象仅在一定的尺度范围内,一定的层次中才表现出统计自相似性,在这样的尺度之外,不再具有分形特征.换言之,在不同尺度范围或不同层次上具有不同的分形特征.

(4)在欧氏几何学中,维数只能是整数,但是在分形几何学中维数可以是整数或分数.

(5)自然界中分形是具有幂函数分布的随机现象,因而必须用统计的方法进行分析和处理.

目前分形的分类有以下几种:①确定性分形与随机分形;②比例分形与非比例分形;③均匀分形与非均匀分形;④理论分形与自然分形;⑤空间分形与分形(时间分形).

分形研究应注意以下几个问题:

(1)统计性(随机性).研究统计意义上的分形特征,由统计数据分析中找出稳态规律,才能最客观地描述自然纹理与粗糙度.从形成过程来看,分形是一个无穷随机过程的体现.如大不列颠海岸线的复杂度是由长期海浪冲击、侵蚀及风化形成的,其他许多动力过程、凝聚过程也都是无穷随机的,不可能由某个特征量来形成.因此,探讨分形与随机序列、信息熵之间的内在联系是非常必要的.

(2)全局性.分形是整体与局部比较而存在的,它包括多层嵌套及无穷的精细结构.研究一个平面(二维)或立体(三维)的粗糙度,要考虑全局范围各个方向的平稳性,即区别各向同性或各向异性分布规律.

(3)多标度性.一个物体的分形特性通常是在某些尺度现出来,在另一些尺度下则不是分形特性.理想的无标度区几乎不存在,只有从多标度中研究分形特性才较实际.

模型的建立,其实是分形(相似性)模型的建立.利用相似性原理,建立模型单元,对预测单元进行分形处理和预测.

分形的正问题是给出规律,通过迭代和递推过程产生分形,产生的几何对象显然具有某种相似性.反问题叫做分形重构.广义而言,它指任何一个几何上认为是分形的图形,能否找到产生它的规律,以某种方式来生成它.当我们研究非线性动力学时,混沌动力学会产生分形,而分形重构则是动力学系统研究的逆问题.由于存在“一因多果”、“多因一果”,由分维重构分形还需加入另外参数.

临界现象与分形有关.重整化群是研究临界现象的一种方法.该方法首先对小尺寸模型进行计算,然后被重整化至大的或更大的尺度.如果我们有网格状的一组元素,每个元素具有一定的渗透概率,重整化群方法的一个应用就是计算渗透的开始问题.当元素渗透率达到某一临界值时,这一组元素的渗透流动就会突然地发生.一旦流动开始后,相联结元素之间便具有分形结构.

自组织临界现象的概念可以用来分析地震活动性.按照这个概念,一个自然界的系统处在稳定态的边缘,一旦偏离这个状态,系统会自然地演化回到边缘稳定的状态.临界状态不存在天然的长度标度,因而是分形的.简单的细胞自动机模型可以说明这种自组织临界现象.

分形理论作为非线性科学的一个分支,是研究自然界空间结构复杂性的一门学科,可从复杂的看似无序的图案中,提取出确定性、规律性的参量.既可以反演分形结构的形成机制,又可以从看似随机的演化过程(时间序列)中推测体系演化的结果,近年来倍受地球科学家的注意.在地质统计学,孔隙介质、储层非均匀性及石油勘探开发,固相表面或两相界面,岩石破裂、断层及地震和地形、地貌学等地球科学各个领域得到了广泛的应用.

自20世纪80年代初以来,一些专家学者注意到了地质学中的自相似现象,并试图将分形理论运用于地学之中.以地质学中普遍存在的自相似性现象、地质体高度不规则性和分割性与层次性、地质学中重演现象的普遍性、分形几何学在其他学科中应用实例与地质学中的研究对象的相似性、地质学中存在一些幂函数关系等为内在基础,以地质学定量化的需要、非线性地质学的发展及线性地质学难以解决诸多难点、分形理论及现代测试和电算技术的发展为外在基础,使分形理论与地质学相结合成为可能,它的进一步发展将充实数学地质的研究内容并推动数学地质迈上一个新台阶.目前,分形理论应用于地球科学主要包括以下两个方面的研究:

(1)对“地质存在”——地质体或某些地质现象的分形结构分析,求取相应分形维数,寻找分维值与有关物理参量之间的联系,探讨分形结构形成的机理.这方面的研究相对较多,如人们已对断裂、断层和褶皱等地质构造(现象)进行了分形分析,探讨分维值与岩石力学性质等之间的关系;从大到海底(或大陆)地貌,小到纳米级的微晶表面证实了各类粗糙表面具有分形特征;计算了河流网络,断裂网络,地质多孔介质和粘性指进的分维值以及脉厚与品位或品位与储量等之间的分形关系.

(2)对“地质演化”——地质作用过程进行分形分析,求取分形维数并考察其变化趋势,从而预测演化的结果.例如,科学家们通过对强震前小震分布的分形研究表明,强震前普遍出现降维现象,从而为地震预报提供有力理论工具.当今的研究,不仅仅局限于分维数的计算,分形模型的建立;而更着重于解释地质学中引起自相似性特征的原因或成因,自相似体系的生成过程及模拟,以及用分形理论解决地质学中的疑难问题与实践问题,如地震和灾害地质的预报、石油预测、岩体力学类型划分、成矿规律与成矿预测等.地球化学数据在很大程度上反映了地质现象的结构特征.分维是描述分形结构的定量参数,它有可能揭示出地球化学元素空间分布的内在规律.

分维与地质异常有一定的关系.我们可以对不同地段以一定的地质内容为参量对比它们分维大小的差异,以此求得结构地段的位置及范围,从而确定地质异常;也可以对不同时期可恢复的历史地质结构格局分别求分维,还可以确定分维背景值.分形是自然界中普遍存在的一种规律性.

总之,分形理论已经渗透到地学领域的各个角落,应用范围涉及地球物理学、地球化学、石油地质学、构造地质学及灾害地质学等.

概率论与数理统计 这本书需要高数基础么

4.4.1.1 基于GED分布的GARCH-VaR模型

在对油价收益率序列建模时,往往发现收益率的波动具有集聚性。为了刻画时间序列的波动集聚性,Engle(1982)提出了ARCH 模型。而在ARCH 模型的阶数很高时,Bollerslev(1986)提出用广义的ARCH 模型即GARCH 模型来描述波动集聚性。

GARCH模型的形式为

国外油气与矿产利用风险评价与决策支持技术

式中:Yt为油价收益率;Xt为由解释变量构成的列向量;β为系数列向量。

国外油气与矿产利用风险评价与决策支持技术

事实上,GARCH(p,q)模型等价于ARCH(p)模型趋于无穷大时的情况,但待估参数却大为减少,因此使用起来更加方便而有效。

同时,由于油价收益率序列的波动通常存在杠杆效应,即收益率上涨和下跌导致的序列波动程度不对称,为此本节引入TGARCH模型来描述这种现象。TGARCH模型最先由Zakoian(1994)提出,其条件方差为

国外油气与矿产利用风险评价与决策支持技术

式中:dt-1为名义变量:εt-1﹤0,dt-1=1;否则,dt-1=0,其他参数的约束与GARCH模型相同。

由于引入了dt-1,因此油价收益率上涨信息(εt-1﹥0)和下跌信息(εt-1﹤0)对条件方差的作用效果出现了差异。上涨时, 其影响程度可用系数 表示;而下跌时的影响程度为 。简言之,若Ψ≠0,则表示信息作用是非对称的。

在关注石油市场的波动集聚性及杠杆效应的基础之上,进一步计算和监控石油市场的极端风险同样是非常重要的。而监控极端市场风险及其溢出效应的关键在于如何度量风险,为此,本节将引入简便而有效的VaR 方法。VaR(Value-at-Risk)经常称为风险值或在险值,表示在一定的持有期内,一定的置信度下可能的最大损失。VaR 要回答这样的问题:在给定时期内,有x%的可能性,最大的损失是多少?

从统计意义上讲,VaR表示序列分布函数的分位数。本节用国际油价收益率的分布函数的左分位数来度量油价下跌的风险,表示由于油价大幅度下跌而导致的石油生产者销售收入的减少;而用分布函数的右分位数来度量油价上涨的风险,表示油价大幅度上涨而导致的石油购者的额外支出。这种思路,一方面推进了一般金融市场仅仅分析价格下跌风险的做法;另一方面,也针对石油市场的特殊情况,更加全面地度量了市场风险,从而为从整体上认识石油市场,判断市场收益率的未来走向奠定了基础。

VaR风险值的计算方法很多,能够适用于不同的市场条件、数据水平和精度要求。概括而言,可以归结为3种:方差-协方差方法、历史模拟方法和方法。本节用方差-协方差方法计算国际石油市场的VaR 风险。在用方差-协方差方法的过程中,估计VaR模型的参数是至关重要的。常用的参数估计方法包括GARCH 模型和J.P.摩根的Risk Metrics方法。由于后者设价格序列服从独立异方差的正态分布,而且不能细致描述价格波动的某些特征(如杠杆效应),因此相对而言,前者更受青睐。但是,使用GARCH模型估计VaR时,选择残差项的分布是一个非常重要的问题。考虑到油价收益率序列具有尖峰厚尾和非正态分布的特征,因此直接用正态分布的设往往会低估风险。为此,本节引入Nelson(1990)提出的广义误差分布(GED)来估计GARCH模型的残差项。其概率密度函数为

国外油气与矿产利用风险评价与决策支持技术

式中: Г(·)为gamma函数;k为GED分布参数,也称作自由度,它控制着分布尾部的薄厚程度,k=2表示GED分布退化为标准正态分布;k﹥2表示尾部比正态分布更薄;而k﹤2表示尾部比正态分布更厚。可见GED分布是一种复杂而综合的分布。实际上,也正是由于GED分布在描述油价收益率分布的厚尾方面具有独特的优势,因此本节引入基于GED分布的GARCH模型来估计国际石油市场收益率上涨和下跌时的VaR。

计算出石油市场的VaR风险值之后,为了给有关方面提供准确可靠的决策支持,有必要对计算结果进行检验,以判断所建立的VaR模型是否充分估计了市场的实际风险。为此,本节将用Kupiec提出的检验方法来检验VaR模型的充分性和可靠性。该方法的核心思想是:设计算VaR的置信度为1-α,样本容量为T,而失效天数为Ⅳ,则失效频率f=Ⅳ/T。这样对VaR 模型准确性的评估就转化为检验失效频率f是否显著不同于α。基于这种思想,Kupiec提出了对原设f=а的最合适的似然比率检验:在原设下,统计量LR服从自由度为1的X2分布,95%和99%置信度下的临界值分别为3.84和6.64。根据x2分布的定义,如果估计值LR大于临界值,就拒绝原设,即认为估计的VaR模型是不充分的。

国外油气与矿产利用风险评价与决策支持技术

4.4.1.2 基于核权函数的风险溢出效应检验方法

本节将用Hong(2003)提出的风险-Granger因果关系检验方法检验WTI和Brent原油市场的风险溢出效应。该方法的核心思想是通过VaR 建模来刻画随着时间变化的极端风险,然后运用Granger因果检验的思想来检验一个市场的大风险历史信息是否有助于预测另一个市场的大风险的发生。

首先,定义基于VaR的风险指标函数。以下跌风险为例:

Zm,t=I(Ym,t﹤-VaRm,t)(m=1,2) (4.11)

式中:I(·)为指标函数。当实际损失超过VaR时,风险指标函数取值为1,否则为0。

如果检验市场2是否对市场1产生了单向的风险溢出,则原设为H0:E(Z1,t∣I1,t-1)=E(Z1,t∣It-1),而备择设为HA:E(Z1,t∣I1,t-1)≠E(Z1,t∣It-1),其中It-1={Ym,t-1,Ym,t-2,…),表示t-1时刻可以获得的信息集。通过这种转换,{ Y1,t}和{Y2,t}之间的风险-Granger因果关系就可以看成是{Z1,t}和{Z2,t}之间的均值-Granger因果关系,即计量经济学模型中广泛使用的Granger因果关系。

如果Ho成立,即市场2 对市场1不存在单向的风险-Granger因果关系,则表示Cov(Z1,t,Z2,t-j)=0, j﹥0。如果对某一阶j﹥0,有Cov(Z1,t,Z2,t-j)≠0,则表明存在风险-G ranger因果关系。换言之,当一个市场发生大的风险时,我们能用这个信息去预测另一个市场未来可能发生同样风险的可能性。

现在设VaRm,t=VaRm(Im,t-1,α),m=1,2是市场m在风险水平(即显著性水平)α下得到的VaR序列,本节引入基于GED分布的GARCH 模型,并利用方差-协方差方法得到该序列。设有T个随机样本 并令Zm,t=I(Ym,t﹤-VaRm,t),m=1,2,则定义Z1,t和Z2,t之间的样本互协方差函数(CCF)为

国外油气与矿产利用风险评价与决策支持技术

式中: 。而Z1,t和Z2,t的样本互相关函数为

国外油气与矿产利用风险评价与决策支持技术

式中: 是Zm,t的样本方差;j=0,±1,…,±(T-1)。

然后,Hong(2003)提出了基于核权函数的单向风险-Granger因果关系检验统计量:

国外油气与矿产利用风险评价与决策支持技术

式中:中心因子和尺度因子分别为

国外油气与矿产利用风险评价与决策支持技术

式中k(·)为核权函数,而且H ong(2003)证明了Daniell核权函数k(z)=sin(π)z/π ,z∈(-∞,+∞)是最优的核权函数,能够最大化检验效力。该核权函数的定义域是无界的,此时可把M 看作是有效滞后截尾阶数;而且当M 较大时,Q1(M)能够更加有效地检测出风险溢出效应的时滞现象。

Hong(2003)同时给出了检验双向风险-Granger因果关系的统计量,其原设为两个市场之间任何一个市场均不G ranger-引起另一个市场的极端风险,并且两个市场之间不存在任何即时风险溢出效应。这表示对于任意阶j=0,±1,±2,…,均有Cov(Z1,t,Z2,t-j)=0。为了检验该原设,Hong(2003)提出了如下的统计量:

国外油气与矿产利用风险评价与决策支持技术

式中:中心因子和尺度因子分别为

国外油气与矿产利用风险评价与决策支持技术

原设成立时,Q1(M)和Q2(M)在大样本条件下均服从渐近的标准正态分布。而且,Hong(2003)指出,运用这两个统计量时,应该使用标准正态分布的右侧临界值。

线性回归有什么用处和作用?

概率论与数理统计不需要高数基础,但是有高数基础的话,学起来会轻松一点。

概率论与数理统计是数学的一个有特色且又十分活跃的分支,一方面,它有别开生面的研究课题,有自己独特的概念和方法,内容丰富,结果深刻;另一方面,它与其他学科又有紧密的联系,是近代数学的重要组成部分。

概率论与数理统计的理论与方法已广泛应用于工业、农业、军事和科学技术中,如预测和滤波应用于空间技术和自动控制,时间序列分析应用于石油勘测和经济管理,同时又向基础学科、工科学科渗透,与其他学科相结合发展成为边缘学科,这是概率论与数理统计发展的一个新趋势。

题型总结

目前,大部分同学开始了概率论和数理统计的复习,本文主要想对同学们近期的复习做一个简单的指导。概率论与数理统计初步主要考查考生对研究随机现象规律性的基本概念、基本理论和基本方法的理解,以及运用概率统计方法分析和解决实际问题的能力。

没有具体数据要求,一般来说,数据越多越好。

通过线性回归算法,我们可能会得到很多的线性回归模型,但是不同的模型对于数据的拟合或者是描述能力是不一样的。我们的目的最终是需要找到一个能够最精确地描述数据之间关系的线性回归模型。这是就需要用到代价函数。

代价函数就是用来描述线性回归模型与正式数据之前的差异。如果完全没有差异,则说明此线性回归模型完全描述数据之前的关系。

一条趋势线代表着时间序列数据的长期走势。它告诉我们一组特定数据(如GDP、石油价格和股票价格)是否在一段时期内增长或下降。虽然我们可以用肉眼观察数据点在坐标系的位置大体画出趋势线,更恰当的方法是利用线性回归计算出趋势线的位置和斜率。