前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据分析论文主题范文,仅供参考,欢迎阅读并收藏。

1.1数据采集
数据的采集是指利用传感器、社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化以及非结构化的海量数据,这是一切数据分析的基础。数据的采集需要解决分布式高速高可靠数据的采集、高速数据全映像等数据收集技术。还要设计质量评估模型,开发数据质量技术。而数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。
1.2数据预处理
数据采集的过程本身就有会有很多数据库,但如果想达到有效分析海量数据的目的,就必将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,而且在导入基础上做一些简单的辨析、抽取、清洗等操作。
①抽取:因为我们通过各种途径获取的数据可能存在多种结构和类型,而数据抽取过程可以有效地将这些复杂的数据转换为单一的结构或者便于处理的类型。以达到快速分析处理的目的。
②清洗:对于海量数据而言,数据所处的价值层次不一样,就必然存在由于价值低而导致开发成本偏大的数据,还有与数据分析毫无关系的数据,而另一些数据则是完全错误的干扰项,所以对数据通过过滤“去噪”从而提取出有效数据是十分重要的步骤。
1.3数据的存储与管理
当我们采集数据完成后,就需要将其存储起来统一管理,主要途径就是建立相应的数据库,进行统一管理和调用。在此基础上,需要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。还需开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、数据的去冗余及高效低成本的大数据存储技术;以及分布式非关系型大数据管理与处理技术、异构数据的数据融合技术、数据组织技术、研究大数据建模技术、索引、移动、备份、复制、可视化技术。
1.4数据的统计分析
一般情况下,统计与分析主要就是利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
1.5数据分析与挖掘
所谓数据挖掘是指从数据库中的大量不完全的、有噪声的、模糊的、随机的实际应用数据中,揭示出隐含的、先前未知的并有潜在价值的信息的过程。与前面统计和分析过程不同的是,数据挖掘一般不会有预先设计好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型的算法有用于聚类的K-means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
2数据分析的8个层次
2.1标准化报告(StandardReports)
标准化报告作为数据分析的第一个层次,要求相对较低,主要是借助相应的统计工具对数据进行归纳总结,得出包含主要参数指标的标准化报告。类似于一个销售企业每月或者每季度的财务报表。
2.2即席查询(AdHocReports)
用户可以通过自己的需求,灵活地选择查询条件,系统就能够根据用户的需求选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询所有的查询条件都是用户自己定义的。在面向高层的数据分析软件中,用户随意添加想要查询的指标按钮再加上相应的限制条件,就可以立即生成可视化的统计结果,不仅一目了然,而且没有任何操作难度。
2.3多维分析(QueryDrilldown)
多维分析是指对具有多个维度和指标所组成的数据模型进行的可视化分析手段的统称,常用的分析方式包括:下钻、上卷、切片(切块)、旋转等各种分析操作。以便剖析数据,使分析者、决策者能从多个角度多个侧面观察数据,从而深入了解包含在数据中的信息和内涵。上卷是在数据立方体中执行聚集操作,通过在维级别中上升或通过消除某个或某些维来观察更概括的数据。上卷的另外一种情况是通过消除一个或者多个维来观察更加概括的数据。下钻是在维级别中下降或者通过引入某个或者某些维来更细致地观察数据。切片是在给定的数据立方体一个维上进行的选择操作,切片的结果是得到了一个二维的平面数据(切块是在给定的数据立方体的两个或者多个维上进行选择操作,而切块的结果是得到了一个子立方块)。转轴相对比较简单,就是改变维的方向。
2.4仪表盘与模拟分析(Alerts)
仪表盘用于监控一些关键指标。模拟分析是由操作者动态地加以调节的控件(如滑动块、可调旋钮、选择框等),来控制管理决策模型行为某些参数。当操作者通过控制面板对模型中的参数值或变量值进行调节时,图形中的曲线、柱形组或分析指标等要素就会发生相应的运动,而这种运动正好反映了该参数的变化对模型行为的影响,如果这种变动引起了模型中最优解或其他关键数字的变化,能够随时将关于这种变化的结论正确地显示出来。
2.5统计分析(StatisticallyAnalysis)
我们知道概率论是数理统计的基础,数理统计是在其基础上研究随机变量,并应用概率论的知识做出合理的估计、推断与预测。概率论中讨论的各种分布在数理统计中作为统计模型来分析处理带有随机误差的数据。典型的数理统计方法有参数估计、假设检验和回归分析。而统计分析主要是对用户所关注的问题进行推断、预测和控制的分析方法。具体可以分为以下三方面:
①描述统计:主要是集中趋势、离散程度、分布形状等,统计图(方图、箱线图、散点图等);
②数据的分类汇总;
③基础统计分析:方差分析、时间序列分析、相关和回归分析、(主成分)因子分析等统计分析方法。
2.6预测(Forecasting)
在统计分析和数据挖掘领域,对未来的预测已经有了很多数学模型以及解决具体问题的相关算法。其核心思想便是从历史数据中找出数据的发展模式,然后以这些模式为支点,就可以对未来进行预测。
2.7预测模型(PredictiveModeling)
随着数据分析学家对数据挖掘技术的不断探索,出现了很多预测模型以及与之相对应的算法,但是很难确定某个模型是最精确的,因为不同的领域,不同的条件,对应的预测模型是不一样的,所以没有统一化的最优模型,只存在有选择性的最优模型。下面介绍几种典型的预测模型。
①回归模型:回归模型可以分为一元线性回归模型和多元线性回归模型。一元线性回归模型可表示为yt=b0+b1xt+ut,该式表示变量yt和xt之间的真实关系。其中yt称作被解释变量(或相依变量、因变量),xt称作解释变量(或独立变量、自变量),ut称作随机误差项,b0称作常数项(截距项),b1称作回归系数。b0+b1xt是非随机部分,ut是随机部分。而在很多情况下,回归模型必包含两个或更多自变量才能够适应地描述经济现象各相关量之间的联系,这就是多元线性回归模型需要解决的问题,其一般形式为:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是这个多元回归问题的m个自变量,b1、b2、…、bm是回归方程对应于各自变量的系数,又称偏回归系数。
②贝叶斯网络:贝叶斯网络是基于概率推理的数学模型,而概率推理是通过一些产量的信息来获取其他概率信息的过程。贝叶斯网络会建立一个有向无环图和一个概率表集合,有向无环图中的每一个节点便是一个随机变量,而有向边表示随机变量间的条件依赖,条件概率表中的每一个元素对应有向无环图中唯一的节点,存储此节点对其所有直接前驱节点的条件概率。贝叶斯网络是为了解决不定性与不完整性问题而提出的,在多个领域中获得广泛应用。
③基于时间序列分析的指数平滑模型在时间序列分析中指数平滑模型是最灵活和准确的方法,在经济领域也被证明是最有效的预测模型。在不同的时间序列下,指数平滑模型可以分为简单指数平滑法、带有趋势调整的指数平滑法、带有阻尼趋势的指数平滑法、简单季节指数平滑法、带有趋势和季节调整的指数平滑法五种不复杂度的模型。
2.8最优化
(Optimization)因为优化问题往往可以带来巨额的收益,通过一系列可行的优化,可以使收益得到显著提高。所谓最优化就是从有限或者无限种可行的方案中选取最优的方案。如果可以通过简单的评判,就可以确定最优方案那是最好的。但是事实不会那么简单,所以优化技术已经发展出了一系列的理论来解决实际问题。其常用的优化技术为:
①线性规划:当目标函数与约束函数都是线性函数时,就是一个线性规划问题。而当同时满足约束函数和目标函数时,则可以认为是最优解。
②整数规划:要求决策变量取整数值的数学规划。
③多目标规划:指衡量一个决策优劣的标准不止一个,也就是有多目标函数。
④动态规划:将一个复杂的问题划分为多个阶段,逐段求解,最终求出全局最优解。
3用Excel实现简单的数据分析
①对于企业而言最重要的是利润,所以管理者必须要从这张表中得到最关键也最容易得到的销量和销售额以及与其相关的一些数据,通常是用最基本的数理统计结果来直观地反映该企业在某个期间的盈利情况。
②其次,我们必须要做进一步的分析。已经对整体的情况有了一定的把握,所以就可以朝着不同的方向去挖掘一些有价值的信息,为企业高层做决策提供有力的依据。对产品销售而言,客户结构能够有效地反映客户的地域分布,企业可以根据客户的来源,在未开辟客户的地域去寻找新的目标客户群。而销量结构可以直观地反映企业最大销量来自哪个地区,对销量较小的地区可以加大宣传力度或者增加销售网点来保持各地区销售均衡。还可以及时地调整销售方式来扩大市场份额,而对于销量最小的地区考虑开辟新的市场。
统计了各地区的销售总额和平均销售额以及两者的对比关系。由此可以得出地区平均购买力大小,以及各地区总销售额大小。借助图表描述,管理者可以对企业在某段期间内的销售状况有一个大概的把握,只有掌握了这些的信息,才能更细化地去研究具体的影响因素。划分等级,对于经常性大量购买的客户必须要以最优惠的价格和最好的服务让其满意,以形成一个稳定的大客户群。而对于那些少量购买的客户,也要制定出相应合适的方案来留住客户。所以,分析销售额的分布情况,可以掌握客户的购买力度而且还能及时做一些留住大客户的举措。
4用R语言实现数据多层次分析
R语言是一种自由软件编程语言与操作环境,是一套完整的数据处理、计算和制图软件系统,它是一种用来进行数据探索、统计分析和作图的解释型语言。它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动地进行数据分析,甚至创造出符合需要的新的统计计算方法。而在使用R语言进行数据分析处理时,当我们遇到很大的原始数据,但用来建模的数据较小,则可以先在数据库中进行整理,然后通过R与数据库的接口提取数据,数据库适合存放和整理比较规整的数据,和R中的数据框有良好的对应关系,这也是R中绝大多数统计模型的标准数据结构。数据库中大部分的运算都不需要消耗很大的内存。
5结语
蚊虫基因组序列的揭示为其基因的克隆鉴定和功能分析提供了很好的平台。由于蚊基因组中高度重复序列的广泛存在,给一些基因特别是非编码序列的分子克隆带来了困难,而基因组序列的提供给这一问题的解决带来了福音。利用已获得的白纹伊蚊基因组序列,我们已顺利克隆了其嗅觉结合蛋白(OBP)和嗅觉受体(OR)基因及其调控序列,为其嗅觉发生分子机制的阐明奠定了基础。Criscione等通过比较斯氏按蚊雌蚊和雄蚊的基因组DNA和RNA样本的Illumina测序结果,发现了一个Y染色体特有的基因GUY1。Hall等则发明了一种更为有效的染色体熵法,该方法的优势是仅利用高通量测序获得的基因组和转录组数据,而不需要一个固定在染色体上的参考基因组来进行比对。通过比对两种疟疾重要传播媒介斯氏按蚊和冈比亚按蚊的高通量基因组和转录组数据,系统性地在斯氏按蚊和冈比亚按蚊中各发现了3个Y基因。同时通过对鉴定的Y基因进行生物进化分析,结果表明按蚊的Y染色体进化迅速。随后,Hall等又使用染色体熵的方法比对了雄性和雌性埃及伊蚊基因组DNA和RNA的Illumina测序数据,筛选并鉴定了一个新的基因myo-sex。myo-sex基因几乎只存在于雄蚊的基因组,但是由于基因重组偶尔地能在雌蚊的基因组中发现,具有雄性偏好性,是一个可能具有性别拮抗效应的肌球蛋白重链基因。蚊虫基因组数据也为蚊虫性别决定网络底部基因dsx的研究提供了依据。dsx是性别决定网络中的调控核心,主要行使决定体细胞和生殖细胞性别的功能,也可调控中枢神经相关基因fruitless,进而调节。冈比亚按蚊基因组数据之后,Scali等率先鉴定了冈比亚按蚊dsx的性别特异性转录本,其横跨2号染色体85kb的区域,通过选择性拼接产生多个外显子组成的雌性和雄性特异性转录本。而随着2014年斯氏按蚊基因组的,有研究者将Scali等报导的Angdsx与刚的斯氏按蚊基因组和转录组进行序列比对,发现一致性达到了97%,而与冈比亚按蚊基因组及转录组序列一致性仅为85%。Scali等在埃及伊蚊中发现了两种雌性特异性的可变剪接方式,这不同于黑腹果蝇和冈比亚按蚊具有的特异性DsxF。
2蚊虫的转录组学研究
转录组学(transcriptomics)是一个活细胞所能转录出来的所有RNA的总和,是研究细胞表型和功能的一个重要手段。传统上用于转录组数据获得和分析的方法主要有基于杂交技术的芯片技术包括cDNA芯片和寡聚核苷酸芯片,但目前使用最普遍的是RNA-seq即转录组测序技术。基于Illumina高通量测序平台的转录组测序技术能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能发现未知转录本和稀有转录本,精确地识别可变剪切位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。相对于传统的芯片杂交平台,转录组测序无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。巨蚊属是蚊科中三种不吸血的蚊属之一,其幼虫阶段以同在小型水体中孳生的白纹伊蚊和埃及伊蚊为食,两性成蚊均不吸血,以植物汁液和花蜜为食。为了探究巨蚊与其它吸血蚊种在搜寻宿主方面的基因水平上有何差异,国外有学者从巨蚊上分离出触须、触角和身体其他部分,分别提取这三部分的RNA,利用RNA-seq技术,将获得的序列片段从头组装,与目前已公布的致倦库蚊、冈比亚按蚊、埃及伊蚊基因组数据进行系统进化树分析,发现巨蚊与埃及伊蚊的种属关系最近,并且在上述四种蚊种中均发现了编码气味分子受体(odorantreceptor,OR)蛋白和离子转移受体(ionotropicreceptor,IR)蛋白的基因,但值得注意的是,巨蚊受体蛋白的表达量与丰度上较其它蚊种都有所降低[18]。因为这些受体蛋白被认为与吸血昆虫搜寻宿主气味分子如CO2有关,所以,巨蚊在长期的生物进化过程中,丧失了原本存在的吸血习性。蚊唾液腺蛋白与其吸血传病密切相关。国外有学者提取白纹伊蚊雌性成蚊的唾液腺RNA后进行转录组和蛋白质组分析,发现至少有32个基因在雌性成蚊的唾液腺中表达程度或者增高或者降低,另外有17个基因表达在雌性成蚊唾液腺和雄性成蚊中,但不表达在雌性成蚊的其他组织中。通过分析发现,其中大约三分之一的基因功能表现在吸血、消化糖、免疫应答等方面,但是并未发现其余基因的明确功能,所以非常有可能是长期吸血的过程中进化出的新的功能分子。利用同样的方法,分析冈比亚按蚊、斯氏按蚊、达氏按蚊、埃及伊蚊、白纹伊蚊、致倦库蚊和致死按蚊(Anophelesfunestus)的唾液蛋白相关的转录组,可以将这些蛋白归纳为:
(1)昆虫唾液腺中普遍存在的唾液蛋白,包括抗原-5蛋白家族、核酸酶、碳水化合物水解酶等;
(2)在吸血的长角亚目昆虫(包括白蛉、蚋、蠓等)中丰富表达的D7蛋白;
(3)仅在蚊唾液腺中存在的蛋白,包括30000左右的过敏原蛋白家族(allergenfamily)和一些粘蛋白。很多昆虫都被发现具有一种独特的生物学现象——滞育(diapause)。昆虫的滞育现象被认为是一种休眠的形式,在昆虫发育时遇到不适宜的环境时,就会马上由体内激素调节并控制,暂时停止发育。白纹伊蚊被发现同样具有滞育现象,这是它能适应环境气候变化,实现快速扩张入侵的生物学基础之一。白纹伊蚊的雌性成蚊在每日受到较短时间的光照后,产下的卵不会立即孵化,这便是一种滞育的现象。有趣的是,同是伊蚊属的埃及伊蚊,其雌性成蚊产的卵如果没有接触到水,也不会孵化、发育,这却被认为是一种静息状态(quiescence)。这两种现象的区别在于,发生滞育后,白纹伊蚊的卵即使收到合适的外界环境的刺激,仍需要经过一段时间的恢复才会孵化,而处于静息状态的埃及伊蚊的卵,只要受到适宜条件的刺激(如接触到水),就会马上进入发育阶段。国外有学者利用RNA-seq技术,对这两种现象进行分析,发现这两种现象在发育停止的阶段,分子水平上是很相近的,不同之处在于滞育现象的早期准备阶段和后期修复阶段,是其所独有的。关于滞育现象的早期准备阶段,国外学者通过RNA-seq技术,比较滞育前阶段(pre-diapause)的白纹伊蚊胚胎与同时期非滞育的白纹伊蚊胚胎基因表达水平上的差异,发现前者在基因表达模式上有非常大的改变。目前,已有学者归纳和总结出了一套利用RNA-seq技术研究白纹伊蚊滞育现象的方法,为今后更全面、彻底地认识白纹伊蚊以及其他媒介昆虫的滞育现象提供了坚实的基础。利用RNA-seq技术,我们对白纹伊蚊不同发育时期(卵、幼虫、蛹、雄蚊、雌蚊)和感染登革病毒前后的转录组进行了分析。对比分析不同发育阶段特别是雌雄蚊的基因表达谱,我们找到了在胚胎早期对性别分化具有重要作用的候选基因和对雌蚊吸血传病相关的性别偏爱基因。对比分析登革病毒感染与否的白纹伊蚊转录组,我们发现了可能与蚊媒与病原相互作用有关的免疫分子(未发表结果)。目前,针对这些候选基因的进一步功能分析正在进行之中。另外,对白纹伊蚊抗药品系和敏感品系的RNA-seq对比分析也在进行中,这对于其抗药机制的阐明非常重要。
3蚊虫的小RNA组学研究
小RNA(smallRNAs)主要指长度在18~30nt的一类非编码RNA(ncRNAs),在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNAs,miRNAs)、内源小干扰RNA(endo-siRNAs)和piwi干扰RNA(piRNAs)。piRNA长度集中在26-31nt,目前只在动物的生殖系细胞及干细胞中被发现,其主要功能是参与转座子的沉默。miRNAs和endo-siRNAs长度主要集中在20~24nt。miRNAs在动植物和微生物中都普遍存在,据估计一个物种中约1/3的基因会受到miRNA的调控,大量的实验也表明miRNAs参与了诸多生命过程的调控,例如细胞周期、细胞分化、组织器官的发生、营养代谢、信号途径以及对外界生物的非生物的环境的反应;同时,miRNAs在生产实践与临床治疗上也具有很大的应用前景。以往用于寻找miRNAs等小RNA的方法有实验克隆法、计算机预测法。克隆法可以直接用于鉴定新小RNA,是初期发掘小RNA的常用方法,不足之处是实验周期较长,对低表达的小RNA的发现能力十分有限。计算机预测法多是针对某一已知的小RNA特征设计算法,从全基因组或EST数据库中快速发掘大量潜在的小RNA,一定程度上弥补了克隆法的缺点,然而,预测的小RNA最终还需要实验证明,同时计算机预测法对新类型小RNA的发掘能力十分有限。随着第二代高通量测序技术的问世,小RNA高通量测序(smallRNA-Seq)技术开始逐渐取代原始的小RNA发掘法方法,该法具有速度快、成本低、覆盖度深等多方面的优点,对鉴定与发现生命体内的小分子RNA及其功能与机理研究起极大的推动作用。全世界有超过3000种蚊虫,目前为止仅有冈比亚按蚊、斯氏按蚊、埃及伊蚊、致倦库蚊以及白纹伊蚊鉴定出miRNA。一些miRNA的文库和功能分析表明miRNA对蚊虫的卵巢发育和吸血后的血液消化具有调节作用。病毒感染可以对宿主细胞miRNA的表达水平产生深远影响,可能与宿主抗病毒机制及病毒入侵后改变细胞内环境有关,雌蚊中miRNA的表达模式会随着病原体的感染而发生变化。Hussain等对登革病毒(DENV)编码的miRNA或病毒小RNA(vsRNAs)的进行了功能研究,他们发现6个vsRNAs能通过作用于病毒基因组RNA茎环结构中的5''''和3''''的UTR区,显著增加病毒复制。中肠屏障是蚊虫防止病原体入侵而建立的重要屏障,Alexander等的研究发现miR-1174仅在伊蚊和按蚊的中肠中表达,且雌蚊吸血后其表达量明显上调;而当miR-1174表达下调后,蚊子吸血率明显降低,寿命明显缩短。作者认为:蚊特异性miRNAs,特别是miR-1174具有重要的生物学意义,它们可能影响人们今后控制蚊虫的策略。我们对白纹伊蚊不同发育时期(卵、幼虫、蛹、雄蚊、雌蚊、吸血后雌蚊)的小RNA进行了深度测序分析。结果在白纹伊蚊中筛选出119条已知的miRNA基因,确定了15条novelmiRNA基因,其中11条是伊蚊特异的,并且观察到许多miRNA呈现期特异表达的特点。经过实验验证,miR-286、miR-2492和miR-1891分别在白纹伊蚊的卵、幼虫和成虫期特异高效表达,敲低/敲除这些miRNA会对蚊虫的生长发育造成显著影响。这些研究为新型生物杀虫剂的研发提供了靶标。我们还对感染登革病毒前后白纹伊蚊的细胞和成虫的小RNA进行了深度测序分析。结果在感染登革病毒的白纹伊蚊中找到了10条表达上调的miRNA和11条表达下调的miRNA。通过对这些差显表达miRNA的功能分析,发现miR-252通过与E蛋白3''''-UTR区域的结合,对登革病毒的复制起到抑制作用;而miR-281则通过与E蛋白5''''-UTR区域的结合,对登革病毒的复制具有促进作用。这些研究为抗登革病毒药物的设计和研发提供了线索。piRNA来源于转座元件、基因间隔区和一些编码蛋白质基因的3''''UTRs,对维持基因的完整性和稳定性有一定作用,但最近的研究证明它在抗病毒免疫中也有较大作用。Schnettler等的研究证明:对蚊虫细胞感染虫媒病毒可以引发piRNA路径,而敲除piRNA蛋白质会使病毒产生增多。Castellano等确定了多个24-30nt的Piwi相互作用RNAs基因组簇,通过比对到转座元件和蛋白质编码基因的3''''UTRs,发现许多TEs和一些内源性基因的3''''UTR产生大量具有piRNA样特征的29-nt小RNAs峰。此外,来自冈比亚按蚊和黑腹果蝇TEs的正义和反义piRNAs揭示了piRNA序列偏差的新特征。弗吉尼亚理工大学的研究人员最近在库蚊中发现了一种新型的抗病毒途径,Morazzani等在无dicer-2和无突变的蚊细胞中进行的实验表明,病毒产生的piRNA样小RNA可以在病毒产生siRNA的过程中调节病毒感染的发生。同时也表明新的piRNA途径存在于蚊媒的体细胞中并且可能发挥着比siRNA途径更宽泛的的抗病毒作用,显示出其为强大的免疫系统。因此,理解病毒如何绕开蚊虫的双重抗病毒反应对于科学家来说是越来越有趣的挑战。
4结语
关键词:电子商务数据分析数据挖掘信息技术
一、市场调查
根据一份市场调查显示;卖家本身体现的实力给人与信任可依赖程度越高,用户越愿意来购买商品。
在我评论之前,我申明一下,一家之言只代表一个群体的言论,并不能涵盖每个人的想法与判断,电子商务的数据报告只能说明趋势,并不能完全反应出每个顾客真实的意图。卖家信誉-28%。价格-26%。网站的外观和感觉-16%。网站易用性-15%。商品打折-4%。快递和交付等原因-3%。出现在搜索引擎上-2%。
这是一份市场调查的结果,数据报告对实际商业产生怎样的影响,一个关键问题就是筛选问题的分类方式,他是否独立又相互依存,论点论据之间重合度越低,数据报告能说明的问题越准确。但在这之前首先是样本数据的获取与筛选方法,这里就不追溯了。我只是想根据个人对电子商务的理解,结合这份报告说点事,实际上这一组数据比较接近我个人对网购的理解,首先我们逐条说明这些影响一个网店的因素:
二、卖家信誉
之所以被普遍认为是最重要的,是因为我们网购时并不真实的接触到产品,也并不了解向你推销商品的人是否值得可信,这都是顾客基本的一个需要认知过程,互联网上哪里去确认?当然如果你在一家多卖家的平台上,往往都会有商家信用,评论等功能,很容易通过别的顾客消费情况增加自己对商家的认知。电子商务为什么要打假信用?这只是顺应顾客需求,维护健康秩序所必须做的事情。所以作为卖家不要轻易尝试作假信用,或者你今天逃过一劫,但说不定你明天网店刚做大的时候被强行关闭了。
三、价格
价格是一道屏障,在相互比拼中,有人拼得起,有人拼不起,但如何更好的控制价格,削减顾客成本,不仅为自己赢得更多展示机会,也会赢得更多顾客。价格不会是越低廉越好,最好的平衡体系没有,只有一个方法,如何在综合上为自己赢得市场??有人习惯选一些比如3.99美元的价格,看上去不加拿一分钱顾客潜在心理是这个人没赚钱,但值得说的是商品定价因产品,因地域时间,顾客等因素制宜,现在的顾客不都是傻子,商品有的是比价机会。也有人选择款0利润或者赔本的商品推,但在商品里关联组合商品卖,通过吸引用户购买自己的组合商品或者别的商品来拉动自己销售利润;还有的人也是利用免费赠送或者赔本的方式挂商品,但通过物流利润来保证自己不亏本的方式拉动店铺其他产品行销。
四、网站的外观与感觉
有的人店铺半年一年都是淘宝默认的最烂的那套模板,也不知道为什么淘宝没更新还是咋的,我没卖过商品,还不是很了解那个,但我买东西基本不光顾这样的店铺,店主对店铺的打理程度决定了我对店主的看法,因为信用不是绝对可靠的;产品,服务好不好,全在你的形象与行为上。
五、网站易用性
你能忍受自己在一个网站哗啦了半天结果没搞懂应该怎么买商品吗?我一个朋友,按照我的认识他也是比较理性,属于心思敏捷的,他说他在XX网站搞了好久,都不知道怎么买东西,所以以后都没去过;虽然易用的应用都还是不能被所有人接受,但简单清楚的,没有歧义的每一步流程总是好的。不过这个虽然用户关注的多,但我觉得但凡有点认识的,认识相应语言的人大概都明白很多网购系统的操作流程。这里就不说什么了。
六、促销打折
商品打折也属于价格范畴,只是这里细化成了一个活动,活动可以是定期的比如每周二,三,四晚上限量抢购啊;选2款顾客竞价啊;前面“价格”里也提到的0价格换信用,换软文之类的啊;参与商盟联合促销啊;换季狂甩啊之类的。总之参与打折的,有资本经历运作打折的,只要PV高,顾客肯定不会少,除非你的商品含有价格,性能,服务等水分太大,用什么样的打折方法,最关键的你是销售一时还是为了希望吸引到长久的顾客而去设计。
七、快递与交付等原因
物流过程中虽然有很多不可控因素导致一些商品容易磨损之类的,但物流惧怕承担责任的态度决定了自己的发展框架,假设一下,你的企业就在你的心胸里;你心胸只有100㎡大小,即使你鼓足了劲你也最多到120㎡,这样的容量是没有办法和犹如大海宽广心胸的人比较的。我是没记住你,但有人记住你了,他下次要走物流,肯定不会选你,你损失的不只是一个用户,而是损失了一个未来。
八、搜索排名
我没有看到他们分析提交的数据时基于怎样的搜索引擎,这个分类其实很不准确,虽然数字已经很少了,我自己买商品在淘宝,有啊上都用他们站内的搜索引擎,如果我常用的几个排序商品方法筛选数据你都没排列在前三页,那么即使你离我最近,就住在我隔壁,你服务态度最好,商品也不必别人的差;但你离我还是太远了,我根本找不到你。
对我个人来说,像百度,GOOGLE的网页搜索这样的综合搜索出来的商品,对我吸引力太小了,综合搜索出来的商品并不是他信誉最高,价格最低,服务最好就显示在了综合搜索引擎上,只因为他的页面更适合搜索引擎逻辑而已。商品真正追求的东西不在文本上,而在商品与服务内在的东西里。当然,在同等条件下,不要错过这样一个增加PV与交易机会的机会。
九、总结
目前,数据挖掘技术正以前所未有的速度发展,并且扩大着用户群体,在未来越来越激烈的市场竞争中,拥有数据挖掘技术必将比别人获得更快速的反应,赢得更多的商业机会。现在世界上的主要数据库厂商纷纷开始把数据挖掘功能集成到自己的产品中,加快数据挖掘技术的发展。我国在这一领域正处在研究开发阶段,加快研究数据挖掘技术,并把它应用于电子商务中,应用到更多行业中,势必会有更好的商业机会和更光明的前景。
参考文献:
[1]韩家炜.Web挖掘研究[J].计算机研究与发展,2001.
[2]陈宏.消费者数据挖掘系统建立的几个问题.
[3]方美琪.电子商务概论.北京:清华大学出版社,1999.
近年来,全国大学生数学建模竞赛迅速发展,为国家培养了大批应用型人才。但由于各地区教育水平不同、相关部门对竞赛的重视程度不同,导致各地区组织学生参加大学数学建模竞赛的规模不同,在该项赛事中取得的成绩差异比较显著。2013年全国大学生数学建模竞赛评选出的奖项有:赛区优秀组织工作奖9个,本科组高教社杯奖1个,专科高教社杯奖1个,本科组MATLAB创新奖1个,专科组MATLAB创新奖1个,本科组IBMSPSS创新奖1个,专科组IBMSPSS创新奖1个,本科组一等奖共273名,本科组二等奖共1292名,专科组一等奖共44名,专科组二等奖共211名[1],但成绩相对于参赛区分布不太均匀。分析各地区在2013年全国大学生数学建模竞赛中取得的成绩,明确各地区数学建模发展状况的差异和特点,将有利于相关部门从宏观上了解我国大学生数学建模竞赛的整体发展现状,分类制定相关政策[2-3],从而充分发挥数学建模的重要作用。
1建立综合评价指标体系
全国大学生数学建模竞赛现状的一个重要方面就是全国大学生数学建模竞赛获奖情况。依据全国大学生数学建模竞赛设置的奖项,遵循可比性原则,参考文献[4-5],选取x1-x7共七项评价指标,具体如下:x1:本科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x2:本科组一等奖获奖数;x3:本科组二等奖获奖数;x4:专科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x5:专科组一等奖获奖数;x6:专科组二等奖获奖数;x7:年度竞赛优秀组织工作奖获得情况。说明:鉴于本科组与专科组的高教社杯、MAT-LAB创新奖和IBMSPSS创新奖三类奖项每年只有一个队获奖,且基本不可重复获得(参见历年大学生数学建模竞赛获奖名单)故将其合并作为一类。
2数据资料依据
2013年全国大学生数学建模竞赛获奖名单,按指标对各个赛区的获奖情况统计如表1所示。
3R型聚类分析定性分析
七项指标之间的相关性。编写MAT-LAB程序如下:>>clc,clear>>symxy;>>x=xlsread(‘shuju.xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju.xls中,并将其赋于x>>y=corr(x)%输出七项指标间的相关系数矩阵(如表2所示)>>d=pdist(y,’correlation’);%计算相关系数导出的距离>>z=linkage(d,’average’);%按类平均法聚类>>h=dendrogram(z);%画聚类图(如图1所示)>>T=cluster(z,’maxclust',5);%把变量划分为5类>>fori=1:5tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有4;第2类的有56;第3类的有7;第4类的有23;第5类的有1。即:若将指标分为5类,则指标1、4、7各为一类,指标2、3为一类,指标4、5为一类。
4Q型聚类分析
4.1选取5个指标的分类从R型聚类分析分出的5类指标中各选一个,即选取5个指标体系,对33个参赛地区进行聚类分析。首先对变量数据进行标准化处理,采用欧氏距离度量样本间相似性,选用类平均法计算类间距离。在MATLAB命令窗口输入下列程序:>>symsxy;>>x=xlsread(’shuju.xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju.xls中,并将其赋于x>>x(:,[3,5])=[];%删除数据矩阵的3,5两列,即使用变量1,2,4,6,7>>x=zscore(x);%将数据标准化>>s=pdist(x);%每一行是一个对象,求对象间的欧式距离>>z=linkage(s,’average’);%按类平均法聚类>>h=dendrogram(z);%画聚类图(如图2所示)>>T=cluster(z,’maxclust’,3);%把样本点划分成3类>>fori=1:3;tm=find(T==i);%求i类的对象tm=reshape(tm,1,length(tm));%变成行向量>>fprintf(’第%d类的有%s\n’,i,int2str(tm));%现实分类结果>>end程序输出:第1类的有11318第2类的有2345678910111216171920212224252627282930313233第3类的有141523即:第一类:北京,福建,湖南;第三类:江西,山东,四川;第二类:其它地区。
4.2选取7个指标的分类考虑到指标2与指标3,指标5与指标6具有一定的独立性,若七个指标体系全部取用,将33个地区分为4类,程序输入如下:>>symsxy;>>x=xlsread(’shuju.xls’);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%画聚类图(如图3所示)>>T=cluster(z,’maxclust’,4);>>fori=1:4tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有116第2类的有6710151927第3类的有23489111213141718202223242528第4类的有521262930313233即:第一类:北京,河南;第二类:辽宁,吉林,江苏,山东,广东,陕西;第四类:内蒙古,海南,,青海,宁夏,新疆,香港,澳门。4.3选取本科层次指标的分类只考虑本科层次取得的成绩,即选用指标1,2,3,对33个参赛地区进行聚类分析,从而明确掌握其本科阶段的差异,则有:输入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[4,5,6,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%画聚类图(如图4所示)>>T=cluster(z,’maxclust’,3);>>fori=1:3;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有11318第2类的有101115161719222327第3类的有2345678912142021242526282930313233即:第一类:北京,福建,湖南;第二类:江苏,浙江,山东,河南,湖北,广东,重庆,四川,陕西;第三类:其它地区。4.4选取专科层次指标的分类只考虑专科层次取得的成绩,即选用指标4,5,6,对33个参赛地区进行聚类分析,从而明确掌握其专科阶段的差异,则有:输入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[1:3,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);%画聚类图(如图5所示)>>h=dendrogram(z);>>T=cluster(z,’maxclust',4);>>fori=1:4;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有14第2类的有1523第3类的有41927第4类的有1235678910111213161718202122242526282930313233即:第一类:江西;第二类:山东,四川;第三类:山西,广东,陕西;第四类:其余各地区。
5结束语
[摘要]目前地勘单位的档案数据管理,存在职责不明、保存不妥的现象,造成了不良后果和严重损失,因此,加强地勘单位档案管理工作,提高地勘人员质量意识和建立地质档案数据管理体系。推动档案管理工作的规范化、信息化,标准化。
地质工作信息化建设是一项复杂的系统工程,而地勘单位的信息化建设与基础数据也就是档案是密不可分。地质档案数据是在地质勘查活动中直接形成的、有保存价值的文字、图表及声像载体材料等,它既是野外勘测过程的真实反映和记录、地勘经济发展的重要基础和依据,也是单位维权的凭证和依据。基础的地质数据文件具有内容的单一性、载体的多样性、形式的特殊性等特点,随着社会信息化的飞速发展,地勘单位数据文件的内容、形式、载体等属性也发生了较大的变化,特别是以地质找矿项目为中心所形成的档案材料具有全面化、精确化、系统化的成套性和现实性、专业性要求,而一个完整的地质项目要经过立项、设计、施工、竣工等阶段,要经过主管局等上级部门的审批和验收,因此收集整理符合标准的数据文件本身就有很多工作要做,那么如何做好管理工作,更好地为地质找矿和社会经济发展服务?本文就结合着地勘单位的资料管理工作实际谈几点粗浅的认识。
1加强领导,建立组织,收集数据
抓好基础数据文件工作,首先要从思想上重视档案管理工作,提高认识,从监与管两方面入手,分管档案工作的领导应给予多方面的支持和提供资源保障,用规范化、信息化、标准化来要求档案的收集、整理、归档、保管和开发利用工作,建立起“内外”有别而又相互统一的档案管理体系。“内”就是要协调内部各职能部门增强档案意识,注重收集与及时移交,防止档案材料的散失;“外”就是要抓住每一个环节的档案收集,积极与主管部门、设计、施工等单位负责人及档案人员通力协作,以保证归档案卷数据的完整、准确、系统。建立健全档案管理组织,不仅是行政管理的重要组成部分,而且是必须做好的一项基础性工作,因此,要明确有关人员与部门的职责,用制度管人,用制度办事,将数据文件工作作为硬任务列入地勘项目指标条款,在单位规章制度体系中将地勘单位档案工作以法律文书的形式规定下来,鼓励和支持档案管理人员深入现场收集档案资料,作为档案人员应有针对性地列出所需收集的资料名目,自始至终参与到项目管理中去,保质保量地获取第一手资料。另外,还要与外购、有关单位进行交换、复制索取以及标准化的网络收集等。形成完整有效的地质数据文件。
2建立制度,编制方案,完善规则
长期以来,地勘工作执行和延续计划经济的管理体制,缺少市场经济体制中的竞争意识和对原始数据质量问题的关注意识。只有调动全员的积极性,以完善科学的管理制度做指导,按标准建立质量管理体系,使一切工作有章可循,才能从根本上解决原始地质数据的完整性和质量问题。制度要健全,执行要坚决。按照档案管理的法律法规及相关规定的有关规定与标准,对已经收集的文字、图纸、图片、声像等资料,应根据数据文件形成的规律和特点,在便于保管和利用的前提下,进行科学分类整理,设置相应的归档类目,按原始地质立卷归档规则如:范围、规范性引用档、术语与定义、归档范围与分类、编号与编目、立卷归档要求等,还包括地质项目的设计档案、设施工档案和竣工档案等。应根据本单位的实际情况和具体要求,制定本单位的数据文件管理实施细则,细则应主要明确本单位数据文件的范围,归档的基本要求和基本内容,数据文件的移交与整理、保存与借阅的要求等。
数据要齐全,内容要完整。要达到此目标要求,应该重视抓好资料的收集工作,坚持地质项目建档工作按照档案管理规范要求与项目施工、竣工验收同步,坚持档案部门与基层单位相结合,编制分类方案,正确区分和把握依据档、设计档、项目管理档、施工竣工验收及档等的分类工作,齐抓共管,进一步做好基础档案归档工作。
管理要及时,立卷要规范。为确保数据文件齐全、完整、系统,就要把数据文件工作与项目计划、检查、总结、验收各个环节的工作相联系,同步进行,立卷做到格式统一、字迹工整、图像清晰,同时根据内容、价值、数量和载体形式进行系统整理,按项目组卷,使档案数据做到文件齐全、分类准确、体系鲜明、方便管理,方便利用,保持其整体功能。并将立卷好的档案按规定移交有关档案管理部门,严格交接手续,认真核查案卷质量并确保档案的完整。。
3加强培训依法制档
目前,地勘单位的数据文件管理工作远不能跟上飞速发展的地勘形势的要求。一个单位数据文件管理的好坏,不仅与本单位的档案规章制度健全与否、主管档案的领导的思想观念、档案管理人员水平的高低息息相关,更与档案数据的组织者对档案数据的重视程度有着极大的关系。数据文件作为科技档案的重要组成部分,它服务于今天,有利于未来,为历史查找、产权查证、经济纠纷以及科学研究提供素材,针对某些领导和技术人员档案意识薄弱、档案管理人员素质差的现状,一是要结合地勘单位的特点,加强对数据文件管理人员的培训,应该组织其学习、贯彻《中华人民共和国档案法》。《中华人民共和国档案法》明文规定,一个国家机关、武装力量、政党、社会团体、企业事业单位和公民都有保护档案的义务。但目前地勘单位的数据文件管理缺乏有力的档案执法机制是一个比较突出的问题。在档案未形成时,就有档案资料散落在工程技术人员及合同管理人员或是一些领导者个人手中的现象,根据现存在情况,应档案法宣传列入全年工作计划和责任目标考核内容,并认真制订宣传计划,采取多种形式、通过不同媒体进行宣传,不断强化监督指导功能,特别是主管部门和业务指导部门,既要做好执法检查和业务指导,又要做到定期或不定期抽查,做到点面结合、跟踪督办。结合正在实施的保密协议签定工作形成有法必依、执法必严的局面,推动档案工作向规范化、标准化的方向发展。认真学习档案管理的有关法律法规及办法,强化岗前培训。从目前看,许多档案部门缺乏现代高科技人才,其中档案、信息处理复合型人才就更加奇缺,大部分档案人员现代技术水准偏低,甚至有现代文盲现象。尽管引进了现代化设备,仍不能充分发挥作用,就难以实现档案信息化了。因此,信息化建设人才需要深厚的档案学基础理论,熟悉档案工作的规律,从而创新科学先进的管理方法,因此必须通过各种不同形式的培训,提高档案人员业务能力和管理水平,自觉增强责任意识,把档案提升一个新台阶。
4档案信息电子化纸质档案数字化
资料档案信息化建设是一项长期复杂的系统工程,行业不同,信息化管理模式也不同。面对信息化带来的挑战与机遇,地勘单位与其它企业一样面临市场化和国际化竞争的挑战。为提高地勘单位的整体素质,推动地勘单位的改革与发展,充分利用好信息化这个武器,走出一条适合自己的信息化建设之路。所谓档案信息电子化,就是以馆藏档案数据纸质或机读形式的为主要物质对象,用微机对档案进行收集、筛选、加工,使之转化为微机软件形式的二次文件信息电子文文件数据供利用的过程。把地质资料数据文件归档电子化,充分利用计算机、扫描仪把纸质档案数字化,建立全文数据库,以便于存储查找和利用,既是地质工作现实要求,也是档案管理必然取向。因此地勘单位必须快速更新观念,迅速实现档案工作网络化,为地质找矿工作服务,推动其它各项工作的现代化进程。
参考文献:
关键词:USB;数据采集;EZ-USBFX2;GPIF
1引言
现代工业生产和科学研究对数据采集的要求日益提高。目前比较通用的是在PC或工控机内安装数据采集卡(如A/D卡及422、485卡)。但这些数据采集设备存在以下缺陷:安装麻烦、价格昂贵、受计算机插槽数量、地址、中断资源的限制,可扩展性差,同时在一些电磁干扰性强的测试现场,可能无法专门对其作电磁屏蔽,从而导致采集的数据失真。
传统的外设与主机的通讯接口一般是基于PCI总线、ISA总线或者是RS-232C串行总线。PCI总线虽然具有较高的传输速度(132Mbps),并支持“即插即用”功能,但其缺点是插拔麻烦,且扩展槽有限(一般为5~6个),ISA总线显然存在同样的问题。RS-232C串行总线虽然连结简单,但其传输速度慢(56kbps),且主机的串口数目也有限。
通用串行总线(UniversalSerialBus,简称USB)是1995年康柏、微软、IBM、DEC等公司为了解决传统总线的不足,而推出的一种新型串行通信标准。该总线接口具有安装方便、高带宽、易扩展等优点,已经逐渐成为现代数据传输的发展趋势。基于USB的数据采集系统充分利用USB总线的上述优点,有效地解决了传统数据采集系统的缺陷。USB的规范能针对不同的性能价格比要求提供不同的选择,以满足不同的系统和部件及相应不同的功能,从而给使用带来极大方便。
2系统介绍
2.1数据采集系统的结构与功能
常见的数据采集系统的硬件总体结构如图1所示。其中数据采集接口卡是硬件部分的核心,它包括A/D转换器、微控制器、USB通信接口等。
在高速数据采集系统中由于现场输入信号是高频模拟信号,因而信号的变化范围都比较大如果采用单一的增益放大那么放大以后的信号幅值有可能超过A/D转换的量程所以必须根据信号的变化相应地调整放大器的增益。在自动化程度较高的系统中希望能够在程序中用软件控制放大器的增益AD8321正是这样一种具有增益可编程功能的芯片。AD8321是美国AD公司生产的一种增益可编程线性驱动器。它具有频带宽、噪声低、增益可编程且易于与单片机进行串行通信等优点,十分适合在数据采集系统中做前置放大。
经过调理后的信号可送入模/数变换器(ADC)进行A/D变换。笔者选用的ADC是TLC5540,它是一种高速8位模拟数字转换器,能以高达每秒40M的采样速率进行转换,由于采用半闪速结构和CMOS工艺制造,因此功耗和成本很低。其75MHz(典型值)的模拟输入带宽使该器件成为欠采样应用的良好选择。该器件带有内部电阻,可用于从5V电源产生2V满度的基准电压,以减少外部元件数。数字输出置于高阻方式。它仅需要5V电源工作,可由USB总线供电。
由于数据采集接口卡是硬件部分的核心,因此应选择能适用USB协议的合适芯片。EZ-USBFX2是一种USB2.0集成微控制器。它的内部集成了USB2.0收发器、串行接口引擎(SIE)、增强的8051微控制器和一个可编程的串行接口。其主要特性如下:
带有加强的8051内核性能,可达到标准8051的5~10倍,且与标准8051的指令完全兼容;
集成度高,芯片内部集成有微处理器、RAM、SIE(串行接口引擎)等多个功能模块,从而减少了多个芯片接口部分需要时序配合的麻烦;
采用软配置,在外设未通过USB接口接到PC机之前,外设上的固件存储在PC上;而一旦外设连接到PC机上,PC则先询问外设是“谁”(即读设备描述符),然后将该外设的固件下载到芯片的RAM中,这个过程叫做再枚举。这样,在开发过程中,当固件需要修改时,可以先在PC机上修改好,然后再下载到芯片中;
具有易用的软件开发工具,该芯片开发系统的驱动程序和固件的开发和调试相互独立,可加快开发的速度。
图2USB接口示意图
2.2方案选择
FX2有三种可用的接口模式:端口、GPIF主控和从FIFO。
在“端口”模式下,所有I/O引脚都可作为8051的通用I/O口。
在“从FIFO”模式下,外部逻辑或外部处理器直接与FX2端点FIFO相连。在这种模式下,GPIF不被激活,因为外部逻辑可直接控制FIFO。这种模式下,外部主控端既可以是异步方式,也可以是同步方式,并可以为FX2接口提供自己的独立时钟。
“GPIF主控”接口模式使用PORTB和PORTD构成通向四个FX2端点FIFO(EP2EP4EP6和EP8)的16位数据接口。GPIF作为内部的主控制器与FIFO直接相连,并产生用户可编程的控制信号与外部接口进行通信。同时,GPIF还可以通过RDY引脚采样外部信号并等待外部事件。由于GPIF的运行速度比FIFO快得多,因此其时序信号具有很好的编程分辨率。另外,GPIF既可以使用内部时钟,也可以使用外部时钟。故此,笔者选择了GPIF模式。
高速数据采集卡的设计存在两大难点:一是模拟信号的A/D高速转换;二是变换后数据的高速存储及提取。对于第一个问题,由于制造ADC的技术不断进步,这个问题已经得到解决。而对于第二个问题,一般的数据采集系统是将A/D转换后的数据先存储在外部数据存储器中,然后再对其进行处理。对于高速数据采集而言,这种方式将严重影响采集速度,且存储值也会受到很大限制。而改进方案是将A/D转换后的数据直接送至计算机内存,这样,采集速度将大大提高,而且可存储大量数据,以便于下一步的处理。
为了解决同步问题,可以由CPLD产生同步时钟信号提供给ADC和FX2。在本数据采集系统的设计中,CPLD同时还可用于产生不同的控制信号,以便对采样进行实时控制。CPLD是复杂可编程逻辑器件,它包括可编程逻辑宏单元、可编程I/O单元和可编程内部连线。由于CPLD的内部资源丰富,因而可广泛应用在数据采集、自动控制、通讯等各个领域。在本系统的设计中,笔者选用的CPLD是Lattice公司的ispLSI1016。图2所示是其整个USB接口卡的硬件电路图。
3系统软件设计
该系统软件主要包括USB设备驱动程序、设备固件和应用程序。
3.1设备固件(Firmware)设计
设备固件是设备运行的核心,可采用汇编语言或C语言设计。其主要功能是控制CY7C68013接收并处理USB驱动程序的请求(如请求设备描述符、请求或设置设备状态,请求或设置设备接口等USB2.0标准请求)、控制芯片CY7C68013接收应用程序的控制指令、控制A/D模块的数据采集、通过CY7C68013缓存数据并实时上传至PC等。
即使外部逻辑或内置的普通可编程接口(GPIF)在没有CPU的任何干涉下能够通过四个大的端点FIFO来处理高速宽带数据,固件还是有如下固定的工作:
配置端点;
通过控制端点零来响应主机请求;
控制和监测GPIF的活动;
利用USART处理所有的特殊请求任务,如计时器、中断、I/O引脚等。
3.2USB设备驱动程序开发
USB系统驱动程序采用分层结构模型分别为较高级的USB设备驱动程序和较低级的USB函数层。其中USB函数层由两部分组成:较高级的通用串行总线驱动程序模块(USBD)和较低级的主控制器驱动程序模块(HCD)。
在上述USB分层模块中,USB函数层(USBD及HCD)由Windows提供,负责管理USB设备驱动程序和USB控制器之间的通信;加载及卸载USB驱动程序;与USB设备通用端点(endpoint)建立通信并执行设备配置、数据与USB协议框架和打包格式的双向转换任务。目前Windows提供有多种USB设备驱动程序,但并不针对实时数据采集设备,因此需采用DDK开发工具来设计专用的USB设备驱动程序。该设备驱动程序应由初始化模块、即插即用管理模块、电源管理模块以及I/O功能等四个模块来实现。
初始化模块可提供一个DriverEntry入口点以执行大量的初始化函数。
即插即用管理模块用来实现USB设备的热插拔及动态配置。当硬件检测到USB设备接入时,Windows查找相应的驱动程序,并调用它的DriverEn-try例程,同时告诉它添加了一个设备;然后,驱动程序为USB设备建立一个FDO(功能设备对象)。在此处理过程中,驱动程序收到一个IRPMNSTARTDE-VICE的IRP,在它之中包括有设备的资源信息。至此,设备被正确配置,驱动程序开始与硬件进行对话。当然,在设备运行过程中,如果设备状态发生变化(拔除、暂停等),PnP管理器也同样发出相应的IRP,以便由驱动程序进行相应的处理。
电源管理模块负责设备的挂起与唤醒。
I/O功能实现模块可完成I/O请求的大部分工作。当应用程序提出I/O请求时,它将调用Win32API函数DeviceIoControl向设备发出命令,然后由I/O管理器构造一个IRP并设置其MajorFunction.域为IRPMJDEVICECONTROL。在USB设备驱动程序收到该IRP后它将取出其中的控制码并利用一个开关语句查找对应的程序入口。
3.3应用程序设计
应用程序设计由两个部分组成:动态链接库和应用程序。动态链接库负责与内核态的USB功能驱动程序通信并接收应用程序的各种操作请求,而应用程序则负责对所采集的数据进行实时显示、分析和存盘。
动态链接库的工作原理如下:当它收到应用程序开始采样的请求后,首先创建两个线程:采样线程和显示存盘线程。采样线程负责将采样数据写到应用程序提交的内存;而显示存盘线程则负责给应用程序发送显示和存盘消息。当应用程序接收到此消息后,便从它提交的内存中读取数据并显示和存盘。要注意的是:采样线程和显示存盘线程在读写应用程序提交内存时要保持同步。
PC机或工控机应用程序是数据实时采集系统的中心可采用Labview编程。它是当今国际上唯一的编译型图形化编程语言,其特点如下:
(1)能完成对固体表面速度的实时测量;
(2)主介面与多重窗口结合可完成数据连续采集、实时统计分析、系统参数设置、信号波形显示、被测参数输出等综合系统功能。
(3)能充分利用Labview开发平台和WINDOWS视窗所提供的良好操作环境集曲线、图形、数据于一体可准确描述过程参数的变化。
图3所示是用高速数据采集系统采集通过Lab-view显示的一个波形实例,其输入信号是一个频率为5MHz的正弦波。
(一)统计调查对象虚报、瞒报、少报,当前以少报、瞒报为主。今年4月份,我局对24家工业企业上报数据进行了质量检查,发现少报产值的企业就有7家,少报产值2221万元,户均少报产值317万元;而同期多报产值的企业只有3家,多报产值295万元,户均多报产值98万元。剔除企业多报产值,加上企业少报产值,企业共少报产值1926万元,占24家企业原上报产值28.1%,户均少报产值80万元。
(二)政府统计调查尤其是县、镇两级政府统计力量不足,存在漏统现象
(三)统计部门地位不高,抗干扰整体能力不强
(四)统计过程中缺乏统一质量监控标准和依据,反映在基层填报人员更换频繁,台帐、原始记录不全,历史资料混乱,原生性和再生性差错层出不穷
(五)数出多门情况时有发生,也是造成数据质量不实的原因之一。如在2002年我市抽查的19个镇中,发现有9个镇的2002年政府工作报告(或党委工作报告)使用的统计数据与统计年报数据不一致,镇政府工作报告(或党委工作报告)所使用的统计数据普遍高于统计年报数据,占被检镇的47.4%。
二、原因
统计数据质量存在问题的原因是复杂和多方面的。既有内在原因,又有外在原因:
(一)内在原因
1、现行统计管理体制滞后。现行我国统计管理体制实行的是“统一领导、分级负责”的办法,统计部门作为地方政府的一个职能部门、人员、编制、经费以及任免都由地方政府决定,而地方领导干部的升降,在一定程度上系于体现在政绩的统计数字上;地方统计部门领导的升降完全由地方决定,这样的统计体制,客观上强化了行政对统计数字的干预,统计部门和统计人员难以独立地行使统计监督的职权。
2、统计调查方法制度改革滞后。改革开放以来,统计为适应形势的发展,统计方法制度进行了一系列的改革。如恢复和建立农产量抽样调查和农村住户收支调查;推行了城市居民住户收支调查;先后开展了社会商品零售价格指数、居民消费价格指数、生产价格指数;用SNA体系取代了MPS体系等等。但遗憾的是:改革统计生产关系,解决统计生产力的过程中,统计无论是体制还是方法制度基本没有实质性进展,仅限于修修补补。
3、报表指标种类繁多,调查项目之间重复。现在的统计报表和指标不说多如牛毛恐怕也离不远了。从长期统计工作实践特别是近年来的实际统计工作中,不知是因为适应形势所累,还是在这经济转轨时期本身就是不可逾越的障碍,确实使人感到统计改革有违原来的初衷。原来国家统计改革一直讲的都是要精简报表、精简指标,理顺工作关系,尽量减少或避免数出多门,最终目的是要减轻基层负担、提高统计数字质量。然而现在同一指标在统计局内部重复布置,你抄我的、我抄你的、互相核对打架的现象始终没有能够得到有效的解决,从而造成许多重复劳动和资源浪费。与时同时,政府综合统计制度与部门统计制度调查项目内容之间重复。如:农业耕地面积、农业机械化情况、畜牧业生产情况、种植业产品产量、企业集团统计、建筑统计、批发零售贸易统计、房地产统计、固定资产投资统计、乡镇企业统计等。就部门统计之间而言,同一指标多个部门调查的现象时有发生。如粮食产量指标,农业局、粮食局、统计局都调查;投资指标,改革与发展局、经贸局、统计局、建设局都调查;出生人口指标,公安部门、计生局、统计局都搞。就政府综合统计部门内部各专业制度而言,重复统计内容有:农村乡卡调查,综合乡卡调查数字抄农村乡卡数等。另外,由于各项制度组织主体不同,造成不同统计制度需要时对一调复布置,也形成了部分统计内容重复调查现象。
(二)外在原因
1、《统计法》作用有限。《统计法》的颁布实施,对统计违法现象的认定和处罚都有明确的规定,对净化统计环境起到了积极作用。但是,由于基层统计力量的薄弱和统计数字与政绩的关系,统计法的作用受到极大限制,近些年县级政府综合统计部门进行的统计执法大检查“雷声大、雨点小”,不足以震慑统计违法者。
2、统计部门人力、经费、物资投入不足制约统计数字质量的提高。虽然统计部门与过去比现在统计力量、经费投入得到了一些加强,但是与当前统计任务比还不适应。特别是在县镇两级的统计工作中这个问题特别严重。比如,镇级只有一名兼职统计人员,一方面要完成镇中心工作,另一面又要应付统计的调查任务,“顶上千条线,底下一根针”,不管上边有多好的想法和做法都得基层去完成,基层是统计数字的源头。目前,我市各县统计局工作人员一般只有15—20人,在统计工作量不断增加情况下,县级统计部门完成现行18个专业报表任务己穷于应付。人力、物力、经费不足,是严重影响统计数字质量的一个很重要的因素。
3、客观环境的变化,对统计数字质量产生了很大影响。从客观外界条件看,一方面统计调查环境迅速的变化确实给统计工作带来许多困难。统计数“正规”来源渠道越来越窄,在企业改制中许多国有、集体企业,通过股份制、拍卖、兼并重组,原有的统计机构和人员变化或撤消,获取资料的正常渠道不存在了。由于市场经济的运行,调查量剧增,与当前统计管理体制和统计方法制度不适应。另一方面,全社会对统计信息需要的数量、质量都提出更新更高的要求,社会需要的“缺口”很大,有一些数字根本没有。不需要的,要上一大堆,都在躺着睡大觉。所以统计方法制度要进行重大调整改革。
4、被调查者合作程度降低,影响了统计数字质量。经济改革的深入,使得统计调查对象越来越复杂。原来主要调查对象都是组织、有管理的单位,现在是面对千家万户全社会。在市场经济条件下,形成利益多元集团,由于利益的驱使,使得各种各样的被调查对象总是千方百计地保守自己的“秘密”,出现瞒报、少报统计数字的现象十分严重。
5、基层统计人员积极性无法调动性。
三、建议
要有效提高统计数据质量,必须从影响质量的根本着手,提高质量才能持久。
(一)改革现行的统计管理体制。最好能实行垂直领导,使政府统计部门地位更加超脱。若近期未能实行垂直管理,则要从5个方面加强统计活动的独立性:
一是抓住国家启动修改统计法的有利时机,通过立法进一步确定和加强现行的国家、省、地、县四级统计调查体系进行统计活动的超脱性、独立性地位。
二是进一步加强镇级统计工作,将镇级统计真正纳入政府统计工作序列,使镇级统计工作实体化。
三是现行“下管一级”的思路要向整个统计调查体系的深度和广度拓展。在可能的情况下,编制、人员、经费等都可以下管一级。
四是镇一级统计业务全部由镇一级独立完成,县级统计部门只对其进行业务指导和监督,通过各种手段,把好镇级统计数据关。
五是加强对全社会的统计管理职能,各级政府统计部门应加速业务职能为主向管理执法职能为主的转变过程,将自己从繁重的业务中解脱出来。政府统计部门只干综合的统计业务。如国民经济核算、基本单位名录库,全国性的普查等,能让部门搞的就让部门去搞,能让民间统计调查机构搞的就让他们去搞,对这些统计工作,政府统计部门主要抓管理,抓数据的评估与监督。
(二)明确政府统计职能。当前,统计职能有不断被扩大的趋势,其结果是报表增多、指标增设、调查频率增快,造成基层穷于应付,也难以应付,最终是马虎应付,质量下降,走入恶性循环。对此,应重新界定政府统计职能,我们认为政府统计职能就是为国家宏观调控经济、社会服务,其它能减少职能都应减少,非此职能工作能不参与的最好不参与。
(三)建议组织部门改革干部考核制度,完善干部管理体制。统计实践告诉我们,现行干部考核制度和干部管理体制也是导致和助长统计数字造假的重要源头。因此,应建议组织部门进一步改革干部考核制度,完善干部管理体制,按科学发展观要求对各级干部的进行全面考核、评价。
(四)改革现行统计方法制度。统计制度方法与统计数据质量密不可分,当前制度方法应着重从三个方面进行改革:首先必须明确政府统计应收集那些资料,这是统计方法制度改革重点;其次建立一套符合我国国情的国民经济核算体系及适应科学发展观要求的统计指标体系,并且保证经确定的统计指标体系的全国统一和相对稳定,对指标的含义、统计口径、计算方法都必须做出说明和界定范围,同一指标不能有两种口径和随意变更。第三是研究建立从我国实际出发的科学适用的统计调查方法体系,适当减少全面统计报表,推广抽样调查。
(五)加强统计执法力度。要通过不断统计执法,让全社会都能认识、了解统计工作,正确认识统计工作,支持和配合统计工作,正确认识和使用统计统计数据。一是要建立专门的统计执法队伍,国家成立执法总队,各省设立执法支队,地、县建立执法分队。并开展全国或全省一盘棋的统计执法。
二是要建立人民法院对统计行政处罚予以强制执行的制度,把统计执法活动与人民法院的强制执行制度相衔接,与其他执法部门联合办案,形成合力,发挥行政执法的整体效能。
三是要加强统计执法检查的力度与频度,使统计执法检查工作日常化、规范化,要建立违法统计案件的举报制度。
(六)对统计工作全过程实行全面质量管理。第一对每项统计调查要制定数据质量评价标准,应把现有数据质量的评估标准从准确性扩大到准确性、及时性、适用性三维的质量标准。第二健全和完善数据质量管理体系。建立必要的组织机构或相对独立的统计数字质量监督评价机构。美国、英国、加拿大等国家的统计机构十分重视统计数字质量评价管理,都建立了专门的统计数字质量监督管理机构,来评价政府的统计数字。这一方面值得我们借鉴学习。第三采用多种形式开展质量管理,如定期开展数据质量情况调查和分析、邀请统计机构外部专家来评价等。
(七)加大对县及县以下统计部门的经费、人力投入。现在基层统计力量、经费不足的问题、矛盾十分突出,县及县以下统计部门是统计数字质量的源头,数字源头不能保证,又怎能保证全过程的统计数字质量呢?因此,加大对基层经费、人力和计算机投入也是保证统计数字质量很重要措施。
【关键词】关联数据;定量分析;语义网
Abstract:The paper focused on Linked Data which has been published by 1990- 2010 in China for the analysis of data,then used quantitative analysis method to carry on the statistical analysis,analyzed the situation of Linked Data from time distribution,author distribution,periodicals distribution,Scientific research fund distribution and the subject distribution.At the same time,this paper summarized the shortcoming and development trend of Linked Data research.
Key words:Linked Data;quantitative analysis;Semantic Web
关联数据的概念为WWW(World Wide Web)的发明者,被誉为互联网之父的Tim Berners-Lee于2006年在《关联数据笔记》中首次提出,在该文中他分析了Web的发展与演变,提出了发展数据网络的思想,而数据网络的核心和关键则是关联数据。2009 年在TED大会上,他提出关联数据就是一箱箱数据,当通过开放标准关联在一起时,从中可以萌发出很多新事物和新应用[1]。
关联数据简单的说就是一些RDF格式的数据,也是用三元组(主体,谓词,客体)来表示资源。所以研究关联数据,知道数据的RDF(Resource Description Framework)格式是必不可少的。关联数据和RDF数据最主要的区别在于关联数据是要到网上,并供人搜索的,所以描述资源的三元组的不再是统一资源标志符(URI),而是URI和.
[2]白海燕.基于关联数据技术的信息组织深度序化研究[2010-09-26]..
[3]Boutin G.Tying Web 3.0,the semantic Web and linked data together[2010-09-26].http:///archives/understanding_the_new_web_era_web_30_linked_data_s.php.
[4]赵华等.UG在我国的研究、应用现状及进展[J].现代情报,2008(10):137-141.
[5]黄永文.关联数据在图书馆中的应用研究综述[J].现代图书情报技术,2010,05:1-7.
[6]吴玥,李占羽.基于关联数据开放政府数据[J].电脑知识与技术,2010,31:8688-8691.
[7]赵梓彤,谢海先.关联数据在网络信息管理中的应用[J].图书馆学研究,2011,12:47-50.
[8]张宁.基于关联数据的农业信息空间数据组织研究[J].农机化研究,2012,04:249-252.
[9]洪娜,钱庆,方安,范炜,李亚子,王军辉.生物医学关联数据研究进展与比较分析[J].图书情报工作,2012,06:123-129.
[10]刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011,02:5-12.
[11]D2R Server-Publishing Relational Databases on the Semantic Web[EB/OL][2010-12-28].http://www4.Wiwiss.fu-berlin.de/bizer/d2r-server/.
[12]:Overview[EB/OL].[2010-09-12].http:///.
[13]Open Link Software[EB/OL][2010-09-11].http://.
[14]Coetzee P,Heath T,Motta E.SparqPlug:Generating linked data from legacy Html,Sparql and the DOM.[2010-09-26].http:///ldow2008/papers/05-coetzee-heath-sparqplug.pdf.
[15]Cygan关联数据k B.Pubby-a linked data frontend for Sparql endpoints.2010-09-26].http://www4.wiwiss.fu-berlin.de/pubby/.
[16]Talis platform.[2010-09-26].http:///platform/.
[17]沈志宏,张晓林.关联数据及其应用现状综述[J].现代图书情报技术,2010,11:1-9.
[18]徐华.关联数据在国外图书馆中的应用及其借鉴意义[J].图书馆学研究,2011,16:87-89.
[19]纽约时报以关联数据形式新闻目录[J].中国传媒科技,2009,06:11.
论文摘要介绍了在阳台利用花盆栽培韭菜的技术,包括品种选择、栽培器皿和营养土的选择、播种育苗、日常管理以及采收等方面内容。
近年来盆栽蔬菜发展迅速,利用花盆在阳台种植蔬菜,既可点缀居室,又可绿化环境、美化生活,具有观赏、食用、绿化环境等多种功能,受到人们的喜爱,市场前景十分诱人。
韭菜是我国人民传统的食用蔬菜,它除含有丰富的蛋白质、维生素、矿物盐等人体所需的各种营养外,还是大家公认的高纤维素含量蔬菜,由于纤维素对人体特殊的医疗保健作用,韭菜被称为第七大营养蔬菜。盆栽韭菜既起到绿化观赏价值,又可作为蔬菜食用,是一种无公害食品,深受市民喜爱。韭菜利用花盆栽培,技术简单,不受地区和季节的限制,生长快、病虫害较少,一年四季都可以种植,并且可以连续采收,适合家庭阳台栽培。盆栽韭菜栽培关键是要配好营养土,掌握好种植技术。现将韭菜利用花盆阳台栽培技术介绍如下。
1品种选择
韭菜的各个品种均可进行盆栽,但最好选用生长力强的品种,如791韭菜、韭宝F1、平韭五号等。
2栽培器皿选择
栽培韭菜的器皿选瓦盆、陶瓷盆、塑料盆均可,但以外观好看、质地轻、透水、透气好的花盆为宜。室内阳台种植时应在花盆下放1个底碟,防止浇水时渗出影响阳台卫生。花盆的形状圆形、方型均可,圆形花盆的直径在25cm以上,高度25~30cm,底部要有渗孔。
3营养土的选择
花盆栽培韭菜因容器容积有限,韭菜根系生长受到限制,因此盆里所用的栽培土必须含有充足的肥力,才能维持韭菜连续生长与连续采收的需要。一般采用的培养土的配比是腐熟的树叶3份、腐熟的畜禽粪、骨粉2份、优质农田土5份,或用5份腐熟的农家肥、3份园土和砂土2份配成盆土。入盆时盆底孔用1~2片碎瓦片盖上,装少许粗砂,上面装营养土至盆边2~3cm。
4播种育苗
阳台种植韭菜,春夏秋3季均可播种,也可采用韭根直接定植。播种育苗最好用头年新种,4月中旬至5月上旬进行播种育苗。种前先将花盆浇足底水,水渗下后播种,盖1cm厚营养土,始终保持盆土表面呈湿润状态而不板结,出苗后根据盆土情况适当浇水。如用韭根定植,以春季定植为好,由于空间有限,盆内韭菜定植密度不可过大,定植后及时浇水,促进幼苗或韭根成活。
5日常管理
5.1浇水施肥
当新叶发出后根据盆土干湿情况及时浇缓苗水,并对盆土进行中耕保墒。经常保持土壤湿润。入秋后天气日渐凉爽,适宜韭菜旺盛生长,此时要充分供应肥水,一般4~5d浇1次水,并追肥3~4次。追肥把芝麻饼、豆饼等碎块放入密封的容器充分发酵,取其腐熟的上层液体,加入15~20倍清水施入,促进叶片生长,为鳞茎的膨大和根系的生长打下良好的基础。以后气温继续降低,植株生长缓慢,此时应适当减少浇水,保持盆土不干即可。
5.2温度
夏季若韭菜长时间生长在35℃的高温条件下,再遇上空气干燥,就会造成叶尖干枯。因此,此时可将花盆移到北阳台或室内阴凉处,隔一断时间适当移到太阳光照晒的地方接受光照。冬季外界温度较底,若想在此期间吃上韭菜,可将带盆移到密封的阳台内。
5.3中耕培土
早春返青后将根茎部位的土壤剔开,数天后再复原,以提高地温,消灭种蝇,促进根系生长,淘汰细弱分蘖。结合剔根,每年春季可以盖2~3cm营养土,以利于鞘伸长和软化。
5.4换土
由于花盆是一个相对封闭的空间,长时间栽培容易造成养分及部分微量元素缺乏。因此应每2~3年换盆土1次,换土宜在冬季休眠期进行,韭根最长使用期限为6~7年。
5.5病虫害防治
盆栽韭菜病虫害较少,若盆土未充分腐熟,则易产生根蛆危害;若发现根蛆幼虫可用90%敌百虫600倍液或敌敌畏800倍液灌根触杀。
6采收
定植当年根据生长情况,长势强时可适当采收,长势弱时一般不采收,着重养根。盆栽韭菜采收不可过于频繁,一般1年可采收5~6次,每次相隔25~30d,且夏季不宜采收。浇水、喷药后不宜立即收割,以免水珠滴入伤口和农药残留过多。收割时留茬高度必须适当,过浅影响产量和品质,过深易影响根茎,影响下次采收和整个植株长势,以刚割到鳞茎上3~4cm黄色叶鞘处为宜。割后应及时进行浇水、追肥,促进根系和地上部叶片生长。