论文中的维度与指标例子 重复率的关系

问:什么是指标、维度、度量?
  1. 答:你提供的图就是事实表:
    每个数据仓库都包含一个或者多个事实数据表。
    事实数据表可能包含业务销售数据,如销售商品所产生的数据,与软件中实际表概念一样。
    维度:
    说明数据,维度是指可指定不同值的对象的描述性属性或特征。例如,地理位置的维度可以包括“纬度”、“经度”或“城市名称”。“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”。
    指标:
    衡量数据,指标是指可以按总数或比值衡量的具体维度元素。例如,维度“城市”可以关联指标“人口”,其值为具体城市的居民总数。
    维度和指标的关系:
    虽然维度和指标可以独立使用,但常见的还是相互结合使用。维度和指标的值以及这些值之间的关系,使您的数据具有了意义。
    为了挖掘尽可能多的深层次信息,维度通常与一个或多个指标关联在一起。例如,维度“城市”可以与指标“人口”和“面积”相关联。有了这些数据,系统还可以创建“人口密度”等比值指标,带来有关这些城市的更详细的深入信息。
    度量:
    事实表和维度交叉汇聚的点,度量和维度构成OLAP的主要概念,这里面对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段,就是度量。这符合上面的意思,有标准,一个度量字段肯定是统一单位,例如元、户数。如果一个度量字段,其中的度量值可能是欧元又有可能是美元,那这个度量可没法汇总。在统一计量单位下,对不同维度的描述。
    指标与度量的关系:这就得说到指标,我愿意表述为"它是表示某种相对程度的值"。区别于上面的度量概念,那是一种绝对值,尺子量出来的结果,汇总出来的数量等。而指标至少需要两个度量之间的计算才能得到,例如收入增长率,用本月收入比上上月收入。当然可能指标的计算还需要两个以上的度量。
    供参考。
问:维度与指标
  1. 答:指标与维度最基本的作用是描述与衡量,维度与指标往往成对出现,搭配使用。
    一个栗子:
    维度之间也可以进行组合,用多个维度来描述一个指标数值。举例 : A产品在B国家Q4的销售金额为1000万 。
    除了维度的组合,指标还可以转换为维度,但是维度无法转换为指标。以销售金额字段举例,金额1000万是指标。
    若要表示金额区间的情况,将金额字段转换为维度,一般用作分层描述。举例:金额100万~200万,金额200~500万,金额500万以上等。
    维度与指标也构成了数据口径的基础,衡量数据口径选取的两个标准是 准确性与稳定性。
    维度选取的越贴近业务,口径越准确,数据描述就越接近真实的业务情况。就拿维度分层来讲,金额区间的划分稍不合理,一部分数据便会被掩盖忽略。
    稳定性是这个口径是否可以确定下来进行复用,复用的话可以复用多久?尽量选取复用期限长的口径,否则的话又是挖坑。
    为什么把数据指标与维度单独写,因为这是数据口径的基础,只有数据底层质量建设好了,数据才可以用起来更加顺手。
    数据的表层作用是描述,只有选用了契合的口径,才可以最大程度得呈现业务本身的情况。如果用来描述的口径不稳不准不靠谱,数据分析部门是首先被challenge的。
问:构念,维度,变量,指标这四者是什么关系
  1. 答:能有些微差异, 大致上可以这样看
    看一个问题时, 我们会试著从几个角度去衡量它, 这些角度可称为维度(Dimension)
    如信息科技的导入问题, 常用的维度有个人能力, 高阶支持, 组织结构....
    每一个维度可能有几个潜变量去衡量, 这些变量再由观察项去组成
    而构念是哲学上对这些维度, 变量的总称
    指标是数据与模型配合的程度
    容易混乱的是, 有些学门(期刊)用construct表示低阶的变量, 有些用variable表示低阶变量
    有些用factor表示低阶变量, 好在dimension一般用在高阶
  2. 答:那潜在变量维度与观测指标之间有什么关系呢?
点击进入下载PDF全文

相关文章

QQ咨询