大家好,我是考100分的小小码 ,祝大家学习进步,加薪顺利呀。今天说一说tableau的仪表盘_tableau仪表板,希望您对编程的造诣更进一步.
商业智能(BI)技术,如Power BI和Tableau收集、整合、分析和呈现商业信息。这些工具可以帮助你分析业务数据和可视化信息,以获得有价值的洞察力。
创建一个能提供一些见解的仪表盘可以是一个快速的过程(特别是当你对你选择的BI工具获得一些专业知识后)。你甚至可能是一个专家,但仍然注意到,一旦你试图做以下一项(或多项),事情会变得异常棘手和耗时。
- 连接到多个数据源
- 玩弄数据类型和数据分类
- 创建数据模型,将你的数据源混合在一起
- 创建一个能发挥多层次聚合作用的可视化模型
- 自动刷新你的仪表盘
BI工具对于展示你的数据,创建用户视图,甚至有时执行行级安全,都是非常了不起的。现在,PowerBI和Tableau都为类似上述的更复杂的使用案例提供了自己的功能。这些功能对于建立一次性的快速分析是有帮助的,但在试图建立有效的、可扩展的和稳定的可视化时,就显得力不从心了,因为有广泛的、高要求的观众。大多数时候,在建立了临时分析后,数据分析师需要把它变成稳定的报告,面临着以智能方式自动完成工作的挑战。
诀窍是什么?
将你的数据准备与你的分析脱钩(分离),坚持使用BI工具进行可视化和格式化。通 过将过程简化为输入和输出,你将投资于你自己未来的心理健康和客户的满意度。解耦意味着每一步都在最适合它的工具中完成,然后自动化,然后拼图的各个部分都很简单,相互独立。
很好,但怎么做呢?
我已经列出了分离你的数据之旅的各个阶段所需的步骤,并使每个阶段在之后的自动化过程中变得简单。请注意,无论你的技术背景如何 (从基本的Excel文件到复杂的Python流程),你都应该能够遵循这些步骤 。你可以随时调整你的方法,使你的过程脱钩,并使未来的自己(或你的备份/替代者)能够重复它/更新它/改变。没有人应该在每次想做一个小的改变时,都要剖析一个成为黑盒子的文件!
理解最终的仪表盘要求
从仔细聆听开始。客户和终端用户(或产品拥有者)会带着愿望清单和必须的东西来找你。他们会专注于他们想要看到的最终外观和格式。作为报告背后的人,你要记住的是,报告的目的是。
- 分析数据
- 得出结论
- 做出更好的决定
因此,当他们说 “我需要A,它应该显示B”,你的下一个问题不应该是。
- 什么颜色?
- 什么尺寸?
- 什么类型的图表?
相反,最好是找出你的产品拥有者为什么想看到这个指标。问问你自己。他们想要完成什么?当你知道他们的优先事项时,你可以在开始分析他们的数据之前回答一些重要的问题,比如。
- 这是一个临时性的分析吗?
- 我想回答的是什么问题?
- 我的受众是谁?
- 他们习惯于哪种程度的细节?
- 这个报告是否会促进反复的讨论?
- 这种讨论的形式是什么?
- 我怎样才能确保这些讨论是围绕着解决问题展开的?
(而不是关注数字的来源或它们对每个参与者意味着什么?)
这就是信任的作用。如果你的客户知道你了解他们的需求,并花时间清理和优化他们的数据,他们会相信这些数据反映了他们的现实。归根结底,这就是每个客户想要的东西。他们可以信任的数据。
在这个过程中,经过几次谈话,你应该对所需要的工作有一个更清晰的范围,仪表盘的目的以及他们打算用它做什么。因此,你可以开始工作,并快速完成(你可以肯定,你在这个阶段花的时间越多,愿望清单上的美好事物就越多)。
获取数据
这是考验你多任务处理能力的阶段。确保你拿出的清单看起来像这样。
数据来源 | 需要的频率 | 目的 | 访问方式 | 状态 | 临时解决方案 |
来源A | 每日刷新 | 主页面所需
关键绩效指标。 – A – B – C |
团队/个人 | 已请求/票据未开/等待批准/已批准/
… |
工作摘要 |
来源B | 每周刷新 | 需要安全层(用户和角色) | 团队/个人 | 使用来自测试环境的数据/假数据工作 | |
来源C | 每月刷新 | 需要启用实际数据与目标数据的对比功能 | 团队/个人 | 不可用 |
这在跟踪你想要什么和不想要什么方面会有奇效,同时也能保护你免受瓶颈的影响。在生意场上,任何人最不想听到的就是借口,所以要给他们以事实。这是我有的和没有的,这是我在等待时正在使用的东西。你的产品负责人会清楚地知道如何帮助你,因为他们希望你能快速进展到一个完整的解决方案。他们也会知道哪些数据是作为一种变通方法给你的(提取、测试/虚拟数据……),允许你在解决方案上工作,但没有最终数字。
最重要的是,这显示了足智多谋(在等待最终访问的时候,用一些东西来工作)和透明度(他们清楚地知道为什么解决方案的某个部分还没有建立,或者是在非生产数据上工作)。保持你的合作伙伴参与并建立信任需要你足智多谋和透明。这将为你在未来的阶段中省去许多麻烦。
摄入(获取)数据
从速赢开始,在过程的早期确保一个简单的Demo,并专注于拥有一些已经在你手中的数据。以最原始的形式获取数据,而不是经过处理的数据,因为没有人对此负责任。如果采取原始数据使其过于庞大,那么就用它的一个子集来工作。一个典型的错误是在过程中过早地汇总数据,你只有在太晚的时候才意识到你需要更多。摄取你知道你在Demo中需要的每个数据源的一个原始子集。
在这一点上(而不是以后!),做笔记并记录你所做的事情,并始终告知你的客户,你已经获得了足够的数据来建立第一个演示。有些仪表盘可能需要超过20个不同的数据源,以多种方式组合,不可能记住。在这里,摄取之后,就是你开始你的ERD(如何建立一个实体关系图),或者对于更简单的用例,建立你的数据库图,简单地记录你所拥有的(或计划拥有的)东西。不需要太花哨,你可以用纸笔、白板、数字白板工具(如Excalidraw、Microsoft Whiteboard、Visio、Google Draw……)或markdown(mermaid ERD)手动完成,只要你明白你有什么数据以及如何将其合并到最终的平面表中。
合并数据
这里是你创造最大价值的地方。通过在你的数据之间建立强大的关系,你建立了干净和完整的操作数据集,使你的终端用户的生活更容易。理想情况下,他们可以在几秒钟内连接到产品(使用SQL、Python、Tableau、PowerBI…)并直接开始分析。这不是一项容易的任务,它取决于你在第1步*(了解最终需求*)的表现如何。和任何棘手的任务一样,首先要把它分解成几个步骤,并使用一个 可视化的例子。
在当前的例子中,我们有五个数据集(UserAgent、Session、Event、EventType、EventData)。
使用你的视觉效果(建立在上一步的基础上),并确保你的每个原始数据集都有一个独特的键,可以用来创建与其他数据集的连接(这可以是数据源的自定义ID,自动生成的键)。你可能需要清理(注意数据类型!)某些字段,并生成你的键(例如添加一个串联的列),以确保连接工作。
请注意,在这个例子中,每个UserAgent都有一个ID,每个会话都有自己的ID,也有它所涉及的UserAgentID。在一个会话中,会发生一个事件(新的ID)。花点时间确认哪些是你的核心数据集,也就是那些你要报告的同一级别的数据集? 这将有助于你建立所有的连接,并根据需要加入。请看这里的一些场景。
- UserAgent级别的分析。终端用户希望有一个仪表盘,让他们了解有多少UserAgents出现,他们的参与度如何(会话和每个会话的事件数量…)。你将需要以 “UserAgent “数据集为核心,然后添加会话和事件作为补充信息,以帮助你回答关于用户的问题。
- 会话分析。终端用户希望有一个仪表板,让他们了解有多少会话正在发生,也许是用户的一些特征或与这些会话有关的事件。这里你的核心是’会话’,加入’事件’、’事件类型’、’事件数据’……
- 事件分析。 终端用户希望有一个仪表盘,让他们了解用户会话期间发生的最常见的事件。这里的核心将是 “事件”,加入 “事件类型”、”会话”、”事件数据”……
记住**,**你的仪表盘可能需要以上所有的东西。你可能要关注不同的数据集,所以如果你正确地完成了第一步,你会知道你需要不止一个操作表作为你产品的一部分。执行你的连接(在最早的阶段使用SQL、Python、数据压缩工具甚至Excel),并定期检查记录的数量,以防止在连接表时产生人为的行,并创建你的操作表的第一个最简单版本。
直接在你的模型上(而不是在你的可视化工具上)添加所有你的终端用户要求的计算结果。每次用户需要使用这些计算数据时,他们将直接从数据集上获得,而不是从你的仪表盘上导出。这也可以更好地扩展,避免多个用户建立的不同仪表盘之间的数据差异。
现在,你有了第一个操作数据,回到多任务处理上。你可以为你的可视化建立一个快速的演示,你的终端用户可以用它来给你反馈数据的准确性,而你则平行地关注下一步。
清理和格式化数据
首先,先看一眼你的数据,了解你在使用什么数据。然后,采取(如第一和最后10行)并注意小细节。这包括。
- 数据类型(数字,文本,日期,布尔值,数组)。
- 数据格式(小数、整数)。
- 所有具有相同数据类型的列的原始数据格式是否相似(例如,如果所有具有日期的列具有相同的日期格式)。
- 是否是数字(定量)和分类(定性)数据
- 如果是文本数据,那么它是什么?城市名称?产品代码?
所有这些都有助于理解数据之间的关系,确定数据需要哪些准备/处理,并调整可视化技术。记住要寻找空号、数字/文本、不同语言间的不同格式(对于自由文本)和HTML标签的清理。
通过过滤或通过快速总结来完成。所有这些将避免以后在可视化过程中的繁琐步骤,如果数据是干净的,而且格式正确,准备一个可视化只需要点击几下。
第二,进入细节。根据数据类型的不同,数据清理的方法也不同,可能存在不同种类的 “异常值”。在一个特定的数据类型中要寻找的东西的摘要。
日期
- 检查数据所存储的数据类型。如果数据与日期无关,就有风险,例如,日期被处理为数字值,那么开头的零就会被删除。
- 保持一致的格式(例如:”YYYY-MM-DD”)。
- 日期应该只在有意义的情况下使用(例如,出生日期不应该是未来的)。
文本
- 如果文本很长(如推文),使用标记化方法
- 确保名称一致(例如,数据可能包含有’USA’、’United States of America’和’U.S.A.’的记录,它们涉及到同一件事)。
数值方面
- 格式要一致(例如,小数有两个位置,整数应该看起来像整数,而不是小数,等等)
- 检测异常值(例如,通过可视化、Z-score方法、IQR方法)异常值会对指标产生重大影响,这就是为什么要思考为什么会出现异常值,以及是否要移除/修复异常值,或者异常值是否包含可能对业务至关重要的重要信息(例如,欺诈)–异常值是一个巨大的话题。
- 逗号或句号 — — 要保持一致
另外,如果你有分类数据,确保分类是有意义的,没有两个分类适用于同一事物。记得记录你创建/调整的类别,这样你的数据用户就会知道它们的确切含义。
第三,提供列名。
- 在处理/建模过程中,记住简单的、描述性的列名,避免在单词和特殊符号之间使用”,以避免不必要的麻烦。
- 对于商业的最终模型,使用他们想要的列名
- 试着坚持一个命名惯例(或者按照指南创建你自己的命名惯例),记录它并让你的数据用户熟悉它。在不同的数据集上保持一致,你会慢慢地在你的组织中建立一种人人都能理解的干净的数据文化。
如果你了解你的产品拥有者的优先权,像Power BI和Tableau这样的商业智能技术可以为Tableau和PBI仪表盘优化和准备数据。一旦你有机会接触到数据,你就可以对其进行摄取、组合、清理和格式化。
在这一点上,你可能已经准备好跳到你的BI工具(PowerBI、Tableau……),在一个文件中完成所有这些步骤,连接到一百万个原始提取。忍住这种冲动,相信解耦的过程吧!记住,简单是这里的关键词
-
倾听,倾听,倾听。
-
制定可以作为参考的清单。
-
把事情分解成更小的独立步骤(数据摄取、数据验证、数据清洗……)。
-
对于数据紧缩,使用为自动化数据建模而建立的工具
(Python, SQL, visual SQL, 甚至Excel,如果这是你所熟悉的)
-
坚持使用可视化工具来制作最终的仪表盘
不要忘记记录你的进展!你会转向你的下一个有趣的项目,并且很可能忘记所有的细节。这一点在本文中没有涉及,但请看看 如何在你的最后期限快速临近时, 建立能说明问题的流程并在最后节省时间。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/13848.html