更新于 2025年9月23日
8 分钟
您是一名数据分析师。对以下数据执行快速 EDA。背景:- 格式:[CSV/JSON/表格/文本]- 领域:[电子商务/营销/金融/运营]- 目标:[了解 X 的驱动因素]任务:1) 模式:列出列、推断类型、缺失值。2) 质量:重复项、异常值(如果适用,按 [方法])、异常情况。3) 单变量:关键数字列的顶部统计信息(平均值、p50、p95、最小值/最大值)。4) 双变量:与 [target] 的 3 个最强相关性 + 注意事项。5) 快速见解:5 个要点观察和 3 个后续问题。输出:- 使用紧凑的表格进行统计。- 保持在 <200 字 + 表格内。数据:[粘贴样本行或附加文件]角色:您是一名产品分析师。场景:[KPI] 在 [期间] 内变化了 [±X%]。数据集字段:[列出列]。目标:找到合理的驱动因素并推荐验证步骤。任务:1) 按 [细分、渠道、地理位置、设备、队列] 分解 KPI。显示前 5 名移动者。2) 归因驱动因素:数量与转化率与 AOV(或相关细分)。3) 假设原因(内部与外部),并提供来自数据的证据。4) 建议 3 个实验或分析来验证(例如,holdout、diff-in-diff)。5) 生成一个 5 点执行摘要。输出格式:- 表格:细分 → 增量、贡献、置信度(低/中/高)。- 然后要点:假设、验证、风险。数据:[附加/描述数据;或粘贴聚合]任务:清理和规范化以下数据集以进行分析。规则:- 处理缺失值:[使用中位数/众数/删除] 每列进行插补。- 规范化分类标签:映射到规范集 [列表]。- 将日期解析为 ISO 8601;提取 [周、月、季度]。- 异常值:在 [列] 的 [1, 99] 百分位数处进行 Winsorize 处理。- 输出干净的模式 + 转换步骤。交付成果:1) 映射表。2) 管道的伪代码 (Python/pandas)。3) before → after 的紧凑差异。数据样本:[粘贴 30-50 个代表性行]角色:高级分析工程师。仓库:[BigQuery/Snowflake/Postgres]。表:[table_name(col1, col2, ...)],[table2]。请求:“[描述问题、时间窗口、过滤器和粒度]”约束:- 使用具有清晰名称的 CTE。- 将假设注释为 SQL 注释。- 包括一个验证查询以发现行数不匹配。- 返回 SQL 和 3 行理由。WITH sample AS 返回一个最小测试数据集”以使查询具有自检功能。您是我的电子表格公式助手。目标:创建公式以从列 [A, B, C] 计算 [metric]。背景:[Excel/Google Sheets];区域设置:[US/EU 小数]。任务:- 提供具有绝对/相对引用的精确公式。- 如果相关,包括 Sheets 的 arrayformula 版本。- 添加一个测试行示例以验证正确性。数据标题 + 3 个样本行:[粘贴]角色:数据可视化设计师。受众:[execs/PMs/ops];要支持的决策:[说明它]。创建一个图表计划:1) 推荐 2-3 种图表类型,并说明此数据集和目标的优缺点。2) 为首选提供 Vega-Lite 规范(或 matplotlib/Plotly 代码)。3) 可访问性说明(色盲安全调色板、注释)。4) 每个图表的单句叙述性标题。数据描述:[列、单位、时间范围、样本]背景:自 [日期] 以来,我们在 [metric] 中观察到 [pattern]。目标:设计一个最小的、有效的实验。交付成果:1) 具有预期方向和效应大小猜测的假设 (H1/H0)。<a6>2) 实验单元、随机化和安全指标。</a5>3) 样本大小和持续时间假设;注意功效权衡。4) 分析计划:测试、细分、预注册清单。5) 风险和缓解。角色:时间序列分析师。数据:[时间戳、指标、可选回归量]。任务:1) 检查平稳性和季节性;建议转换。2) 使用 [模型偏好或“auto”] 生成短期预测(点 + PI)。3) 标记最近 [N] 个周期的异常情况,并说明严重程度。4) 推荐警报阈值以减少误报。输出:- 表格:日期、实际值、预测值、PI_low、PI_high、anomaly_flag、severity。- 针对非技术利益相关者的 5 行摘要。任务:分析客户反馈以提取可操作的见解。输入:[N] 条带有字段 [comment, rating, product, date] 的评论。步骤:1) 聚类主题;标记前 5 名。2) 引用每个主题的 1-2 条代表性评论。3) 量化每个主题的流行度和情绪。4) 推荐 3 个具有预期影响的行动。输出:一个表格 + 要点摘要。保持在 180 字以下。数据:[粘贴样本或附加]角色:幕僚长制作执行简报。要总结的内容:[粘贴分析、图表或指标]。产生:- (3 个要点,行动动词)。- 主要发现(5 个要点,带数字)。- 风险/未知数(3 个要点),后续步骤(3 个要点,负责人)。- 董事会幻灯片的一句话叙述。风格:清晰、非技术性、<160 字。您是一名分析副驾驶。目标:使用以下工件解决 [分析目标]。工件:- 数据文件:[链接或粘贴的样本]- 业务背景:[简短介绍]- 约束:[时间、成本、准确性]首先计划(10-12 个要点):- 识别输入、假设、风险。- 提出步骤(EDA → 转换 → 模型/测试 → 总结),每个步骤都有一个可交付成果。- 最后提出 3 个澄清问题。然后在执行步骤之前等待我的确认。将这些安全措施添加到任何分析中:- 明确引用假设。- 如果计算缺少足够的数据,则返回“证据不足”,并说明缺少的内容。- 提供一个简单的检查:以两种方式重新计算 [metric] 并进行比较。- 总结时,包括指向所用源数据字段的链接/参考。- 询问:“什么会证伪这个结论?”并简要回答。