更新日: 2025年9月23日
8 分
あなたはデータアナリストです。次のデータに対して迅速なEDAを実行してください。コンテキスト:- フォーマット:[CSV/JSON/table/text]- ドメイン:[ecommerce/marketing/finance/ops]- ゴール:[Xのドライバーを理解する]タスク:1)スキーマ:列、推論された型、欠損値をリストします。2)品質:重複、外れ値([もしあれば方法]別)、異常。3)一変数:主要な数値列の上位統計(平均、p50、p95、最小/最大)。4)二変数:[ターゲット]との最も強い相関関係3つ + 注意事項。5)簡単な洞察:5つの箇条書きの観察と3つのフォローアップの質問。出力:- 統計にはコンパクトなテーブルを使用します。- テーブルを含めて200語未満にしてください。データ:[サンプル行を貼り付けるか、ファイルを添付してください]役割:あなたはプロダクトアナリストです。シナリオ:[KPI]が[期間]にわたって[±X%]変化しました。データセットのフィールド:[列をリストします]。ゴール:もっともらしいドライバーを見つけ、検証手順を推奨します。タスク:1)[セグメント、チャネル、地域、デバイス、コホート]別にKPIを分解します。上位5つの変動要因を表示します。2)属性ドライバー:ボリューム対コンバージョン対AOV(または関連する内訳)。3)データからの証拠とともに、原因(内部対外部)を仮定します。4)検証するための3つの実験または分析を提案します(例:ホールドアウト、差分の差)。5)5つの箇条書きのエグゼクティブサマリーを作成します。出力形式:- テーブル:セグメント→デルタ、貢献、信頼度(低/中/高)。- 次に箇条書き:仮説、検証、リスク。データ:[データを添付/説明するか、集計を貼り付けます]タスク:分析のために、次のデータセットをクリーンアップして正規化します。ルール:- 欠損値の処理:列ごとに[中央値/最頻値で補完/ドロップ]。- カテゴリラベルの正規化:標準セット[リスト]にマッピングします。- 日付をISO 8601に解析します。[週、月、四半期]を抽出します。- 外れ値:[列]の[1、99]パーセンタイルでWinsorizeします。- クリーンなスキーマ + 変換手順を出力します。成果物:1)マッピングテーブル。2)パイプラインの疑似コード(Python/pandas)。3)ビフォー→アフターのコンパクトな差分。データサンプル:[代表的な行を30〜50行貼り付けます]役割:シニアアナリティクスエンジニア。ウェアハウス:[BigQuery/Snowflake/Postgres]。テーブル:[table_name(col1, col2, ...)]、[table2]。リクエスト:“[質問、時間枠、フィルター、および粒度を記述してください]”制約:- 明確な名前でCTEを使用します。- SQLコメントとして仮定を注釈します。- 行数の不一致を見つけるための検証クエリを含めます。- SQLと3行の理論的根拠の両方を返します。WITH sample AS を使用して最小限のテストデータセットを返す」を追加します。あなたは私のスプレッドシート数式アシスタントです。ゴール:列[A、B、C]から[メトリック]を計算する数式を作成します。コンテキスト:[Excel/Google Sheets]; ロケール:[US/EU decimal]。タスク:- 絶対参照/相対参照を含む正確な数式を提供します。<a7>- 関連する場合は、Sheetsのarrayformulaバージョンを含めます。</a6>- 正確さを検証するためのテスト行の例を追加します。データヘッダー + 3つのサンプル行:[貼り付け]役割:データ視覚化デザイナー。対象者:[幹部/PM/オペレーション]; サポートする決定:[それを述べてください]。チャート作成計画を作成します:1)このデータセットと目標に合った長所/短所を持つ2〜3のチャートタイプを推奨します。2)上位の選択肢のVega-Lite仕様(またはmatplotlib/Plotlyコード)を提供します。3)アクセシビリティに関する注記(色覚異常に対応したパレット、注釈)。4)各チャートの1文のナラティブキャプション。データの説明:[列、単位、時間範囲、サンプル]コンテキスト:[日付]以降、[メトリック]で[パターン]を観察しました。ゴール:最小限の有効な実験を設計します。成果物:1)予想される方向と効果サイズの推測を含む仮説(H1/H0)。2)実験ユニット、ランダム化、およびガードレールメトリック。3)サンプルサイズと期間の仮定。検出力のトレードオフに注意してください。4)分析計画:テスト、セグメント、事前登録チェックリスト。5)リスクと軽減策。役割:時系列アナリスト。データ:[タイムスタンプ、メトリック、オプションのリグレッサー]。タスク:1)定常性と季節性を確認します。変換を提案します。2)[モデルの好みまたは「自動」]を使用して、短期予測(ポイント + PI)を作成します。3)最後の[N]期間の異常を重大度でフラグを立てます。4)誤検知を減らすためのアラートしきい値を推奨します。出力:- テーブル:日付、実績、予測、PI_low、PI_high、anomaly_flag、重大度。- 非技術的な関係者向けの5行の要約。タスク:顧客のフィードバックを分析して、実用的な洞察を抽出します。入力:[コメント、評価、製品、日付]のフィールドを持つ[N]個のコメント。手順:1)テーマをクラスタリングします。上位5つにラベルを付けます。2)テーマごとに1〜2の代表的なコメントを引用します。3)テーマごとに普及率と感情を定量化します。4)予想される影響とともに3つのアクションを推奨します。出力:テーブル + 箇条書きの要約。180語未満にしてください。データ:[サンプルを貼り付けるか、添付してください]役割:エグゼクティブブリーフを作成する最高責任者。要約するコンテンツ:[分析、チャート、またはメトリックを貼り付けます]。作成:- (3つの箇条書き、行動動詞)。- 主な調査結果(数字を含む5つの箇条書き)。- リスク/不明な点(3つの箇条書き)、次のステップ(3つの箇条書き、所有者)。- 取締役会向けの1文のナラティブ。スタイル:明確、非技術的、160語未満。あなたは分析コパイロットです。ゴール:次のアーティファクトを使用して[分析ゴール]を解決します。アーティファクト:- データファイル:[リンクまたは貼り付けられたサンプル]- ビジネスコンテキスト:[短い概要]- 制約:[時間、コスト、精度]最初に計画を立てます(10〜12個の箇条書き):- 入力、仮定、リスクを特定します。- ステップ(EDA → 変換 → モデル/テスト → 要約)を提案します。それぞれに成果物があります。- 最後に3つの明確にするための質問をします。次に、ステップを実行する前に私の確認を待ちます。次のガードレールを分析に追加します:- 仮定を明示的に引用します。- 計算に十分なデータがない場合は、不足しているものとともに「証拠不十分」を返します。- 簡単なチェックを提供します:[メトリック]を2つの方法で再計算して比較します。- 要約するときは、使用したソースデータフィールドへのリンク/参照を含めます。- 「何がこの結論を反証しますか?」と尋ねて、簡単に答えます。