Social Radar

資料透明

Social Radar 的所有資料來源、處理流程與分析方法,全部公開透明。

17
資料來源
新聞 14 + 社群 3
5,318
已分析文章
去重率 21.6%
12天
資料時間跨度
2026/02/08 — 02/20
78.7%
分類覆蓋率
9 個議題類別

資料處理流程

📰
採集
新聞 + 社群
🧹
清洗去重
SimHash 去重
🔤
斷詞
CKIP-BERT
🔗
分析
PMI 共現
🔥
計分
熱度 + 落差
📊
視覺化
圖譜 + 排行
採集階段
每 6-12 小時從 17 個來源自動採集:RSS 訂閱(24 源)、PTT/Dcard/巴哈姆特爬蟲、Google News 關鍵字搜尋。社群平台作者 ID 經 SHA-256 雜湊保護隱私。

資料來源分布

5,318 篇文章(去重率 21.6%)來自 17 個來源

87%
13%
新聞媒體
社群平台

📰 新聞媒體 14 個來源

ETtoday 新聞雲 912 17.2%
自由時報 859 16.2%
Google 新聞 632 11.9%
三立新聞 447 8.4%
新頭殼 333 6.3%

💬 社群平台 3 個來源

批踢踢實業坊 590 11.1%
巴哈姆特 105 2.0%
Dcard 14 0.3%

分析方法

🔥 熱度計算 文章數量 × 來源權重 × 時間衰減

熱度分數衡量一個議題近期的受關注程度。

公式:熱度 = Σ(來源權重 × 影響力 × e^(-λ×天數))

  • 新聞權重: 1.0,社群權重: 4.0
  • 衰減係數 λ = 0.1,窗口 7
  • 社群權重較高,更能反映真實民意
🔗 關聯分析(PMI) 關鍵字共現統計,建立知識圖譜

PMI(逐點互資訊)衡量兩個關鍵字在文章中同時出現的頻率是否超過隨機預期。

  • NPMI 閾值: ≥ 0.1
  • 關聯類型:顯性(高PMI+高餘弦)、隱性(高PMI+低餘弦)、替代(低PMI+高餘弦)
📊 媒體-社群落差 偵測媒體炒作與社群暗湧

比較同一議題在新聞與社群的正規化熱度差異。

  • gap > 0.3 → 媒體炒作(媒體大量報導但社群冷淡)
  • gap < -0.3 → 社群暗湧(社群熱議但媒體忽視)
  • 其餘 → 一致
🏷 議題分類 9 類議題,種子詞 + BERT 嵌入分類

使用 CKIP-BERT 提取關鍵字後,透過種子詞比對與嵌入向量餘弦相似度分類至 9 個議題類別。

類別:能源、經濟、政治、社會、環境、科技、教育、醫療、國防

  • 覆蓋率: 78.7%(5,109 / 6,493 關鍵字)
  • 每篇文章最多提取 20 個關鍵字