資料透明
Social Radar 的所有資料來源、處理流程與分析方法,全部公開透明。
12天
資料時間跨度
2026/02/08 — 02/20
資料處理流程
採集階段
每 6-12 小時從 17 個來源自動採集:RSS 訂閱(24 源)、PTT/Dcard/巴哈姆特爬蟲、Google News 關鍵字搜尋。社群平台作者 ID 經 SHA-256 雜湊保護隱私。
資料來源分布
共 5,318 篇文章(去重率 21.6%)來自 17 個來源
📰 新聞媒體 14 個來源
ETtoday 新聞雲
912
17.2%
自由時報
859
16.2%
Google 新聞
632
11.9%
三立新聞
447
8.4%
新頭殼
333
6.3%
中央社
319
6.0%
TVBS 新聞
262
4.9%
東森新聞
226
4.3%
民視新聞
218
4.1%
公視新聞
112
2.1%
聯合報
100
1.9%
關鍵評論網
92
1.7%
風傳媒
87
1.6%
報導者
10
0.2%
💬 社群平台 3 個來源
批踢踢實業坊
590
11.1%
巴哈姆特
105
2.0%
Dcard
14
0.3%
分析方法
熱度分數衡量一個議題近期的受關注程度。
公式:熱度 = Σ(來源權重 × 影響力 × e^(-λ×天數))
- 新聞權重:
1.0,社群權重: 4.0
- 衰減係數 λ =
0.1,窗口 7 天
- 社群權重較高,更能反映真實民意
PMI(逐點互資訊)衡量兩個關鍵字在文章中同時出現的頻率是否超過隨機預期。
- NPMI 閾值:
≥ 0.1
- 關聯類型:顯性(高PMI+高餘弦)、隱性(高PMI+低餘弦)、替代(低PMI+高餘弦)
比較同一議題在新聞與社群的正規化熱度差異。
- gap > 0.3 → 媒體炒作(媒體大量報導但社群冷淡)
- gap < -0.3 → 社群暗湧(社群熱議但媒體忽視)
- 其餘 → 一致
使用 CKIP-BERT 提取關鍵字後,透過種子詞比對與嵌入向量餘弦相似度分類至 9 個議題類別。
類別:能源、經濟、政治、社會、環境、科技、教育、醫療、國防
- 覆蓋率:
78.7%(5,109 / 6,493 關鍵字)
- 每篇文章最多提取
20 個關鍵字