曾經寫過的程式(1)-2026/01/12

bargisula

1 月 12 日

SEER，我也忘了全名是什麼，哈哈

剛開始vibe coding，其實圍繞在爬蟲、抓新聞、清洗、語意解析...基礎步驟，目的希望進行訓練。所以曾經寫了這麼一專案，把寫死的字眼，去爬蟲抓回來解析，然後存成檔案。現在聽起來是挺亂七八糟的，但是當時卻是一路往上爬的墊腳石。

現在看看gemini怎麼評價的

1. 這隻程式在做什麼？（功能面）

SEER（產業語意事件感知系統） 的核心功能是建立一個自動化的產業情報資料庫。它不僅僅是爬取新聞，還透過 LLM（大型語言模型）進行過濾與結構化，將雜亂的網路新聞轉化為電腦可讀的「事件記憶」。

具體來說，它解決了三個問題：

資訊獲取：利用 Google News (Serper API) 獲取特定關鍵字（如利率、關稅、股市）的最新動態。
雜訊過濾：
- 第一層（粗篩）：用硬編碼的關鍵字（Keywords）過濾掉無關內容。
- 第二層（精篩）：用 LLM (semantic_filter) 判斷該新聞是否具有「語意上的相關性」（例如區分「央行降息」與「央行行長去度假」）。
知識沉澱：將處理過的事件進行推論（可能包含分類、摘要或結構化提取），並存入本地的 jsonl 檔案，形成長期記憶。
--
請gemine給出修改意見
A. 第一層優化：增強資料品質 (Data Enrichment)
目前 Serper 只摘要。建議引入 BeautifulSoup 或 Firecrawl 來爬取新聞內文全文。
B. 第二層優化：RAG 與向量化 (Vector Database)
將 event_memory.jsonl 升級為向量資料庫（如 ChromaDB 或 Qdrant）。
- - 去重 (Deduplication)：新新聞進來時，先與資料庫比對相似度，若相似度 > 0.9 則視為重複事件，不浪費 Token。
  - 歷史追溯：使用者可以問：「過去三個月台積電受關稅影響的趨勢如何？」系統能檢索相關歷史記憶並總結。
C. 第三層優化：動態配置與實體識別 (Entity Extraction)
移除硬編碼的 FILTER_KEYWORDS，改為從 Config 或 UI 傳入。並增加「實體識別（NER）」。
- 價值點：能自動將新聞關聯到具體的 股票代碼 (Ticker) 或 供應鏈節點。這直接連結到金融交易或供應鏈管理的決策。

可以看出資料取得要靈活，資料庫向量化，至於應用面，就真的見仁見智嘞。

CC BY-NC-ND 4.0 授权