此为历史版本和 IPFS 入口查阅区,回到作品页
bargisula
IPFS 指纹 这是什么

作品指纹

曾經寫過的程式(1)-2026/01/12

bargisula
·
·
SEER,我也忘了全名是什麼,哈哈

剛開始vibe coding,其實圍繞在爬蟲、抓新聞、清洗、語意解析...基礎步驟,目的希望進行訓練。所以曾經寫了這麼一專案,把寫死的字眼,去爬蟲抓回來解析,然後存成檔案。現在聽起來是挺亂七八糟的,但是當時卻是一路往上爬的墊腳石。

現在看看gemini怎麼評價的

1. 這隻程式在做什麼?(功能面)

SEER(產業語意事件感知系統) 的核心功能是建立一個自動化的產業情報資料庫。它不僅僅是爬取新聞,還透過 LLM(大型語言模型)進行過濾與結構化,將雜亂的網路新聞轉化為電腦可讀的「事件記憶」。

具體來說,它解決了三個問題:

  1. 資訊獲取:利用 Google News (Serper API) 獲取特定關鍵字(如利率、關稅、股市)的最新動態。

  2. 雜訊過濾

    • 第一層(粗篩):用硬編碼的關鍵字(Keywords)過濾掉無關內容。

    • 第二層(精篩):用 LLM (semantic_filter) 判斷該新聞是否具有「語意上的相關性」(例如區分「央行降息」與「央行行長去度假」)。

  3. 知識沉澱:將處理過的事件進行推論(可能包含分類、摘要或結構化提取),並存入本地的 jsonl 檔案,形成長期記憶。

    --

    請gemine給出修改意見

    A. 第一層優化:增強資料品質 (Data Enrichment)

    目前 Serper 只摘要。建議引入 BeautifulSoup 或 Firecrawl 來爬取新聞內文全文

    B. 第二層優化:RAG 與向量化 (Vector Database)

    將 event_memory.jsonl 升級為向量資料庫(如 ChromaDB 或 Qdrant)。

      • 去重 (Deduplication):新新聞進來時,先與資料庫比對相似度,若相似度 > 0.9 則視為重複事件,不浪費 Token。

      • 歷史追溯:使用者可以問:「過去三個月台積電受關稅影響的趨勢如何?」系統能檢索相關歷史記憶並總結。

    C. 第三層優化:動態配置與實體識別 (Entity Extraction)

    移除硬編碼的 FILTER_KEYWORDS,改為從 Config 或 UI 傳入。並增加「實體識別(NER)」。

    • 價值點:能自動將新聞關聯到具體的 股票代碼 (Ticker)供應鏈節點。這直接連結到金融交易或供應鏈管理的決策。

可以看出資料取得要靈活,資料庫向量化,至於應用面,就真的見仁見智嘞。


CC BY-NC-ND 4.0 授权