有「股壇長毛」之稱的獨立股評人David Webb本月13日不敵癌魔病逝,其創辦的資訊數據平台Webb-site終獲義工Sergio挺身而出接手,冀延續David的精神,捍衛公眾知情權,守護香港的金融透明度。
數據科學愛好者Sergio接受《追光者》節目《Pulse Check》專訪,提到數年前已加入David的substack(新聞通訊平台)群組。他憶述最初發現Webb-site時,被當中無窮無盡的文件、數據量所震撼,同時亦因與David有收集金融數據的共同喜好而對對方深感敬重,並坦言被 David在病榻中仍堅持工作的不懈精神所啟發,故在眼見未有人願意接手項目的情況下,Sergio毅然獨攬這份使命,不忍珍貴數據從此流失。
過去20年,不少傳媒、財經分析員以至公眾投資者,均依賴David Webb建立的財經資料庫webb-site監察市場運作,更被譽為「照妖鏡」。隨着創辦人宣布患癌後,外界焦點落在網站會否「熄燈」,至去年10月31日,webb-site正式停止運作。Sergio則以原有代碼及數據庫為基礎,延續營運,但由於David不想公眾誤會他與新網站有任何關係,所以Sergio建設新網站時易名為webb-database.com。
Sergio透露,在交接過程中發現,營運這個全港性的財經數據庫,絕非單純的技術問題,舉例David曾自資投入逾千萬港元,亦聘請全職助理處理繁複的數據輸入工作;2024年更嘗試採用「維基百科式」的「群眾外包」(Crowdsourcing)模式,惟最終能持續貢獻高質量數據的核心參與者寥寥可數,導致計劃無疾而終,反映單靠純粹的義工協助來維持一個專業級的金融數據庫,難以穩定地長期運作。
港保存上巿公司公開資料落後 人手辨識董事身份最棘手
Sergio本身的專長,是協助企業自動化其工作流程與業務程序,以提升營運效率,例如價格情報分析、自動化網站相關作業,以及跨系統的數據整合等。對於會否令網站風格變得更現代化,Sergio直言短期內未有計劃改動,重申網站的核心價值始終是來自數據本身,最重要是保存現有數據及在將來持續收集新數據,確保數據正確,並擴展更多資料集(datasets)。他期望能秉承David的精神,創造出賦權市民能更容易與數據互動的工作。
不過,要論最具挑戰性的工作,Sergio就表示「身份辨識」甚為棘手,因香港上市公司董事名稱重覆率極高,而且拼寫格式五花八門(如英文全名與縮寫的混用),單靠自動化程式難以準確區分 。目前團隊仍需透過人手,利用出生日期、履歷等資料進行交叉比對,以確保數據準確。正如俗語所言「Garbage In Garbage Out」,若缺乏嚴謹的人工審核,收集錯誤資料,數據庫的可信度將大打折扣。
在整合數據過程中,Sergio觀察到不少香港未能追上國際的做法。除了數據源頭模糊,很多上市公司的公開資料僅保留一年,令長期的歷史分析變得更加困難。當美國及全球60多個國家已強制使用 XBRL(可擴展商業報告語言)格式,以便機器能夠精準讀取財務數據,而香港的所謂「電子化」卻僅僅將紙本文件以PDF和文字上載,缺乏「機器可讀性」(Machine Readability)思維。
Sergio正致力於透過機器學習與半自動化工具,望能提升數據處理的效率,並計劃引入差餉物業估價署等新數據源,豐富網站內容。
相關新聞
- 2026 年 01 月 13
