如果你要使用 Excel 來抓取網頁上的表格資料,可以參考以下的文章:
相同的動作,如果要在Google 試算表中執行,則可以 IMPROTHTML函數。
(參考:https://support.google.com/docs/answer/3093339?hl=zh-Hant)
例如,要抓取本部落格(http://isvincent.pixnet.net)的文章清單第 28頁:
http://isvincent.pixnet.net/blog/listall/28
在儲存格A1輸入:
=IMPORTHTML(http://isvincent.pixnet.net/blog/listall/28,"table",3)
此處的參數 table 是指網頁中資料結構為表格者,參數 3 為第 3 個。
當你輸入完公式,按下 Enter 鍵後,速度很快的就會顯示匯入的結果:
(匯入的資料是靜態結果,並不會跟著網頁內容更新而變動。)
如果你將公式中的參數 table 改成 list,則會得到以下的結果:
對應至網頁中的:
其他相關的函數還有:
IMPORTXML:匯入多種結構化資料類型的資料,包括 XML、HTML、CSV、TSV 和 RSS 以及 ATOM XML 資訊提供。
IMPORTRANGE:匯入指定試算表中特定儲存格的範圍。
IMPORTFEED:匯入 RSS 或 ATOM 資訊提供。
IMPORTDATA:將指定網址的資料匯入成 .csv (逗號分隔值) 或 .tsv (Tab 分隔值) 格式。
全站熱搜
留言列表