基本上是從Getchu.com抓Game/Anime資料再丟給Google Reader去找出相關的文章。
接著再把相關條目丟給Google Web Search API搜尋:
- Wikipeida的相關的條目網址(以en, jp, zh三種語言為主)
- Moeimouto的相關的tag URL
Wikipedia跟Moeimouto都有內建搜尋,不過Getchu抓出的資料當中有蠻多無用的詞彙在其中。所以,搜尋的結果不太好,當然無用的詞彙可以自己過濾,不過要花時間去建立對應表,倒不如直接用Google Web Search去充當過濾器比較快。
另外,我也想過是否要把某些Game/Anime的標題用Google Translate/J-Talk.com將之翻譯成英文或羅馬拼音,近一兩年的Anime/Game都可以用日文標題直接找,某些年代久遠的未必能用日文標題搜尋就可以找出滿意的結果。
怎麼不全用Google Web Search API做?
- Web Search API沒有全文輸出,要找內容還是需要自己去抓網頁資料。
- 我的Reader大約有300左右的訂閱,只需要2個HTTP Request就可以搜尋約300個左右的訂閱,是比Web Search來的快。
- Reader可以指定傳回搜尋結果的數量。預設是20個。相較之下Web Search是8個,要取得20個搜尋結果, Web Search需要做3次HTTP Request。
- Web Search API有查詢限額
沒有留言:
張貼留言