Gethcu & Google Reader





基本上是從Getchu.com抓Game/Anime資料再丟給Google Reader去找出相關的文章。
接著再把相關條目丟給Google Web Search API搜尋:
  • Wikipeida的相關的條目網址(以en, jp, zh三種語言為主)
  • Moeimouto的相關的tag URL
Wikipedia跟Moeimouto都有內建搜尋,不過Getchu抓出的資料當中有蠻多無用的詞彙在其中。所以,搜尋的結果不太好,當然無用的詞彙可以自己過濾,不過要花時間去建立對應表,倒不如直接用Google Web Search去充當過濾器比較快。

另外,我也想過是否要把某些Game/Anime的標題用Google Translate/J-Talk.com將之翻譯成英文或羅馬拼音,近一兩年的Anime/Game都可以用日文標題直接找,某些年代久遠的未必能用日文標題搜尋就可以找出滿意的結果。


怎麼不全用Google Web Search API做?

  1. Web Search API沒有全文輸出,要找內容還是需要自己去抓網頁資料。
  2. 我的Reader大約有300左右的訂閱,只需要2個HTTP Request就可以搜尋約300個左右的訂閱,是比Web Search來的快。
  3. Reader可以指定傳回搜尋結果的數量。預設是20個。相較之下Web Search是8個,要取得20個搜尋結果, Web Search需要做3次HTTP Request。
  4. Web Search API有查詢限額
Anime/Game這部分用Google Reader取得的搜尋結果比我測試Manga的結果好多了,上面右邊的圖是搜尋300訂閱的結果,我想如果把Anime/Game相關的訂閱都放在一個folder之下,結果應該會蠻不錯的。但這也很難完全避免SEO所帶來的雜訊。

沒有留言:

張貼留言