2021.03.09  

【Python】newspaper3kで記事が取得できない時の対処法

newspaper3kで2回目以降の記事取得が行えなくなり困ったので、対処法を記載します。

関数 Article() を使用している場合は、Articleの第二引数に memoize_articles=False を設定します。

Article(URL, memoize_articles=False)

newspaper.build() を使用している場合も同様で、
第二引数に memoize_articles=False を設定します。

newspaper.build(URL, memoize_articles=False)

この設定は記事内容をローカルに保存するかどうかを指定するもので、

Falseに設定するとローカルに記事の保存を行わなくなるので、再度記事のダウンロードが行えるようになるそうです。

ちなみにデフォルト値はTrueです。

参考:Udemy

Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup、Selenium、Requests)

記述例:

import newspaper

url ="https://www.atmarkit.co.jp/"

# ここにmemoize_articles=Falseを設定する
website = newspaper.build(url, memoize_articles=False)  

for article in website.articles:
    csvlist = []
    article.download() 
    article.parse()  
    article.nlp()  
    print("記事", str(i), ":", article.title)
    print(article.url)
    print(article.summary, end="\n\n")

コメント
現在コメントはありません。
コメントする
コメント入力

名前 (※ 必須)

メールアドレス (※ 必須 画面には表示されません)

送信