MongoDB
 sql >> Datenbank >  >> NoSQL >> MongoDB

Wie entferne ich die leeren Tweets mit filter() in pyspark?

Wenn Ihre Daten so

tweets = sc.parallelize(["title1", "", "title2", "title3", ""])

Sie können len(x) verwenden als Filterbedingung:

tweets.filter(lambda x: len(x) > 0).count()