Es gibt viele Algorithmen, die auf vergleichender Worthäufigkeit basieren, die beim Clustering , der Schlüsselwortanalyse , tf-idf usw. verwendet werden.
Normalerweise müssen Sie Ihre eigenen Worthäufigkeiten aus Ihrem eigenen Korpus berechnen. Sehr große Korpora sind besser, aber das kostet natürlich viel Arbeit, Platz, Zeit usw. und lenkt von der anstehenden Aufgabe ab.
Ich frage mich, ob es Web-API-Anbieter gibt, die all dies für Sie erledigt haben und programmgesteuerten Zugriff auf Frequenzdaten über das Internet bereitstellen.
Anforderungen:
Um die relative Häufigkeit des Wortes „Smartass“ in 1 Million Wörtern zurückzugeben, fragen Sie Folgendes ab:
https://api.datamuse.com/words?sp=smartass&md=f&max=1
Es gibt aus:
[{"word":"smartass","score":129630,"tags":["f:0.067229"]}]
Extrahieren Sie das Ergebnis aus dem zurückgegebenen json, z. B. mit python like (die Punktzahl ist NICHT die Anzahl):
import requests
_wait = 0.5
def get_freq(term):
response = None
while True:
try:
response = requests.get('https://api.datamuse.com/words?sp='+term+'&md=f&max=1').json()
except:
print 'Could not get response. Sleep and retry...'
time.sleep(_wait)
continue
break;
freq = 0.0 if len(response)==0 else float(response[0]['tags'][0][2:])
return freq
Sie können dies 100.000 Mal am Tag anrufen . Es scheint, dass dies automatisch beibehalten wird, wenn Sie einen einzelnen Prozess ausführen, da die Antwort eine Verzögerung aufweist, sodass es ungefähr 100.000 Antworten pro Tag sind.
Die Zählungen stammen aus dem Google N-Gramm-Korpus.
Izzy
Benutzer416
Benutzer416
Hippiepfad
Hippiepfad
Izzy
Hippiepfad
Kaleb
Hippiepfad
Funkgesteuert