ブログで論文解説の毎日投稿を初めて、1ヶ月以上経ちました。
できるだけ多くの方に見てもらいたいと思ってやっていますが、なかなか伸び悩んでいます。
そこで、どんなツイート内容だと伸びるか、疫学的に解析してみることにしました。
この記事は随時更新していく予定です。
Contents
Twitterのimpressionとクリック率を増やすための疫学的研究
データドリブンってよく言われますが、データドリブンこそ疫学の本領です。
疫学は因果推論が多くを占めており、「どうしたら〇〇するか」ということに答えを出そうとする学問です。
今私は「どうやったらTwitterのimpressionとクリック率が上がるか」ということに興味をもっているので、これをデータから解析しようと思います。
ブログでの論文解説は4月から初めて、毎日19時にTwitterで宣伝しています。
また、最近Twitterのフォロワー数は大きく変わっていません。
なので、投稿内容(Twitterの文面)だけからこの解析ができると考えました。
5/29時点で40記事を紹介していたので、これが解析対象となります。
*ブログの紹介でないツイートやリツイートは対象としていません。
暴露因子を決める
まずこれからですね。
140文字に世界が広がるので、特徴を掴み切ることは難しいのですが、まずは簡単に測定できるものをピックアップしました。
・次の記号の数:!?、。(「・【
・次の文字列の数:「です」「しかし」「でも」「コロナ」「説明」「エビデンス」「論文」「Riklog」
・文字数
・トピック:コロナ、心臓病、それ以外
・(letterとかでない)完成形の論文が対象
・Journal名が入っている
・英語が含まれている
・機械学習やAIについて言及している
とりあえずこれくらいにしました。
データが溜まってきたらNLPとかやってみたいです。
*連続変数とするかcategoricalとするかは適宜決めています
アウトカム:インプレッション数とクリック率
この2つがアウトカムなのは妥当だと思います。
・インプレッション数に関しては、リツイートの影響を加味したものですね。どれくらい皆様の画面に表示されたか。投稿時間を固定していてフォロワー数があまり変わっていない以上、ほぼリツイートの影響と言えるかもしれません。
→とりあえず表示されることがまず重要なので、これが一つのアウトカムです。
(リツイート数を用いて中間因子解析するのも面白そうですね)
・クリック率こそが、Twitterの文章を工夫して上がる見込みのある指標でしょう。ブログの中身は命かけて書いてますが、まず見てくれなきゃどうしようもないです。よってこれが二つ目のアウトカム。
******
実際分布はどんな感じかというと、
・インプレッション数
outlierが2つあり(28055と11360)
それを除くと、Median (IQR) は2581 (2347-3382)
・クリック率
Median (IQR) は5.7 (3.7-8.2)%
でした。
結果1:インプレッション数と相関する因子
Top quartileとそれ以外(インプレッション数3382以上と未満)で異なる因子を単変量検定してみました。
Multiple comparisonを調整するのは無理で、かつp<0.10と幅をもたせてスクリーニングした結果:
・「、」か「。」が多いこと(median 5 vs. 6, p=0.020)
・「エビデンス」という言葉があること(6.7% vs. 30%, p=0.091)
こんな所が「相関関係」にありました。
*因果関係でないので注意。nが増えてきたら多変量解析してみます
*ちなみにoutlierは、
・一つはNEJMのコロナ情報まとめ記事(review論文):
・一つは機械学習とロジスティクス回帰を比べたという論文:
でした。
Twitterの紹介方法で共通していたことは、
・「!」「?」「です」「でも」「しかし」がない
・「説明」「論文」「Riklog」がある
・「、」「。」が多い(5回と7回)
でした。
結果2:クリック率と相関する因子
これも、Top quartileとそれ以外(クリック率 8.2%以上と未満)で異なる因子を単変量検定してみました。
結果、
・「、」か「。」が多いこと(median 5 vs. 6, p=0.089)
・「「」があること(13% vs. 40%, p=0.032)
・「エビデンス」という言葉があること(6.7% vs. 30%, p=0.091)
・循環器のトピックであること(10% vs. 50%, p=0.022)
割とインプレッション数と似た傾向がみられました。
※インプレッション数・クリック率ともにあんまり関係なさそうな因子(P値が高いもの)は、
「()「・」「コロナ」「【】「英語あり」
でした。
※Tweetの語数は、インプレッション数・クリック率が高いほうが多いと思いきや、強い傾向は認められませんでした(p=0.35程度)
解釈は?
因果でなく相関しかみていないので、当然「〇〇した方が良い」とは言えません。
しかし、
・「、」「。」を多めに使う
・「エビデンス」という言葉を使う
・「」を使う
あたりは意識しても良いかも、と思いました。
また、review論文と機械学習系の話は伸びやすいかもしれません(当然です)が、このブログでは私が面白いと思った論文を紹介するので、論文の選定は伸びやすさと関連させません。
*フォロワー6000人程度の著者が論文解説のブログ記事を紹介する、という極めて限られた状況におけるもので、非常に強いselection biasがあることに注意ください。
結論
今後もデータに基づいてTweetを行っていきます。
ではまた。