Twitterのimpressionとクリック率を増やすための疫学的研究【このブログの事例】

ブログで論文解説の毎日投稿を初めて、1ヶ月以上経ちました。

できるだけ多くの方に見てもらいたいと思ってやっていますが、なかなか伸び悩んでいます。

そこで、どんなツイート内容だと伸びるか、疫学的に解析してみることにしました。

この記事は随時更新していく予定です。

 

Twitterのimpressionとクリック率を増やすための疫学的研究

Twitterのimpressionとクリック率を増やすための疫学的研究

データドリブンってよく言われますが、データドリブンこそ疫学の本領です。

疫学は因果推論が多くを占めており、「どうしたら〇〇するか」ということに答えを出そうとする学問です。

今私は「どうやったらTwitterのimpressionとクリック率が上がるか」ということに興味をもっているので、これをデータから解析しようと思います。

 

ブログでの論文解説は4月から初めて、毎日19時にTwitterで宣伝しています。

また、最近Twitterのフォロワー数は大きく変わっていません。

なので、投稿内容(Twitterの文面)だけからこの解析ができると考えました。

 

5/29時点で40記事を紹介していたので、これが解析対象となります。

 

*ブログの紹介でないツイートやリツイートは対象としていません。

 

 

暴露因子を決める

まずこれからですね。

140文字に世界が広がるので、特徴を掴み切ることは難しいのですが、まずは簡単に測定できるものをピックアップしました。

 

・次の記号の数:!?、。(「・【

・次の文字列の数:「です」「しかし」「でも」「コロナ」「説明」「エビデンス」「論文」「Riklog」

・文字数

・トピック:コロナ、心臓病、それ以外

・(letterとかでない)完成形の論文が対象

・Journal名が入っている

・英語が含まれている

・機械学習やAIについて言及している

 

とりあえずこれくらいにしました。

データが溜まってきたらNLPとかやってみたいです。

 

*連続変数とするかcategoricalとするかは適宜決めています

 

 

アウトカム:インプレッション数とクリック率

この2つがアウトカムなのは妥当だと思います。

 

・インプレッション数に関しては、リツイートの影響を加味したものですね。どれくらい皆様の画面に表示されたか。投稿時間を固定していてフォロワー数があまり変わっていない以上、ほぼリツイートの影響と言えるかもしれません。

→とりあえず表示されることがまず重要なので、これが一つのアウトカムです。

(リツイート数を用いて中間因子解析するのも面白そうですね)

 

・クリック率こそが、Twitterの文章を工夫して上がる見込みのある指標でしょう。ブログの中身は命かけて書いてますが、まず見てくれなきゃどうしようもないです。よってこれが二つ目のアウトカム。

 

******

実際分布はどんな感じかというと、

・インプレッション数

outlierが2つあり(28055と11360)

それを除くと、Median (IQR) は2581 (2347-3382)

 

・クリック率

Median (IQR) は5.7 (3.7-8.2)%

 

でした。

 

 

結果1:インプレッション数と相関する因子

Top quartileとそれ以外(インプレッション数3382以上と未満)で異なる因子を単変量検定してみました。

 

Multiple comparisonを調整するのは無理で、かつp<0.10と幅をもたせてスクリーニングした結果:

・「、」か「。」が多いこと(median 5 vs. 6, p=0.020)

・「エビデンス」という言葉があること(6.7% vs. 30%, p=0.091)

 

こんな所が「相関関係」にありました。

*因果関係でないので注意。nが増えてきたら多変量解析してみます

 

*ちなみにoutlierは、

・一つはNEJMのコロナ情報まとめ記事(review論文):

・一つは機械学習とロジスティクス回帰を比べたという論文:

でした。

Twitterの紹介方法で共通していたことは、

・「!」「?」「です」「でも」「しかし」がない

・「説明」「論文」「Riklog」がある

・「、」「。」が多い(5回と7回)

でした。

 

 

結果2:クリック率と相関する因子

これも、Top quartileとそれ以外(クリック率 8.2%以上と未満)で異なる因子を単変量検定してみました。

結果、

・「、」か「。」が多いこと(median 5 vs. 6, p=0.089)

・「「」があること(13% vs. 40%, p=0.032)

・「エビデンス」という言葉があること(6.7% vs. 30%, p=0.091)

・循環器のトピックであること(10% vs. 50%, p=0.022)

 

割とインプレッション数と似た傾向がみられました。

 

※インプレッション数・クリック率ともにあんまり関係なさそうな因子(P値が高いもの)は、

「()「・」「コロナ」「【】「英語あり」

でした。

 

※Tweetの語数は、インプレッション数・クリック率が高いほうが多いと思いきや、強い傾向は認められませんでした(p=0.35程度)

 

 

解釈は?

因果でなく相関しかみていないので、当然「〇〇した方が良い」とは言えません。

しかし、

・「、」「。」を多めに使う

・「エビデンス」という言葉を使う

・「」を使う

あたりは意識しても良いかも、と思いました。

 

また、review論文と機械学習系の話は伸びやすいかもしれません(当然です)が、このブログでは私が面白いと思った論文を紹介するので、論文の選定は伸びやすさと関連させません。

 

*フォロワー6000人程度の著者が論文解説のブログ記事を紹介する、という極めて限られた状況におけるもので、非常に強いselection biasがあることに注意ください。

 

 

結論

今後もデータに基づいてTweetを行っていきます。

ではまた。

 

-ブログ経過・報告

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.