هوش مصنوعی و تشخیص تقلب در تبلیغات دیجیتال

بحث تقلب در تبلیغات دیجیتال بیشتر از قبل بازاریاب‌ها و برندها را نگران کرده است. برخی از افراد تصور می‌کنند که تا به حال در دام تقلب‌ها و افرادی که این تقلب‌ها را ایجاد می‌کنند نیفتاده‌اند اما واقعیت این است که همه ما که کسب و کاری در فضای دیجیتال داریم، در دام این افراد افتاده‌ایم. اما چطور می‌توانیم از تقلب‌های تبلیغاتی و هدر رفتن بودجه‌های تبلیغاتی جلوگیری کنیم؟

یکی از دلایلی که هوش مصنوعی و سایر تکنولوژی‌های پیچیده‌ و پیشرفته‌ وارد صنعت تبلیغات دیجیتال شده‌اند این است تا با این تقلب‌های تبلیغاتی مقابله کنند و فضای سالمی را برای تبلیغات دیجیتال به‌وجود آورند؛ برخی از صاحب نظران در این حوزه، باور داشتند که به دلیل وجود این تکنولوژی‌ها، میزان تقلب در تبلیغات دیجیتال در سال ۲۰۱۸ کاهش خواهد یافت. اما به همان اندازه که تبلیغ‌دهندگان و ناشران بیش از قبل به ابزار شناسایی و پیشگیری از تقلب مجهز می‌شوند، افراد متقلب نیز بیشتر برای پیچیده کردن تقلب‌ها و سخت‌تر شدن راه شناسایی آن‌ها تلاش می‌کنند. درنتیجه، ما تصمیم داریم در این مقاله، عمیق‌تر به بحث تقلب‌ها در تبلیغات دیجیتال بپردازیم و در مورد کاربرد الگوریتم‌های هوش مصنوعی صحبت کنیم تا بتوانیم با بالا بردن سطح دانش افراد فعال در این حوزه، از این تقلب‌ها محفوظ بمانیم.

به گفته گوگل:

” اکوسیستم تبلیغات دیجیتال بر پایه اعتماد ساخته شده‌است و اگر تمام افراد مسئول در این صنعت درست کار کنند  و سعی در فریب دادن بقیه نداشته باشند، تبلیغات دیجیتال می‌تواند به بهترین شکل ممکن کار کند. بنابراین، تقلب‌های تبلیغاتی برای این صنعت مضر هستند زیرا موجب از بین رفتن این اعتماد می‌شوند. ”

زمانی‌که گوگل در سال ۲۰۱۵ برای مقابله با تقلب‌های تبلیغاتی اقدام کرد، لیست سیاهی را تهیه کرد و این لیست تنها در همان زمان موجب شد ۸.۹ درصد از کلیک‌ها را در پلتفرم DoubleClick Campaign Manager حذف کند. اما از آن روزها بحث تقلب گسترده‌تر شده است؛ گزارش‌های اخیر نشان می‌‎دهد که در خریدهای برنامه‌ریزی شده (Programmatic ad buy)، میزان کلیک‌های تقلبی می‌تواند تا ۳۷ درصد برسد. در خریدهای برنامه‌ریزی شده، تبلیغ‌هندگان از وجود ad blocker ها رنج می‌برند، ناشران از آلوده‌شدن فضاهای تبلیغاتیشان به تقلب‌ها و پلتفرم‌های خریدهای برنامه‌ریزی شده (DSP،SSP و Ad Exchange) اعضای خود را به دلیل عملکرد ضعیف و زیاد شدن تقلب در یک پلتفرم از دست داده‌اند. پس چطور می‌توان مشتری‌های خود را حفظ کنیم و تبلیغات سالم و نتیجه‌گرا را برای آن‌ها اجرا کنیم؟

شناسایی تقلب‌های تبلیغاتی اصولا براساس دو اصل صورت می‌گیرد:

  • شناسایی براساس اصول و قواعد تعیین‌شده (Rule-Based Fraud Detection)
  • شناسایی براساس اصول رفتاری مخاطب (Behavioral-Based Fraud Detection)

شناسایی براساس اصول و قواعد تعیین‌شده (Rule-Based Fraud Detection)

مدل شناسایی براساس اصول و قواعد تعیین‌شده (Rule-Based Fraud Detection) یکی از قدیمی‌ترین روش‌های مقابله با تقلب است که کارایی خود را به بازاریاب‌ها، برندها و افراد فعال در حوزه تبلیغات دیجیتال ثابت کرده است.

مدل‌هایی که براساس اصول و قواعد تعیین‌شده تقلب‌ها را شناسایی می‌کنند، معمولا شامل مجموعه‌ای از شرایط از پیش تعیین شده هستند که می‌توانند شرایطی غیر معمول را تشخیص دهند. مدل Rule-Based Fraud Detection برای شناسایی تقلب در شمارش تعداد نمایش، کلیک‌ها، نصب‌ اپلیکیشن، انتقال وجه‌ در سیستم‌های حسابداری و غیره استفاده می‌شود. برای روشن شدن این مدل، به مثال‌های زیر توجه کنید:

* شما برای نصب اپلیکیشن خود تبلیغ می‌کنید؛ در طول اجرای کمپین نتایج را بررسی می‌کنید و متوجه می‌شوید که تعداد نصب‌های اپلیکیشن از تعداد نمایش (impression) آن تبلیغ بسیار بیشتر است.

* طبق آماری که از کمپین‌های قبلی دارید، فاصله زمانی معمول بین اتمام نصب اپلیکیشن و عضویت کاربر در اپلیکیشن، حدودا ۳۰ ثانیه تا ۱ دقیقه است. کمپین جدید شما نشان می‌دهد که برخی از کاربران، تنها ۳ ثانیه پس از نصب اپلیکیشن، حساب کاربری ایجاد کرده‌اند.

* لندینگ پیجی را برای تبلیغ خود انتخاب و کمپین را اجرا می‌کنید. متوجه می‌شوید که در چند روز اجرای کمپین، از یک IP یا یک شماره تلفن چندین حساب کاربری ساخته شده است.

حال پلتفرم‌های رهگیری تبلیغات (Ad Tracking Platform) برای شناسایی تقلب‌های صورت‌گرفته یا کلیک‌ها و نصب‌های غیرواقعی، قواعدی را تعیین می‌کنند تا اگر در زمان اجرای یک کمپین تبلیغاتی، اتفاقی خلاف حالت عادی رخ داد، آن نصب، کلیک یا نمایش شمرده نشود؛ برای مثال

* اگر فاصله زمانی بین نصب تا عضویت کمتر از ۳ ثانیه بود، نصب مورد قبول نیست و شمارش نشود.

* از یک IP یا شماره تلفن فقط یک حساب کاربری ایجاد شود. اگر دو حساب کاربری یا حتی بیشتر بود، عضویت قابل قبول نیست و شمارش نشود.

* اگر تعداد نصب‌های بدست آمده از یک سایت یا اپلیکیشن از تعداد نمایش‌ تبلیغ در آن بیشتر بود، نصب‌ها قابل قبول نیستند و شمارش نخواهند شد و آن سایت/اپلیکیشن از تبلیغات حذف می‌شود.

البته باید اشاره کرد که یکی از چالش‌های استفاده از این مدل، قابل پیش‌بینی بودن این قواعد و شرایط از پیش تعیین‌شده است. این قابل پیش‌بینی بودن، هم جنبه مثبت دارد و هم منفی. جنبه مثبت آن این است که می‌توان این تقلب‌ها را قبل از رخ دادن حدس زد و قواعد را براساس تقلب‌های احتمالی تعیین کرد. از طرفی، به افراد متقلب این امکان را می‌دهد تا از روش‌هایی برای ایجاد تقلب استفاده کنند که این قواعد و شرایط را دور بزنند. یکی دیگر از چالش‌های این روش، وقت‌گیر بودن فرایند تعریف شرایط است؛ این فرایند تنها تعیین شرایط نیست، بلکه تعریف تمام شرایط و حالت‌های‌ محتمل برای رخ دادن تقلب را نیز شامل می‌شود.

روش Rule-Based Fraud Detection تنها در تبلیغات دیجیتال کاربرد ندارد، بلکه در سیستم‌های مالی نیز برای جلوگیری از سواستفاده‌های مالی استفاده می‌شود. به طور مثال، ” اگر تعداد دفعات رمز دوم کارت وارد شده بیش از سه بار بود، کارت بانکی بلاک شود” یا ” اگر میزان وجه انتقال یافته، ۱۰ برابر میانگین گردش حساب مالی فرد بود، به سیستم بانکی هشدار داده شود”.

شناسایی براساس اصول رفتاری مخاطب (Behavioral-Based Fraud Detection)

در این مدل، رفتارهای مخاطبان بررسی می‌شود و با استفاده از تکنولوژی یادگیری ماشین (Machine Learning Technology) و هوش مصنوعی (AI)، این رفتارها از طریق الگوریتم‌ها قابل پیش‌بینی می‌شود. درواقع، هدف اصلی این مدل همین است که با آنالیز رفتارهای مخاطبان و کاربران، رفتارهای غیرمعمول، قابل شناسایی شوند تا بتوان با آن‌ها مقابله کرد.

برای استفاده از هوش مصنوعی در تشخیص تقلب‌های تبلیغاتی، از دو رویکرد یادگیری Supervised(با ناظر) و Unsupervised(بی‌ ناظر) استفاده می‌شود.

رویکرد یادگیری unsupervised بر روی داده‌هایی صورت می‌گیرد که دسته‌بندی مشخصی ندارد. درنتیجه، الگوریتم یادگیری باید بین داده‌های دسته‌بندی نشده، شباهت‌هایی را پیدا کند و آن‌های را طبق ارتباط و شباهت‌هایشان در گروه‌هایی قرار دهد.

یکی از پرکاربردترین روش‌ها در تشخیص تقلب‌ها یا رفتارهای غیرمعمول در تبلیغات دیجیتال، Clustering و Anomaly Detection است. در روش Clustering که یکی از روش‌های بی‌ناظر است، الگوریتم یادگیری سعی می‌کند تا ساختاری را از داده‌ها استخراج کند که دارای شباهت یا ارتباطی با سایر داده‌ها است. در روش Anomaly Detection نیز الگوریتم یادگیری الگوی رفتاری نامتعارف را پیدا می‌کند. این روش به دلیل مشخص نبودن الگوی بسیاری از روش‌های تقلب‌، کاربرد زیادی دارد.

اما در رویکرد Supervised یا با ناظر، داده‌ها دسته‌بندی شده هستند و متغیرها شناخته شده، مشخص یا به اصطلاح label شده‌اند. در تشخیص تقلب‌های تبلیغاتی، این روش زمانی استفاده می‌شود که متغیر هدف، مشخص باشد. برخی از الگوریتم‌های رایج رویکردهای یادگیری supervised که در تشخیص تقلب استفاده می‌شود به شرح زیر است:

  • Random Forrest (Ensemble of Decision Trees): الگوریتم RF مجموعه‌ای از Decision Trees یا درخت‌ تصمیم‌‌هایی است که از داده‌های مشخص و label شده به‌دست می‌آید. این الگوریتم، یک نوع روش یادگیری ترکیبی است که در آن چندین درخت از روی یک نمونه با جایگزینی‌های متفاوت برای دسته‌بندی تمایلات و سایر متغیرها آموزش می‌بینند تا بتوانند پیش‌بینی بهتری داشته باشند؛ گاهی اوقات RF می‌تواند بهتر از یک DT عمل کند.
  • SVM یا Support Vector Machine: الگوریتم SVM یکی از الگوریتم‌های قدرتمند برای تشخیص الگوهای رفتاری غیرخطی، پیچیده و نامتعارف است. این الگوریتم در تشخیص تقلب‌ها استفاده می‌شود زیرا می‌تواند بین داده‌های متفاوت و نامتوازن، ویژگی معناداری را که برای تشخیص تقلب لازم است را پیدا کند.
  • LR یا Logistic Regression: این الگوریتم یکی از الگوریتم‌های شناخته شده در دسته‌بندی است که می‌تواند ارتباطی را میان دسته‌هایی از متغیرهای قابل پیش‌بینی و متغیرهای دوگانه شکل دهد و نتیجه‌ محتملی را بین ۰ و ۱ ایجاد کند.

نظرت را برای ما بنویس